我用 5 分钟音频克隆了自己的声音，效果惊人

✍️ 影音栏目🕒 2026年3月25日📖 6 分钟阅读🔥 热门

试了几款 AI 语音克隆工具，从训练到生成全程体验，发现 ElevenLabs 和 GPT‑SoVITS 各有千秋。这篇文章有对比、有示例，还有对版权的提醒。

为什么要玩语音克隆？

我想给视频配音，又不想自己录（懒），而且想让声音听起来更自然。AI 语音克隆正好能满足这个需求。

ElevenLabs 是最成熟的语音克隆平台。上传 5 分钟我的录音（尽量清晰无杂音），训练几分钟，就能生成几乎一模一样的语音。语气、停顿、甚至口音都复制得很好。付费版每月 $5 起，免费版有字数限制。

GPT‑SoVITS 是开源项目，可以本地运行。需要至少 1 小时的高质量音频才能训练出好效果，对硬件要求也高（至少 6GB 显存）。但胜在完全免费，且隐私有保障。

千万别用别人的声音克隆干坏事（诈骗、造谣）。克隆自己的声音也要注意，避免被他人滥用。

语音克隆是好工具，但要用在正道上。

💡

录制训练素材时，尽量在安静环境，用麦克风，保持语速平稳。多录几种情绪（平静、开心、严肃）能让克隆效果更好。