AI 声音克隆实操

一）AI 声音克隆概述

AI 声音克隆此次主要介绍两种，分别是 IVC 和PVC，IVC（Instant Voice Cloning ）也就是即时语音克隆，允许用户近乎即时地从较短的样本中创建语音克隆；PVC（Professional Voice Cloning）也就是专业语音克隆，与 IVC 相比可以产出具有更理想效果的声音。

IVC 即时语音克隆

即时语音克隆（IVC）允许使用者可以用约等于即时的声音作为样本，从较短的样本中创建语音克隆。创建即时语音克隆不会训练或创建自定义 AI 模型。相反，它依赖于训练数据中的先验知识来做出有根据的猜测，而不是对确切的声音进行训练。这对很多声音都非常有效。

这里的先验知识指的是系统在处理新的声音样本之前，已经从大量数据中学到的信息。这些信息可能包括不同人声的特征、语音模式、发音习惯等。系统利用这些已经学习的知识来识别和模仿新的声音，而不是从零开始学习每一个新声音的特性。这样做可以提高效率和准确性。

AI 将尝试模仿它在音频中听到的一切：包括说话人的速度以及语调、口音和音调、呼吸模式和强度，以及噪音、口部点击声等一切，包括可能混淆它的噪音和杂质，这就要求了你提供音频的纯净度要高。

IVC 基本上就可以满足我们日常的使用，性价比相对来说也很高，价格方面，IVC 的训练和在Elevenlabs 里只需要首月 1 美元即可，还是很超值的；时间方面，基本上只需要准备一个几分钟的纯净音频，等待几分钟就可以得到能直接使用的声音。

PVC 专业语音克隆

专业声音克隆（PVC），与即时声音克隆（IVC）不同，后者允许你可以立即使用非常短的样本克隆声音，而 PVC 则允许你训练一个超逼真的声音模型。这是通过在大量的声音数据上训练一个专用模型来实现的，以产生一个与原始声音无法区分的模型。也就是说当你对 IVC 的结果不满时，或者你想一步到位生成一个难分真假的声音模型时，就可以使用 PVC。

根据前文所说，PVC的良好效果，依赖于大量的声音数据，并且声音数据的质量也要够高，这也就代表了得到最终的训练结果需要较长的时间，在 ElevenLabs 里训练的话差不多要一个月左右，并且要花至少 11 美元来订阅会员才可以定制，这里就推荐大家可以使用 SVC 自己训练，差不多一个下午或者一整晚就会得到满意的效果，具体时间和效果还是要视你训练所提供的数据集而定。

不论是 IVC 和 PVC 的应用和训练，都有以下几点需要注意：

如果你尝试克隆的声音超出了这些参数或超出了人工智能在训练期间所听到的内容，使用即时声音克隆完美复制声音可能会有困难。
录制音频的方式比样本的总长度（总运行时间）更重要。你使用的样本数量并不重要；重要的是总的组合长度（总运行时间）。大约1-2分钟的清晰音频，没有任何混响、杂质或任何类型的背景噪音，是最好的选择。也就是在录制的时候，最好没有其他杂音和混响，保证干净的人声。
其次关于声音的感情或者语调方面，AI 将尝试复制你提供的声音的表现。也就是说如果你以缓慢、单调的声音说话，没有太多情感，那么 AI 也会模仿这样的声音，当你富有感情的录制声音样本时，那么就会得到更具感情的 AI 声音克隆音频。但是！整个样本中的声音保持一致，不仅在音调上，而且在表现上也要如此。如果变化太大，把 AI 会搞懵掉，产出的效果自然会不好。
获得适当克隆的最重要方面是声音本身、语言和口音，以及录音的质量。音频长度比质量不太重要，但在某个点之前仍然扮演着重要角色。输入音频的最低长度应为1分钟。避免超过3分钟；这将带来很小的改进，并且在某些情况下甚至可能对克隆产生不利影响，使其更不稳定。
找到音量的良好平衡，使音频既不太安静也不太响亮。理想情况是在-23 dB至-18 dB RMS之间，真峰值为-3 dB。

声音克隆软件对比

下一部分就是 AI 声音克隆的实操部分了，大家可以根据教程的指导，完成自己的声音克隆制作，克隆后声音产出的作品可以与数字人进行联合使用，从而达到更好的视频效果。在实操之前，我们先来对比一下此次教学的两个软件的区别，此次主要教学两个方法分别是： llElevenLabs和 So-VITS-SVC 这两个克隆软件的使用。

选择这两款克隆软件的原因有三：首先，两款软件都是现在主流的声音克隆软件，上手虽较为简单，但是也不至于傻瓜式操作，需要教学指导；其次，两款软件的声音克隆效果都很优秀，且相对来说投入的金额和时间都较少，性价比优秀；最后，两款软件的使用门槛较低，绝大部分船员都可以直接上手使用。

为方便各位船员在不同使用场景下，选择最终的声音克隆方法，特别总结了两者的区别和优缺点，为方便各位船员查看，总结成下表，可以根据自己的需要对照表格中的各项信息来选择使用。

	llElevenLabs	So-VITS-SVC
电脑配置	网页操作，基本无配置门槛	本地运行要求：最低内存要求:8G(即需要64位操作系统)最低显存要求:6G；推荐使用英伟达NVIDIA系列显卡
氪金方面	最低需要 1 美元，若需 PVC 则最低需要 11 美元	本地运行：达到配置要求则0元云上训练：按训练时长计算，以 AutoDL 为例，1.88元/小时
网络环境	需要使用科学上网	不需要科学上网
上手难度	简单、快捷，对电脑小白友好	复杂，相对来说较难，对电脑小白来说门槛较高
训练效果	英文语音基本上无可挑剔；中文需看数据集质量和运气	只要你的训练数据够好，中英文效果都不错