AI 音频是指由人工智能 (AI) 系统生成的计算机生成的声音。它是使用复杂的算法和深度学习技术来模仿人声的声音、音调和变化而创建的。这些 AI 生成的声音可用于各种应用程序,包括虚拟助手、聊天机器人、有声读物和导航系统。
AI 音频是通过在录制的人类语音的大型数据集上训练机器学习算法来创建的。这些算法学习识别数据中的模式,例如语调、语气和节奏,并利用这些知识生成听起来自然且像人类的新语音。
AI 音频最著名的例子之一是 Siri 的声音,Siri 是 Apple 设备上使用的虚拟助手。其他例子包括亚马逊的Alexa,Google Assistant和Microsoft的Cortana。这些人工智能声音已成为现代技术中越来越普遍的特征,预计未来将变得更加普遍。
一)AI 音频分类介绍
目前 AI 音频大概有以下6种分类:
- 音频处理与分析:使用AI来增强、编辑或转换音频信号。例如,噪声减少、回声消除或音频质量提升。
- 语音识别:将人类的语音转换为可读的文本。这是AI音频领域最广泛应用的技术之一,广泛用于助手技术、自动字幕生成和语音控制系统。
- 文本到语音(TTS):将文本转换为自然听起来的语音。这项技术使得机器能够以人类的声音读出文本,用于朗读器、虚拟助手等。这里是 openai 的 TTS 文件:https://platform.openai.com/docs/guides/text-to-speech 里面介绍了如何使用,感兴趣的同学可自行查看。
- 音乐生成:使用AI来创作音乐或生成音乐伴奏。AI可以分析音乐风格并创作出新的旋律和和声,有兴趣的同学,这一点可以去看元峰老师分享过的 AI 音乐相关帖子:t.zsxq.com
- 情感分析:分析语音中的情感倾向,用于客户服务、心理健康评估等领域。
- 声音合成:创建新的声音或模仿现有声音,例如合成名人的声音或创造全新的虚拟角色声音,也就是包括了声音克隆和声音创造,这部分也是此次手册重点介绍的部分 。
虽然现在的 AI 音频远没有 AI 绘图和 AI 文本技术成熟,不过已经可以使用在一些场景当中了。目前的 AI 音频可以说已经到了难辨真假的地步,我在破局线下会谈官的宣传视频开头就使用了 AI 音频复刻了洋哥的声音,因为没有让洋哥录制过,所以洋哥听了都直呼 “这咋听着是我的声音?”,大家可以听一下:https://t.zsxq.com/15hxyxgGb,所以这项技术还是很有的玩的。
二)AI 音频的发展路线
AI 音频的发展其实早在八十年代就已经开始,并逐渐融入到了我们的生活当中,我们平时使用的各种语音助手,甚至一些 MIDI 合成音乐也都是其产物,只不过现在随着 AI 浪潮的爆发,我们可以更加感受到这一技术的应用,也拉进了我们与 AI 音频的距离。AI 音频的发展路线简单来说分为以下几个阶段:
1. 初期探索(1980s-2000s)
- 基础语音识别:早期的语音识别系统主要依赖于基本的模式匹配和数字信号处理。
- 音频编辑工具:提供基本的音频处理功能,如音量调整、剪辑和合成。
- MIDI音乐合成:利用MIDI技术进行电子音乐的创作和播放。
2. 深度学习革命(2000s-2010s)
- 深度神经网络的应用:深度学习技术的引入大幅提升了语音识别和音频处理的性能。
- 高级文本到语音(TTS)系统:生成更自然和流畅的人声,如Google的WaveNet。
- 情感分析的应用:开始利用机器学习技术分析语音中的情感倾向。
3. 多元化与融合(2010s-2020s)
- 自然语言处理的整合:将NLP技术与音频处理结合,提升语音识别和理解的复杂度。
- 音乐生成和自动作曲:AI开始能够创作音乐,模仿不同风格和艺术家。
- 多模态交互技术:结合视觉、听觉和触觉信息,提供更丰富的用户体验。
4. 实时处理与边缘计算(2020s-)
- 边缘计算的集成:将AI音频处理能力集成到移动设备和物联网设备中,实现更快的响应和更低的延迟。
- 个性化和适应性:AI系统根据用户行为和偏好进行学习和适应,提供定制化音频体验。
- 实时语音翻译:利用AI进行即时的语音到语音翻译,打破语言障碍。
三)AI 音频使用风险提示
大家要注意的是,为降低使用风险和规避不必要的麻烦, AI 音频的制作和使用一定要遵循以下原则:
- 禁止使用 AI 音频对公众人物、政治人物或其他容易引起争议的人物进行声音的复刻及声音商用或其他不当用途。
- 使用 AI 音频制作的作品产出和传输的信息需符合中国法律、国际公约的规定、符合公序良俗。不将本整合包以及与之相关的服务用作非法用途以及非正当用途。
- 禁止将 AI 音频用于血腥、暴力、性相关、或侵犯他人合法权利的用途。
- 任何发布到视频平台的基于 AI 音频制作的作品,都最好要在简介明确中指明用于各种音频转换技术转换输入的源歌声、音频;若使用是自己的人声,或是使用其他声音合成引擎合成的声音作为输入源进行转换的,也最好在简介加以说明。
二、AI 音频应用软件
一)TTS 类 AI 音频软件
TTS 也就是 Text-to-speech,文字转语音可以说是视频创作者的福音了,前有剪映的小帅小美,后有 AI 音频爆发后的各种声音,通过消除对配音演员和录制会话的需求,大大减少了制作时间和成本。现在可以凭借 AI 音频多样化的可自定义语音和口音,使得创作者能够提高视频和语音内容的质量、创作更多引人入胜的内容,更好的吸引观众并将他们的视频提升到一个新的水平。 下面将给给大家介绍几款主流好用的 TTS 类音频软件:
- openai TTS
使用地址:https://platform.openai.com/docs/guides/text-to-speech
![图片[1]-AI 音频软件概况介绍 - 尔鹿网络-副业项目库论坛-副业能力、技能、信息、教学-尔鹿网络](https://geek.liyoudong.cn/wp-content/uploads/2024/01/image-399-1024x493.png)
需要使用 openai 的音频 API,根据 API 提供 speech 基于 TTS(文本转语音)模型的终结点。它带有 6 种内置语音,可用于:
- Narrate a written blog post 叙述书面博客文章
- Produce spoken audio in multiple languages 生成多种语言的语音音频
- Give real time audio output using streaming 使用流式传输提供实时音频输出
优点是价格相比于 11 labs 便宜的多,openai 官方出品,音频效果质量肯定是有保证的,并且中文也较为自然,不至于是老外味儿的普通话。缺点首先是需要先获取 Open AI 的 API ,然后需要配置一堆文件,较为繁琐复杂,对小白和非程序员来说不太友好;其次,目前内置只有 6 个可直接使用的声音,若需要进行声音克隆就需要与 RVC 配合使用。
- TTS-Online
使用地址:https://www.ttson.cn/
![图片[2]-AI 音频软件概况介绍 - 尔鹿网络-副业项目库论坛-副业能力、技能、信息、教学-尔鹿网络](https://geek.liyoudong.cn/wp-content/uploads/2024/01/image-400-1024x586.png)
一款免费的语音转文字的线上应用,短小精悍,页面十分简洁,基本上属于上手就能用的软件,不需要配置各种代码,内置了已经训练好的几十种声音可供选择,包括不但不限于:中文及各国语言,甚至还有粤语等方言,甚至还有经典的渣渣辉的声音。用来直接做短视频的配音还是很有特色的。一大亮点在于内置了训练好的各种游戏或动画中二次元角色的声音,可以直接使用,做短视频或者有兴趣的同学可以打开思路进行创作。
- LOVO Genny
使用地址: https://lovo.ai/custom-voice
![图片[3]-AI 音频软件概况介绍 - 尔鹿网络-副业项目库论坛-副业能力、技能、信息、教学-尔鹿网络](https://geek.liyoudong.cn/wp-content/uploads/2024/01/image-401-1024x517.png)
一款极其强大的AI语音生成器,可以做到逼真的文本到语音,拥有强大的语音克隆功能,以AI语音生成器为核心。具有超级丰富的功能集,可以提供无与伦比的画外音制作体验,包含100多种语言,声音不只是机器音,还会感受到输出语音情绪的爆发。甚至官网自称是世界上最先进的 AI 语音生成器哈哈哈,不知道 11labs 会不会同意。但是其功能确实强大,不仅内置了例如奥巴马,A 妹等名人的声音,更可以在线克隆自己的声音,或者其他任何你想克隆的声音,克隆完成后,输入文本即可在线生成。
![图片[4]-AI 音频软件概况介绍 - 尔鹿网络-副业项目库论坛-副业能力、技能、信息、教学-尔鹿网络](https://geek.liyoudong.cn/wp-content/uploads/2024/01/image-402-1024x502.png)
这款软件让人惊讶的地方是可以节省文本输入时间,有些优点是不得不提一下:可以直接上传 word、pdf 等文档,直接读取文档中的内容填充到文本框中,不需要复制粘贴,但是文本内容要在5000字内,大家可以自行体验。
它的主要缺点就是要花钱啊,并且是要花大价钱啊,一开始会送基础版 20 分钟的免费额度,而订阅专业版需要 24 美刀一个月,比 ChatGPT plus 都要贵 4 美元,虽然好用,大家按需购买,或者换个思路:无限注册新邮箱,无限薅基础版 20 分钟的羊毛。
- llElevenLabs
使用地址:https://elevenlabs.io/
![图片[5]-AI 音频软件概况介绍 - 尔鹿网络-副业项目库论坛-副业能力、技能、信息、教学-尔鹿网络](https://geek.liyoudong.cn/wp-content/uploads/2024/01/image-403-1024x504.png)
这款 AI 音频软件不仅支持 TTS,还支持 STS (speech to speech)和声音克隆。这款软件的优点首先是具有 STS 功能,也就是直接上传一段音频,可以将音频中的音色置换为这款软件的内置音色或者是你上传克隆的音色;其次,这款 AI 音频软件的中文语音生成质量也是较为优秀的,特别是上传一段高质量的中文语音数据集进行训练后,生成的效果是基本没有机器味儿或者老外味儿的。最后,它的额度是以字数计算的,免费版有 10000 字,订阅基础版后会有 30000 字,可以说是相当够用了。这款也是我经常使用的 AI 音频软件,方便省事儿,质量也说得过去。
它的主要缺点还是需要氪金,价格相比于 Genny 来说便宜很多,特别是首月还会打折,打折后基础版第一个月 1 美元,后续为 5 美元每月,并且有 6 种付费方案,最高是业务增长版 330 美元每月,所以还是让人肉疼的,并且只支持国外的支付方式,对于大多数人来说还是很不方便的。
二)SVC 类 AI 音频软件
SVC(Singing Voice Conversion),歌声转换,也就是类似变声器的东西,抽取一个人的声音作为训练数据,训练一个神经网络模型,学习他的声线;然后用模型在目标歌曲上做推理,即可实现用自己的声线唱目标歌曲。
- So-VITS-SVC
目前市面上主要使用 So-VITS-SVC 这款软件,这款软件的优点首先是可以训练任何自己想要的声音,其次是不仅可以转换普通的说话语音,还可以转换歌声,大家上半年在 B 看到的 AI 孙燕姿等各种 AI 歌手就是使用这款软件来做的。
而它的缺点就是需要本地部署,对电脑配置具有一定的要求,并且对声音数据集的要求较高,需要做好前期工作。不过大家不要有畏难情绪,这款软件的操作也是本手册重点介绍的的部分,本地部署、云端训练和数据集的处理都会进行讲解,具体操作请看下文。
本内容来源文章:
AI 音频(声音定制,声音克隆)
![图片[2]-如何开始着手建群-副业项目库论坛-副业/创业-李又懂](https://geek.liyoudong.cn/wp-content/uploads/2023/12/%E5%9B%BE%E6%80%AA%E5%85%BD_4568ffb80a0cde51718167b4a3b66ed5_78552-1.jpg)
本文转自教程《AI数字人》,获取全套教程,可关注上方李又懂的公众号,后台回复【AI数字人】免费获取全套教程~
![图片[3]-数字人应用场景分享-副业项目库论坛-副业能力、技能、信息、教学-李又懂](https://liyoudong-1305671160.cos.ap-beijing.myqcloud.com/2024/01/20240130145810476.png)
没有回复内容