本文目录
1、什么是文本转语音头像?
2、这次发布包括哪些内容?
2.1内制版文本转语音头像
2.2定制版文本转语音头像(需要申请)
3、文本转语音头像可以做什么?
3.1批量视频内容创作
3.2实时互动应用
4、如何使用?
4.1 Azure Al Speech Studio
4.2会说话的虚拟形象
4.3注册Azure 账户
4.4内置形象
5、API版本测试
5.1GitHub链接
5.2谷歌Colab链接
5.3运行代码及解释
最后的话
目前对数字人领域探索比较多,之前看到微软推出了自己的数字人之后,体验还是相当 Nice。
微软的叫法是:文本转语音头像!这项创新功能不仅允许用户通过文本输入来创建能够说话的头像视频,还能使用人类图像训练来制作实时互动的智能机器人。
今天这篇文章中,我会详细介绍这个功能的特性、优势和技术细节,并通过一系列实例展示它在不同场合的应用方法。
1、什么是文本转语音头像?
文本转语音头像是一项结合了视觉技术的文本转语音功能,它可以让用户制作出 2D 逼真头像的合成说话视频(让图片开口讲话)。这些头像模型是通过深度神经网络训练而成的,训练材料来自于真人视频录制样本(声音克隆)。
头像的声音则是由先进的文本转语音声音模型所提供(TTS),使其更加生动真实。
微软说构建头像的主要有两个原因:
- 一是因为传统的视频内容制作不仅耗时而且成本高昂,涉及到搭建拍摄环境、录制和剪辑等多个环节。文本转语音头像使用户可以更高效、更简便地创建视频内容,只需输入文本,就能制作出培训视频、产品介绍、客户评价等。
- 二是随着 Azure OpenAI 服务及神经文本转语音技术的推出,数字互动变得更加自然和流畅。文本转语音头像让用户可以创造出更生动、更引人入胜的数字交互体验,例如可以利用头像开发对话型代理、虚拟助手、聊天机器人等。
在头像内容生成的流程中,有三个核心环节:文本分析器、文本转语音音频合成器和文本转语音头像视频合成器。首先,文本被输入到文本分析器中,并被转化为音素序列。接着,文本转语音音频合成器根据文本的声学特征来预测并合成声音,这两个步骤都由文本转语音的声音模型完成。最后,神经文本转语音头像模型根据这些声学特征预测唇形同步的图像,从而生成逼真的合成视频。
![图片[1]-微软数字人如何使用? - 尔鹿网络-尔鹿网络](https://geek.liyoudong.cn/wp-content/uploads/2024/01/image-790.png)
2、这次发布包括哪些内容?
我们目前提供两种文本转语音头像功能:内制版和定制版。
2.1内制版文本转语音头像
微软在 Azure 平台上为订阅用户提供了预制的文本转语音头像产品,可以即插即用。这些头像能够根据文本输入用不同的语言和声音进行交流。客户可以从多种选项中选择一个头像,用来创造视频内容或开发具有实时头像反应的互动应用程序。
![图片[2]-微软数字人如何使用? - 尔鹿网络-尔鹿网络](https://geek.liyoudong.cn/wp-content/uploads/2024/01/image-791-1024x475.png)
2.2定制版文本转语音头像(需要申请)
定制版功能使客户能够为他们的产品或品牌创建个性化头像。客户可以上传自己的头像视频录制,系统将利用这些视频训练一个定制头像的合成视频。客户可以为他们的头像选择预制或定制的神经语音(声音克隆)。如果同时使用同一人的声音和形象创建定制的神经语音和文本转语音头像,该头像将非常接近于该人。(数字人克隆)
作为微软对负责任 AI 的承诺,文本转语音头像功能旨在保护个人和社会的权利,促进透明的人机交互,并防止有害的深度伪造和误导性内容的传播。因此,定制头像是一个限制访问功能,仅限注册用户使用,并且只适用于特定用例。要在你的商业应用中使用此功能,请在此处注册你的应用案例并申请访问权限。
3、文本转语音头像可以做什么?
使用文本转语音头像,无论是利用预制头像还是定制头像,你都可以创造出各种引人入胜的视频,如培训视频、演示视频等。
它还可以帮助你为客户、员工和其他受众提供富有互动性的应用程序体验。
Azure AI 语音宣布了文本转语音头像的公开预览,其中涵盖了多种应用场景,例如:
3.1批量视频内容创作
- 企业培训视频
- 产品介绍或广告材料
- 让 CEO 的数字分身在会议中发表演讲
3.2实时互动应用
- 旅游网站的聊天机器人
- 直播商业活动中的虚拟销售
- AI 老师在线授课,可答疑解惑
- 回答员工疑问的虚拟 HR
4、如何使用?
微软本次发布的版本,同时支持 AzureAI Speech Studio 的 UI 工具和 API 访问
本文转自教程《AI数字人》,获取全套教程,可关注上方李又懂的公众号,后台回复【AI数字人】免费获取全套教程~
![图片[43]-数字人应用场景分享-李又懂](https://liyoudong-1305671160.cos.ap-beijing.myqcloud.com/2024/01/20240130145810476.png)
暂无评论内容