目前对数字人领域探索比较多,之前看到微软推出了自己的数字人之后,在破局星球立刻发布了一条风向标,体验还是相当 Nice,文末会有展示视频。
微软的叫法是:文本转语音头像!这项创新功能不仅允许用户通过文本输入来创建能够说话的头像视频,还能使用人类图像训练来制作实时互动的智能机器人。
今天这篇文章中,我会详细介绍这个功能的特性、优势和技术细节,并通过一系列实例展示它在不同场合的应用方法。
1、什么是文本转语音头像?
文本转语音头像是一项结合了视觉技术的文本转语音功能,它可以让用户制作出 2D 逼真头像的合成说话视频(让图片开口讲话)。这些头像模型是通过深度神经网络训练而成的,训练材料来自于真人视频录制样本(声音克隆)。
头像的声音则是由先进的文本转语音声音模型所提供(TTS),使其更加生动真实。
微软说构建头像的主要有两个原因:
- 一是因为传统的视频内容制作不仅耗时而且成本高昂,涉及到搭建拍摄环境、录制和剪辑等多个环节。文本转语音头像使用户可以更高效、更简便地创建视频内容,只需输入文本,就能制作出培训视频、产品介绍、客户评价等。
- 二是随着 Azure OpenAI 服务及神经文本转语音技术的推出,数字互动变得更加自然和流畅。文本转语音头像让用户可以创造出更生动、更引人入胜的数字交互体验,例如可以利用头像开发对话型代理、虚拟助手、聊天机器人等。
在头像内容生成的流程中,有三个核心环节:文本分析器、文本转语音音频合成器和文本转语音头像视频合成器。首先,文本被输入到文本分析器中,并被转化为音素序列。接着,文本转语音音频合成器根据文本的声学特征来预测并合成声音,这两个步骤都由文本转语音的声音模型完成。最后,神经文本转语音头像模型根据这些声学特征预测唇形同步的图像,从而生成逼真的合成视频。
![图片[1]-微软数字人如何使用? - 尔鹿网络-副业项目库论坛-副业能力、技能、信息、教学-尔鹿网络](https://geek.liyoudong.cn/wp-content/uploads/2024/01/image-790.png)
文本转语音头像可以做什么?
使用文本转语音头像,无论是利用预制头像还是定制头像,你都可以创造出各种引人入胜的视频,如培训视频、演示视频等。
它还可以帮助你为客户、员工和其他受众提供富有互动性的应用程序体验。
Azure AI 语音宣布了文本转语音头像的公开预览,其中涵盖了多种应用场景,例如:
1批量视频内容创作
- 企业培训视频
- 产品介绍或广告材料
- 让 CEO 的数字分身在会议中发表演讲
2实时互动应用
- 旅游网站的聊天机器人
- 直播商业活动中的虚拟销售
- AI 老师在线授课,可答疑解惑
- 回答员工疑问的虚拟 HR
如何使用?
微软本次发布的版本,同时支持 AzureAI Speech Studio 的 UI 工具和 API 访问
具体的使用教程查看文章:
微软数字人如何使用?
![图片[2]-如何开始着手建群-副业项目库论坛-副业/创业-李又懂](https://geek.liyoudong.cn/wp-content/uploads/2023/12/%E5%9B%BE%E6%80%AA%E5%85%BD_4568ffb80a0cde51718167b4a3b66ed5_78552-1.jpg)
本文转自教程《AI数字人》,获取全套教程,可关注上方李又懂的公众号,后台回复【AI数字人】免费获取全套教程~
![图片[3]-数字人应用场景分享-副业项目库论坛-副业能力、技能、信息、教学-李又懂](https://liyoudong-1305671160.cos.ap-beijing.myqcloud.com/2024/01/20240130145810476.png)
没有回复内容