微软数字人如何使用？

李又懂（4314991）

1年前发布

910

目前对数字人领域探索比较多，之前看到微软推出了自己的数字人之后，在破局星球立刻发布了一条风向标，体验还是相当 Nice，文末会有展示视频。

微软的叫法是：文本转语音头像！这项创新功能不仅允许用户通过文本输入来创建能够说话的头像视频，还能使用人类图像训练来制作实时互动的智能机器人。

今天这篇文章中，我会详细介绍这个功能的特性、优势和技术细节，并通过一系列实例展示它在不同场合的应用方法。

1、什么是文本转语音头像？

文本转语音头像是一项结合了视觉技术的文本转语音功能，它可以让用户制作出 2D 逼真头像的合成说话视频（让图片开口讲话）。这些头像模型是通过深度神经网络训练而成的，训练材料来自于真人视频录制样本（声音克隆）。

头像的声音则是由先进的文本转语音声音模型所提供（TTS），使其更加生动真实。

微软说构建头像的主要有两个原因：

一是因为传统的视频内容制作不仅耗时而且成本高昂，涉及到搭建拍摄环境、录制和剪辑等多个环节。文本转语音头像使用户可以更高效、更简便地创建视频内容，只需输入文本，就能制作出培训视频、产品介绍、客户评价等。
二是随着 Azure OpenAI 服务及神经文本转语音技术的推出，数字互动变得更加自然和流畅。文本转语音头像让用户可以创造出更生动、更引人入胜的数字交互体验，例如可以利用头像开发对话型代理、虚拟助手、聊天机器人等。

在头像内容生成的流程中，有三个核心环节：文本分析器、文本转语音音频合成器和文本转语音头像视频合成器。首先，文本被输入到文本分析器中，并被转化为音素序列。接着，文本转语音音频合成器根据文本的声学特征来预测并合成声音，这两个步骤都由文本转语音的声音模型完成。最后，神经文本转语音头像模型根据这些声学特征预测唇形同步的图像，从而生成逼真的合成视频。