数字人科普，未来的方向探索 - 尔鹿网络-尔鹿网络

数字人科普，未来的方向探索

李又懂（4314991）

2年前更新

018012

什么是数字人

宽泛地说，只要是【人的形象 + AI科技】，出来一些有意思的效果，大家就可以把它叫AI数字人了。

最开始的数字人，是3d动画，嘴型逐渐可以对上。后面发展为真人，嘴型也比较自然了

图片[1]-数字人科普，未来的方向探索 - 尔鹿网络-尔鹿网络

数字人的嘴型可以由算法直接通过语音来生成，不需要人工介入生产。

这里可以把数字人简单的分为2D和3D。区别是2D不涉及3D的建模。这是两项底层原理就不一样的技术，它们最终能实现AI数字人的表现效果的边界不同。表现决定了他的应用场景。

2D数字人是基于视频/照片进行驱动的，目前只能做到高质量地用AI生成唇形表情+有限动作。动作是预先录制固定的动作库，然后，按照一定的规则去调用这个动作的视频片段。因此他的缺陷是有时候动作很不流畅。一个动作的痕迹很明显。它更适合做固定场景的口播。2D形象很好，因为是真人的照片。单张照片驱动人物唇形，目前全球做得最好的公司叫 Heygen。

而3D更有可能成为一个高质量交互的智能体。3D可能形象比较简单，但是动作流畅，很适合互动的场景。

决定AI数字人互动表现的因素，是四项驱动能力：

文本：AI数字人说的内容是否适当。
语音：AI数字人的声音是否好听。
表情：AI数字人的表情是否丰富。
动作：AI数字人的动作是否生动

这四个并不是1+1+1+1=4的关系，不仅需要四项单点驱动技术过硬，还要考虑它们之间的协调关系。

目前数字人比较大众的玩法

创作播报
线下大屏
智能客服
带货直播
智能陪练
虚拟桌宠
闲聊直播
AI NPC
应用平台

图片[2]-数字人科普，未来的方向探索 - 尔鹿网络-尔鹿网络

如果你是想做AI业务，首先提三个问题：
数据样本是什么/在哪里/有多少？
应用场景是什么/解决什么问题？
初始模型是什么/谁做的？

脱离这些基础去谈AI业务的，除非是真正做基础性研究的科学家，其他都是空谈者甚至伪装者。

「生成式AI」的广泛使用，其实是拉低了创业门槛，各类通用大模型的出现以及开源，将让没有内核的业务抄袭变得更加容易，市场上必然会出现大量的同质化项目，各自热闹一番，然后快速消失。真正的AI技术壁垒，并不是一般创业者尤其是初创者能够企及的。

之前的玩法，比如短视频创作，比较火的就是数字人HeyGen，【致富108式】01（进阶）手把手教你做出数字人

AI数字人的本质到底是什么呢？

AI数字人的本质是人形化交互界面

AI的发展，让交互越来越拟人化，越来越还原人正常的沟通方式。

人和人之间，聊微信解决不了问题，那就要打语音了，对吧？

打语音还不痛快，就要开视频了。

开视频还不够，那就必须见面了。

为什么一定要见面呢？因为你能看到真实的人的形象，微表情、微动作，都在传递着各种喜怒哀乐。

这是AI数字人的终极意义：让人和软件的交互，实现真人见面时的沟通体验。

所以它本质是人形化交互界面。

“除了不是人，哪里都像个人”

这三点决定数字人输出内容：

1、知识库

2、流程，需要主动引导用户

3、语言风格

数字人未来如何解呢？

数字人，我目前市场上最大的两个痛点是：表现弱、成本高。

要想解决AI数字人的场景困境，有两种解法：

找到更低的业务计算复杂度的场景，让现有的数字人能力足够覆盖，至少在需求层上，提供清晰的价值。
提升数字人的综合能力水平，让其可以逼近自然的人类交互水平，从根本上拓宽数字人的应用面。

如何提升数字人的综合能力水平呢？解决两个问题至关重要：

用户愿意看
数字人能持续聊

数字人能持续聊呢？

一问一答的被动应答，不是人与人的沟通方式，数字人要能适时地结合上下文语境主动、被动的进行互动。
只回答用户的知识性提问，也不是数字人存在的意义，这样的需求，语音/文本交互即可轻松解决。
数字人的知识库数据要能动态更新，在规模化的场景中能实现自主更新。
要更深入的结合业务场景，让数字人能发挥主动引导的作用。

要结合更多的技术做扩展，比如Agent技术，丰富数字人处理对话任务的多样性，让数字人有记忆等等。

图片[3]-数字人科普，未来的方向探索 - 尔鹿网络-尔鹿网络

© 版权声明

文章版权归作者所有，未经允许请勿转载。

THE END

喜欢就支持一下吧

相关推荐

评论抢沙发

欢迎您留下宝贵的见解！

提交

暂无评论内容