数字人科普,未来的方向探索

什么是数字人

宽泛地说,只要是【人的形象 + AI科技】,出来一些有意思的效果,大家就可以把它叫AI数字人了。

最开始的数字人,是3d动画,嘴型逐渐可以对上。后面发展为真人,嘴型也比较自然了

图片[1]-数字人科普,未来的方向探索 - 尔鹿网络-尔鹿网络

数字人的嘴型可以由算法直接通过语音来生成,不需要人工介入生产。

这里可以把数字人简单的分为2D和3D。区别是2D不涉及3D的建模。这是两项底层原理就不一样的技术,它们最终能实现AI数字人的表现效果的边界不同。表现决定了他的应用场景。

2D数字人是基于视频/照片进行驱动的,目前只能做到高质量地用AI生成唇形表情+有限动作。动作是预先录制固定的动作库,然后,按照一定的规则去调用这个动作的视频片段。因此他的缺陷是有时候动作很不流畅。一个动作的痕迹很明显。它更适合做固定场景的口播。2D形象很好,因为是真人的照片。单张照片驱动人物唇形,目前全球做得最好的公司叫 Heygen。

而3D更有可能成为一个高质量交互的智能体。3D可能形象比较简单,但是动作流畅,很适合互动的场景。

决定AI数字人互动表现的因素,是四项驱动能力

  • 文本:AI数字人说的内容是否适当。
  • 语音:AI数字人的声音是否好听。
  • 表情:AI数字人的表情是否丰富。
  • 动作:AI数字人的动作是否生动

这四个并不是1+1+1+1=4的关系,不仅需要四项单点驱动技术过硬,还要考虑它们之间的协调关系。

目前数字人比较大众的玩法

  • 创作播报
  • 线下大屏
  • 智能客服
  • 带货直播
  • 智能陪练
  • 虚拟桌宠
  • 闲聊直播
  • AI NPC
  • 应用平台
图片[2]-数字人科普,未来的方向探索 - 尔鹿网络-尔鹿网络

如果你是想做AI业务,首先提三个问题:
数据样本是什么/在哪里/有多少?
应用场景是什么/解决什么问题?
初始模型是什么/谁做的?

脱离这些基础去谈AI业务的,除非是真正做基础性研究的科学家,其他都是空谈者甚至伪装者。

「生成式AI」的广泛使用,其实是拉低了创业门槛,各类通用大模型的出现以及开源,将让没有内核的业务抄袭变得更加容易,市场上必然会出现大量的同质化项目,各自热闹一番,然后快速消失。真正的AI技术壁垒,并不是一般创业者尤其是初创者能够企及的。

之前的玩法,比如短视频创作,比较火的就是数字人HeyGen,【致富108式】01(进阶)手把手教你做出数字人

AI数字人的本质到底是什么呢?

AI数字人的本质是人形化交互界面

AI的发展,让交互越来越拟人化,越来越还原人正常的沟通方式。

人和人之间,聊微信解决不了问题,那就要打语音了,对吧?

打语音还不痛快,就要开视频了。

开视频还不够,那就必须见面了。

为什么一定要见面呢?因为你能看到真实的人的形象,微表情、微动作,都在传递着各种喜怒哀乐。

这是AI数字人的终极意义:让人和软件的交互实现真人见面时的沟通体验

所以它本质是人形化交互界面。

“除了不是人,哪里都像个人”

这三点决定数字人输出内容:

1、知识库

2、流程,需要主动引导用户

3、语言风格

数字人未来如何解呢?

数字人,我目前市场上最大的两个痛点是:表现弱、成本高

要想解决AI数字人的场景困境,有两种解法:

  • 找到更低的业务计算复杂度的场景,让现有的数字人能力足够覆盖,至少在需求层上,提供清晰的价值。
  • 提升数字人的综合能力水平,让其可以逼近自然的人类交互水平,从根本上拓宽数字人的应用面。

如何提升数字人的综合能力水平呢?解决个问题至关重要:

  • 用户愿意看
  • 数字人能持续聊

数字人能持续聊呢?

  • 一问一答的被动应答,不是人与人的沟通方式,数字人要能适时地结合上下文语境主动、被动的进行互动。
  • 只回答用户的知识性提问,也不是数字人存在的意义,这样的需求,语音/文本交互即可轻松解决。
  • 数字人的知识库数据要能动态更新,在规模化的场景中能实现自主更新。
  • 要更深入的结合业务场景,让数字人能发挥主动引导的作用。

要结合更多的技术做扩展,比如Agent技术,丰富数字人处理对话任务的多样性,让数字人有记忆等等。

图片[3]-数字人科普,未来的方向探索 - 尔鹿网络-尔鹿网络

© 版权声明
THE END
喜欢就支持一下吧
点赞12 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容