什么是数字人
宽泛地说,只要是【人的形象 + AI科技】,出来一些有意思的效果,大家就可以把它叫AI数字人了。
最开始的数字人,是3d动画,嘴型逐渐可以对上。后面发展为真人,嘴型也比较自然了
![图片[1]-数字人科普,未来的方向探索 - 尔鹿网络-尔鹿网络](https://liyoudong-1305671160.cos.ap-beijing.myqcloud.com/2023/11/20231122160133285.png)
数字人的嘴型可以由算法直接通过语音来生成,不需要人工介入生产。
这里可以把数字人简单的分为2D和3D。区别是2D不涉及3D的建模。这是两项底层原理就不一样的技术,它们最终能实现AI数字人的表现效果的边界不同。表现决定了他的应用场景。
2D数字人是基于视频/照片进行驱动的,目前只能做到高质量地用AI生成唇形表情+有限动作。动作是预先录制固定的动作库,然后,按照一定的规则去调用这个动作的视频片段。因此他的缺陷是有时候动作很不流畅。一个动作的痕迹很明显。它更适合做固定场景的口播。2D形象很好,因为是真人的照片。单张照片驱动人物唇形,目前全球做得最好的公司叫 Heygen。
而3D更有可能成为一个高质量交互的智能体。3D可能形象比较简单,但是动作流畅,很适合互动的场景。
决定AI数字人互动表现的因素,是四项驱动能力:
- 文本:AI数字人说的内容是否适当。
- 语音:AI数字人的声音是否好听。
- 表情:AI数字人的表情是否丰富。
- 动作:AI数字人的动作是否生动
这四个并不是1+1+1+1=4的关系,不仅需要四项单点驱动技术过硬,还要考虑它们之间的协调关系。
目前数字人比较大众的玩法
- 创作播报
- 线下大屏
- 智能客服
- 带货直播
- 智能陪练
- 虚拟桌宠
- 闲聊直播
- AI NPC
- 应用平台
![图片[2]-数字人科普,未来的方向探索 - 尔鹿网络-尔鹿网络](https://liyoudong-1305671160.cos.ap-beijing.myqcloud.com/2023/11/20231123035924406.png)
如果你是想做AI业务,首先提三个问题:
数据样本是什么/在哪里/有多少?
应用场景是什么/解决什么问题?
初始模型是什么/谁做的?
脱离这些基础去谈AI业务的,除非是真正做基础性研究的科学家,其他都是空谈者甚至伪装者。
「生成式AI」的广泛使用,其实是拉低了创业门槛,各类通用大模型的出现以及开源,将让没有内核的业务抄袭变得更加容易,市场上必然会出现大量的同质化项目,各自热闹一番,然后快速消失。真正的AI技术壁垒,并不是一般创业者尤其是初创者能够企及的。
之前的玩法,比如短视频创作,比较火的就是数字人HeyGen,【致富108式】01(进阶)手把手教你做出数字人
AI数字人的本质到底是什么呢?
AI数字人的本质是人形化交互界面
AI的发展,让交互越来越拟人化,越来越还原人正常的沟通方式。
人和人之间,聊微信解决不了问题,那就要打语音了,对吧?
打语音还不痛快,就要开视频了。
开视频还不够,那就必须见面了。
为什么一定要见面呢?因为你能看到真实的人的形象,微表情、微动作,都在传递着各种喜怒哀乐。
这是AI数字人的终极意义:让人和软件的交互,实现真人见面时的沟通体验。
所以它本质是人形化交互界面。
“除了不是人,哪里都像个人”
这三点决定数字人输出内容:
1、知识库
2、流程,需要主动引导用户
3、语言风格
数字人未来如何解呢?
数字人,我目前市场上最大的两个痛点是:表现弱、成本高。
要想解决AI数字人的场景困境,有两种解法:
- 找到更低的业务计算复杂度的场景,让现有的数字人能力足够覆盖,至少在需求层上,提供清晰的价值。
- 提升数字人的综合能力水平,让其可以逼近自然的人类交互水平,从根本上拓宽数字人的应用面。
如何提升数字人的综合能力水平呢?解决两个问题至关重要:
- 用户愿意看
- 数字人能持续聊
数字人能持续聊呢?
- 一问一答的被动应答,不是人与人的沟通方式,数字人要能适时地结合上下文语境主动、被动的进行互动。
- 只回答用户的知识性提问,也不是数字人存在的意义,这样的需求,语音/文本交互即可轻松解决。
- 数字人的知识库数据要能动态更新,在规模化的场景中能实现自主更新。
- 要更深入的结合业务场景,让数字人能发挥主动引导的作用。
要结合更多的技术做扩展,比如Agent技术,丰富数字人处理对话任务的多样性,让数字人有记忆等等。
![图片[3]-数字人科普,未来的方向探索 - 尔鹿网络-尔鹿网络](https://liyoudong-1305671160.cos.ap-beijing.myqcloud.com/2023/11/20231123051935644.png)
暂无评论内容