无界AI市场总监李本涨：AIGC 数字化身与多模态大模型深度结合，多模态数字化身的时刻已基本到来

62 0 0

AI 新智界讯，1 月 5 日，“智求共赢・中国 AIGC 产业应用峰会暨无界 AI 生态合作伙伴大会”在杭州未来科技城召开。大会由杭州未来科技城管委会、余杭区科技局和余杭区企业（人才）综合服务中心联合指导，时戳科技主办，AI 新智界提供媒体特别支持。大会上，无界 AI 市场总监李本涨发表“AIGC 结合数字化身的产业化应用与落地”主题演讲。

他表示，曾经的 AI 绘画色彩单一、线条粗犷、画面混乱、人像非常不像，而如今的 AI 绘画色彩丰富、线条细腻、结构清晰、人像变得真像。由于 AI 绘画在人像层面的快速发展，AIGC 数字化身的时刻基本已经到来。此外，针对 AIGC 数字化身的未来方向，李本涨表示，AIGC 的数字化身未来必然要跟多模态大模型做深度结合，即多模态数字化身。这类化身拥有具体形象、人格特征、存在多种身份，并且可以做到人机交互。

无界AI市场总监李本涨：AIGC 数字化身与多模态大模型深度结合，多模态数字化身的时刻已基本到来

以下是 AI 新智界整理的演讲内容，为方便阅读已进行部分删减：

今天我很荣幸跟大家分享下无界 AI 在数字化身领域的一些探索和落地的案例，以及我们对于未来方向的思考。

AI 人像绘画从“不像”到“真像”

目前大家看到了非常多的新颖的优秀作品，我特别想做的一件事情就是想让大家看一下 AI 绘画在两年前是什么样的。

这些画就是两年前 AI 绘画呈现的样子。因为我在 2021 年底开始接触 AI 绘画，当时玩的就是 Disco Diffusion，它给我带来的冲击非常大。在我看来，可能有些人认为 2022 年是 AI 绘画的元年，但是我作为一个相对比较早期接触 AI 绘画的艺术家，我认为在 2021 年 10 月，AI 绘画的元年就已经展开了，就是由 Disco Diffusion 为代表的扩散模型带来的。

为什么当时我们没有考虑做 AIGC 的数字人(14.230, -0.67, -4.50%)或者 AI 化身？因为我们尝试用当时的技术画了一下，可以看到人像层面的表现（下图所示），它可能在场景层面因为整体效果显得恢宏大气，具有一定艺术价值，但在人像层面却不尽如人意。

所以我们认为早期的 AI 绘画（早期阶段可能是在最初 2021 年下半年或是 2022 年初），它的绘画色彩可能比较鲜艳，但线条非常粗犷，画面逻辑比较混乱，人像完全不像人。

因此，无界 AI 在探索行业发展的时候，也在不断等待，等待技术本身的自我迭代和进化。在等待的过程中，我们逐渐发现 AI 开始画得有点像了，或者说它在人体结构或是人体表现力上逐渐变得更加优秀。到最后，它在整个面部细节上，会让你认为它确实画的是一个人，而不是一个非人。

直到 AI 人像绘画“奇点”的出现。

上图也是用 AI 绘画绘制的一幅人像作品，但大家一眼就能认出来 AI 画的是钢铁侠。

我们发现可以用 AI 绘画这样更逼真的三维人物，以及无界 AI 推出的真人模型，能够把抽象的 AI 人物画得更像了。

然后，就是我们今天发布的影像模型，你会发现已经不能说是一眼 AI，你甚至已经难辨真假了。

从这样的技术发展路径来看，我们认为 AI 已经可以开始去做人像相关赛道的业务发展了。正如我刚才提到的，曾经的 AI 绘画是色彩鲜艳、线条粗犷，但是画面混乱、人像不像，现在已经变成了色彩丰富、线条细腻、结构清晰、人像变得真像。

这是因为 AI 绘画在人像层面的快速发展。所以，我们认为它进入 AIGC 数字化身的时刻基本上已经到来了。

AIGC 数字化身应用实例

在开展业务过程当中，我们也逐渐发现怎么样能够让 AI 人像赛道做起来更加不一样？对此，我们引入了数字化身的 LoRA 模型训练，加上底层的基底人像模型，最后生成对应的 AIGC 数字化身。

跟大家分享一下我们做的几个应用实例。

如上图所示，这是我们跟 vivo 手机的 vivo 短视频内置应用合作的 AIGC 化身产品，叫写真大片。通过无界 AI 数字化身技术，vivo 在短视频应用中引入了 AI 写真大片的功能。

这是无界 AI 最近与另一个合作方《神隐》一同制作的关于 AIGC 数字化身的项目。这几张图的妆造都是这部剧里面的妆造，但最后生成的效果，中间人物的脸都变成用户本身替换的人脸。

从这个案例切入，我们认为当 AIGC AI 数字化身结合 IP，它就能创造一个新的粉丝经济。因为过往粉丝群体非常喜欢这个电视剧，但是他们对这部剧的支持形式有限。而现在有了 AIGC AI 化身之后，他们除了一些表象的支持之外，还可以更加深入地参与进去体验，包括可以用 AI 绘画的能力来参与共同创作中。

第三个案例来自与无界 AI 有着深度合作的企业“匠韵智能”。由深圳匠韵智能研发的一体机，接入无界 AI 提供的数字化身模型效果，共同打造出一款适用于景区、商场等线下场景的 AIGC 数字化身一体机。

简单来说，这个案例是通过一个真人，加上一个实体的 AI 机器。就是用户上传自己的照片，最后生成 AI 化身的人物形象。这个模式类似于以前的大头照。你可以生成各种各样的风格，比如你在不同的景区，你可以通过实体的机器打卡，变成景区的 AI 形象。

AIGC 数字化身未来展望

在分享几个关于 AI 数字化身的案例之后，无界 AI 也在思考关于 AI 数字化身的未来方向，它的展望应该是怎样的？

最近有一个概念非常火，就是多模态大模型。在我们看来，AIGC 数字化身未来必然要跟多模态大模型做深度结合，对此我称之为“多模态数字化身”。

简单解释一下多模态大模型，其实就是能够让 AI 更贴近真实世界，通过并非单一的一种模型能力，去实现跟真实世界的输入和输出。通过这样的形式，我们认为 AI 才具有更强的人的属性，而不是说单纯只能解决一个特定的问题。

同时，我们也对多模态数字化身的特点做了分析和定义：

拥有具体形象。因为是数字化身，它需要一个具体的形象，它可以是人类，也可以是类人。它不一定是一个真实的人类形象，也可能是卡通的形象，或者是一些动物的拟人形象。通过具体的形象，来表现它的外在形式。
具有人格特征。作为一个数字人，它需要有一个性格特征。以最近这一年比较火的 I 人和 E 人为例，我觉得未来 16 人格也能够套用到对于 AI 人格的解析。
存在多种身份。可能现在有一些虚拟伴侣、虚拟偶像，像在游戏当中也逐渐运用到 AI 在里面做 NPC，或者训练自己的虚拟宠物。AI 未来会有大量不同的身份，但它会在特定场景下表现出对应的身份，可能它今天是你的偶像，明天就变成了你的对象。
可以人机交互。这跟硬件、软件相关，除了头显之外，未来肯定也会有更多的交互方式。

从这几个维度出发，因为它是一个多模态大模型，所以不同的模型是解决不同的问题。比如说“像不像”的问题，可以通过 Midjourney、无界 AI、SD、Dall-E 等生成外观形象，因为现在已经进入到能够解决“像不像”问题的阶段。关于人格特征和多种身份，其实这是 AI 的自我认知，这一块更多跟大语言模型相关，就是 ChatGPT。最终的人机交互，不管是手机、平板还是头显，它都有多种交互形式，最终能够产生不同的交互效果。

结合多模态数字化身的概念，我觉得它会带来一个哲学思考。像著名哲学家笛卡儿说的“我思故我在”，人类也在思考我为什么是我，包括庄周梦蝶也是一样，我是不是在别人的梦境当中。从这个角度来讲，多模态的数字化身要思考的问题就是“我像故我存”，这个“像”不再是表面长得像不像的形象问题，它更多是在多模态大模型下的行为模式是不是跟人类足够相像。我觉得在未来发展当中，通过多模态大模型的引入，“像不像”的问题会逐步得到解决。同时，可能有更加深度的人工智能思想去考虑这个问题。

所以，无界 AI 在数字化身上的探索，从早期的“画得像”，然后慢慢地变成现在的“长得像”，这个数字化身长得像，未来引入多模态之后，整个行为模式更像。这就是我们对于数字化身未来发展相对而言比较完整的思考路径。

最后，还是用这句话：“我思故我在，我像故我存。”用多模态数字化身，去探索更真的 AI 数字生命。

（来源：东寻）

# 资讯