从像素到个性化:腾讯混元定制如何重塑AI视频生成

作者
Lang Wang
9 分钟阅读

从像素到个性化:腾讯混元Custom如何重新定义AI视频生成

AI视频创作领域静悄悄的革命

2025年5月8日,腾讯向生成式AI领域发布了一项重大更新——大多数人并未注意到。但如果你从事市场营销、媒体、电商或AI投资工作,混元Custom将是一个值得记住的名字。这项发布不仅仅是拥挤的视频生成工具领域中又一个模型——它是一种基础设施层面的转变。该模型提供了一种开放或封闭平台都未能在大规模上令人信服地实现的功能:身份一致、多模态的视频定制。

在一个日益由合成媒体主导的世界里,在不同帧、动作和输入中保持数字人物的真实性不仅仅是一个技术挑战——它是一种商业必需。无论你是部署数字品牌大使、制作名人形象动画,还是在无需重拍的情况下替换视频内容中的角色,身份一致性都是成败的关键变量。

混元Custom杰出范例
混元Custom杰出范例

混元Custom通过一系列架构创新直接解决了这个问题。结果是什么?在可控性、定制化和视觉一致性方面实现了飞跃——这是可扩展合成内容的三大支柱。


为何这件事现在如此重要?

视频流量已经占到互联网流量的80%以上。生成式AI正被用于加速从广告制作和虚拟形象创建到虚拟讲师和动画产品展示的一切事物。但到目前为止,一个问题限制了更广泛的应用:一致性不足。人脸在帧间变形。音频与唇部动作不匹配。身份在运动中变得模糊。

腾讯混元Custom直接解决了这些缺陷,集成了多模态控制输入(文本、图像、音频、视频),并将它们编织成一个一致、可控的输出。这不仅仅是一个功能升级——它是一个可以进一步构建的基础设施改进。

对投资者而言,信息很明确:混元Custom有望成为商业级AI视频内容的基础模型。其开源承诺可能会在未来的市场份额动态中改变竞争格局。


架构解析:混元Custom有何不同?

让我们分解一下关键创新,以及它们对开发者和企业用户为何重要:

1. 真正有效的多模态条件控制

与许多在复杂输入组合下表现不佳的前代模型不同,混元Custom能将文本、图像、音频和视频融合为一个连贯的输出。无论你是想生成一个能说话的CEO数字分身,还是一个能对环境声音做出反应的服装模特,这个模型都能处理。

📌 关键创新: 基于LLaVA的文本-图像融合,统一理解视觉身份和语言指令——这对于自然的动作和表情至关重要。

2. 身份一致性引擎

该系统的核心是图像ID增强模块。它利用VAE潜在空间和3D位置嵌入,在视频帧间传播主体身份,而非简单地“复制粘贴”面部特征。这确保了主体在运动、遮挡或表情变化下仍可识别。

📌 为何重要: 之前的模型存在抖动和身份随时间丢失的问题。混元Custom的时间一致性升级修复了这些问题。

3. 音频无漂移

在传统模型中,注入音频驱动唇同步往往会损害主体的视觉身份。腾讯的解决方案是:身份分离音频网络(Identity-Disentangled AudioNet),它对每帧应用空间交叉注意力,确保准确同步且无视觉失真。

📌 商业相关性: 支持创建声音自然的虚拟形象,可用于客户支持、在线教育或互动营销。

4. 快速高效的基于视频编辑

混元Custom还允许将现有视频用作输入源——例如,替换背景角色或将新的发言人插入到之前拍摄的广告中。

📌 技术突破: 其**视频驱动注入模块(Video-Driven Injection Module)**能以最小计算开销,直接将参考视频的编码特征添加到生成流程中。

方法示意图
方法示意图


基准测试揭示:它真的更好吗?

在与Vidu、Pika、Keling和Skyreels等开源和商业平台进行的技术比较中,混元Custom在多方面领先。

模型人脸相似度 (↑)DINO相似度 (↑)时间一致性 (↑)
Vidu 2.00.4240.5370.961
Keling 1.60.5050.5800.914
Pika0.3630.4850.928
混元Custom0.6270.5930.958

这些数字表明该模型在身份保留场景真实感时间连贯性方面表现更佳。这不仅仅是一项技术胜利——它也是一个商业赋能者。


具有商业潜力的实际应用

混元Custom的优势在于其在多种用例中的适应性:

广告与营销

品牌可以在本地化营销活动中使用一致的数字品牌大使,支持唇同步的多语言信息。

虚拟试穿与电商

服装品牌可以从静态图片生成逼真的动作演示,减少对昂贵拍摄的依赖。

教育与培训

可以为不同人群创建个性化视频讲师,保持视觉和音调质量一致。

视频编辑与制作

工作室现在可以在现有素材中替换角色或插入新信息,无需重新拍摄,并避免深度伪造痕迹。

游戏与元宇宙

可以从少量输入生成逼真的形象,为虚拟世界解锁下一代个性化。


采用面临的挑战与考量

虽然性能前景光明,但仍有几个值得注意的问题:

  • 硬件要求:该模型建议使用80GB GPU内存以获得最佳输出——这意味着对大多数创作者而言并非即插即用。
  • 腾讯的优势:系统的规模和质量源于腾讯的资源基础。在缺乏类似基础设施的情况下,复现类似结果可能不容易。
  • 第三方验证:虽然该模型是开源的,但许多基准测试是内部进行的。广泛采用将取决于社区的复现和验证。

下一代内容经济的基础设施

混元Custom不仅仅是又一个AI模型——它是企业生成、定制和扩展高质量视频内容方式的平台层面的进步。尤其在被封闭花园式解决方案充斥的竞争市场中,其走向开源发布使其更具颠覆性。

对于内容创作者、机构和投资者而言,混元Custom代表着一个转折点。凭借卓越的身份控制、多模态灵活性和企业级性能,它为下一阶段合成媒体提供了核心支撑。

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯

我们网站使用Cookie来启用某些功能,为您提供更相关的信息并优化您在我们网站上的体验。更多信息请参阅我们的 隐私政策 和我们的 服务条款 。强制性信息可在 法律声明