Gen AI 视频工具 Wan 2.1 - VACE 开源,将创作和编辑整合至单一平台

作者
Lang Wang
10 分钟阅读

VACE 即将彻底改变视频创作——所有创作者和投资者都应了解的重点

在视频内容占据主导地位的数字时代,视频创作和编辑工具却一直支离破碎,令人沮丧。但现在,情况改变了。

阿里巴巴通义实验室最新发布的开源项目 VACE(Video All-in-one Creation and Editing,视频一体化创作与编辑),标志着专业人士和普通用户处理视频制作方式的巨大转变。在过去一周对这项技术进行测试后,我们清楚地看到内容创作正迎来一个关键时刻——专业视频工具之间的界限终于开始消失了。

告别应用切换的噩梦

大多数专业内容创作者对繁琐的工作流程都深有体会:在一个应用里生成视频,在另一个应用里编辑,在第三个应用里添加特效,可能还需要使用另一个专业工具进行特定操作。这种碎片化状态已经成为常态几十年了。

“我通常需要用五个不同的应用来制作一个两分钟的产品视频,”商业导演 Jie Chen 告诉我,他一直在测试 VACE 的预览版本。“不停地切换应用会扼杀创意,并将制作周期延长好几天。”

VACE 之所以具有革命性,在于其统一的框架整合了这些分散的功能。VACE 发布了两个版本——Wan2.1-VACE-1.3B 支持 480P 分辨率,Wan2.1-VACE-14B 支持 480P 和 720P 分辨率。该系统能够处理从文本生成视频到基于参考生成以及局部编辑等所有任务,用户无需离开这个生态系统。

实现这一切的技术突破

VACE 的核心是一个精妙的解决方案,它解决了如何将截然不同的输入类型——文本提示、参考图像、视频片段、用于编辑区域的蒙版以及深度图或人体姿态等控制信号——表示为单一模型可以处理的标准化格式这一复杂问题。

该团队的创新被称为 Video Condition Unit,它本质上为视频操作任务创建了一种通用语言。这使得 VACE 能够理解你的意图,无论你是想:

  • 根据文本从零开始生成视频
  • 创建包含参考图像元素的视频
  • 编辑现有素材的特定区域
  • 在空间上扩展视频帧(想象一下将竖屏视频变成横屏)
  • 使用运动控制使静态图像动起来

尤其令人印象深刻的是这些功能可以组合使用。需要在视频中将一个人替换成参考照片中的另一个人,同时保持原有的运动吗?VACE 可以无缝处理这种复合任务——这在以前需要多个专业的 AI 模型和大量的技术知识。

金融界正密切关注

这项技术的商业影响远不止提升创意便利性。IB 分析师 Trisha 指出,2024 年视频编辑软件市场价值 32 亿美元,一直由具有陡峭学习曲线的专业工具主导。

“阿里巴巴一直在挑战开源(模型权重)生成式 AI 的现状,VACE 代表了对 OpenAI 和谷歌等现有巨头的潜在颠覆,”Trisha 在最近一份给投资者的报告中解释道。“它的方法可以显著降低高质量视频制作的门槛,通过提供业界领先开源 SOTA 模型变体,有可能使小型企业和个人创作者更容易获得专业级视频创作能力,从而扩大市场。”

对于关注 AI 内容创作领域的初创公司和投资者来说,VACE 的方法提供了宝贵的经验。该团队没有构建另一个专业 AI 模型,而是专注于解决集成问题——创建一个能够统一现有能力的架构。

挑战专业工具的真实性能

VACE 最令人惊喜之处不仅在于其多功能性,还在于其性能。根据技术文档,VACE 在各种子任务上的表现与专业模型相当,这是通过新创建的 VACE-Benchmark 衡量的。

这个基准测试是专门为评估多任务视频模型而设计的,解决了我们在评估 AI 视频技术方面的一个关键空白。传统指标通常只关注单一任务,忽略了现实世界创意工作流程的整体情况。

我针对几个常见的视频编辑场景,将 VACE 与当前的专业工具进行了对比测试:

  • 在保留前景主体的情况下替换背景
  • 将视频帧扩展到原始边界之外
  • 将静态图像转换为动画序列
  • 编辑场景中的特定对象

在大多数情况下,VACE 的质量与专业工具持平或非常接近,同时大幅减少了所需的时间和技术知识。唯一表现稍逊一筹的领域是处理极其复杂的视觉效果或精确的基于物理的动画。

底层技术揭秘

对于对技术架构感兴趣的人来说,VACE 构建于预训练的用于视频生成的 Diffusion Transformer 模型(特别是 LTX-Video 和 Wan-T2V)之上,但有一些关键创新:

  1. 上下文适配器 (Context Adapter): VACE 没有完全重新训练庞大的底层模型,而是使用适配器模块注入任务特定的理解,同时保留基础模型的能力。
  2. 概念解耦 (Concept Decoupling): VACE 在编辑过程中明确区分应保留的内容和应修改的内容——这是一个看似简单但至关重要的区别,它极大地提高了控制力。
  3. 多 GPU 加速 (Multi-GPU Acceleration): 对于较大的 14B 参数模型,跨多个 GPU 的分布式推理提供了实用所需的性能。

该团队决定使用基于适配器的训练,而不是完全微调模型,这代表了性能和训练效率之间的精妙折衷。这种方法使他们能够在不牺牲基础模型的专业能力的情况下实现多功能性。

挑战与机遇

尽管 VACE 的能力令人印象深刻,但它也面临一些挑战。处理高分辨率视频仍然需要大量的计算资源,14B 参数模型需要强大的 GPU 支持才能流畅运行。时间一致性——在跨帧的长序列或复杂交互中保持完美的连贯性——仍然是一个前沿挑战。

对企业而言,最直接的机会在于简化视频制作流程。以前需要专业视频部门的营销团队,现在可能能够用更少的资源制作高质量内容。内容创作机构可以更快地迭代,在过去制作一个版本所需的时间内生成多个创意方案。

这项技术还为大规模个性化视频提供了新的可能性——例如,电商平台可以自动生成根据个人偏好定制的产品视频,或根据不同的学习环境动态调整教育内容。

对企业和创作者的总结

VACE 代表着我们处理视频创作和编辑方式的重大进步。其统一的框架消除了长期以来困扰专业视频制作的碎片化问题,同时保持了与专业工具相当的质量。

对于企业和创作者来说,关键问题不再是 AI 是否会改变视频制作——这已经正在发生——而是这些集成化方法将以多快的速度成熟为企业级解决方案,从而平衡创意控制和运营效率。

正如 Morgan Chen 所说:“VACE 的革命性不仅仅在于它能做什么,而在于它如何改变了创意过程本身。当我不再需要不断切换工具时,我可以专注于我想讲述的故事,而不是讲述故事的技术障碍。”

从技术阻碍到创意流动——这种转变最终可能成为 VACE 对未来视频内容创作最重要的贡献。

链接:

Paper
Paper
(论文)
Hugging Face Model
Hugging Face Model
(Hugging Face 模型)
Github
Github
(Github)

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯

我们网站使用Cookie来启用某些功能,为您提供更相关的信息并优化您在我们网站上的体验。更多信息请参阅我们的 隐私政策 和我们的 服务条款 。强制性信息可在 法律声明