谷歌Veo 3.1旨在驯服AI视频混乱——但仍有不足

谷歌Veo 3.1旨在驯服AI视频乱象——但仍有不足

谷歌刚刚发布了其在AI视频竞赛中的最新作品Veo 3.1，并提出了一个大胆主张：创作者需要的不是令人惊叹的视觉效果，而是控制力。谷歌没有像许多竞争对手那样追求纯粹的视觉奇观，而是押注电影制作人、广告商和专业内容工作室更关心稳定性、精确性以及工作流整合。

从理论上看，该模型前景可期。它能够生成同步音频，将场景扩展到近一分钟，甚至可以使用参考图像来保持角色在不同镜头之间的一致性。然而，在幕后，测试该系统的工程师表示，这项技术在基本可靠性方面仍面临挑战——这引发了人们对谷歌是否真正解决了AI视频从一开始就存在的那些难题的疑问。

CTOL.digital的内部评估描绘了一幅复杂而细致的图景：“喜忧参半。工具和原生音频有所改进，但稳定性有所下降。评价两极分化。”简而言之，有进步——但并非一些人所期待的巨大飞跃。

控制与混乱之间的拉锯战

对于专业创作者而言，Veo 3.1引入了新的“控制界面”，让他们能够精细调整结果。然而，正是那些赞扬这些工具的人，也遇到了令人沮丧的不一致性。工程师报告称，角色会在场景中途改变性别或年龄，道具凭空出现，甚至有些片段生成时完全没有声音。从视频中提取的静态帧会像素化——这对构建镜头库的团队来说是个坏消息。

这个问题不仅仅是技术故障。谷歌将其标记为“.1”更新，但许多用户期待它能向OpenAI的Sora 2迈出巨大一步。这种预期落差正在加剧失望情绪。Sora 2（目前仍仅限于演示）以其真实感和物理效果令人眼花缭乱，而谷歌则完全在玩另一套游戏——工作流程优先于惊艳效果。

为什么专业人士依然关注

Veo 3.1并非面向表情包制作者。它是为电影制作人、广告团队和专业工作室而生，这些用户需要可预测的输出，即使效果略逊一筹。Promise Studios和Latitude等公司已经将Veo 3.1整合到专业平台中，用于故事创作、预可视化和叙事原型设计。

三大主要功能引人注目：

参考图像 保持角色在不同镜头之间的一致性。 场景延伸 将片段拼接在一起，可形成长达一分钟的序列。 首/尾帧控制 为用户提供精确的视觉起止点——非常适合标志展示和动态图形。

这些工具是为生产流程而非随意实验而设计的。

然而，工程师警告称：连贯性不等于叙事性。Veo可以维持视觉流畅性，但它并不真正理解故事结构或因果逻辑。团队仍然需要故事板、分镜头脚本和外部工具来管理叙事。

音频可能是谷歌的秘密武器

一项功能可能比任何视觉升级都更重要：原生音频。Veo 3.1可以在生成视频的同时生成对话、环境音效和特效——这是大多数竞争对手仍无法做到的。这减少了工具切换，并加快了前期制作速度。

工程师称原生音频是“明智之举”，尤其是在口型同步表现良好的情况下。但他们也发现了一些无声片段和模糊不清的词语，这些需要尽快修复。

如果谷歌能攻克音频一致性难题，它可能会成为导演在投入实际成本之前测试场景的首选工具。

这就是争论的核心。Veo 3.1不总能像Sora 2那样令人惊艳。它也无意于此。相反，它提供了一个可靠的“主力工具”——如果谷歌能解决其存在的问题。

真正的问题是：专业人士会选择“够用但可控”的东西，还是“惊艳但不可预测”的东西？谷歌押注前者。但工程师们尚未被说服。

正如评估报告中的一节所说：“对照Sora 2的真实性基准来判断，一些用户感到失望。”

在这场AI视频竞赛中，管理预期可能与管理像素同样重要。

谷歌Veo 3.1旨在驯服AI视频混乱——但仍有不足

控制与混乱之间的拉锯战

为什么专业人士依然关注

音频可能是谷歌的秘密武器

紧迫的截止日期提升了风险

价格不变，账单更贵

强大功能，真实法律风险

谷歌的更大布局：掌控生态系统

那么……谷歌赢得了这一轮吗？

您可能也喜欢

订阅我们的通讯