谷歌Veo 3.1旨在驯服AI视频乱象——但仍有不足
谷歌刚刚发布了其在AI视频竞赛中的最新作品Veo 3.1,并提出了一个大胆主张:创作者需要的不是令人惊叹的视觉效果,而是控制力。谷歌没有像许多竞争对手那样追求纯粹的视觉奇观,而是押注电影制作人、广告商和专业内容工作室更关心稳定性、精确性以及工作流整合。
从理论上看,该模型前景可期。它能够生成同步音频,将场景扩展到近一分钟,甚至可以使用参考图像来保持角色在不同镜头之间的一致性。然而,在幕后,测试该系统的工程师表示,这项技术在基本可靠性方面仍面临挑战——这引发了人们对谷歌是否真正解决了AI视频从一开始就存在的那些难题的疑问。
CTOL.digital的内部评估描绘了一幅复杂而细致的图景:“喜忧参半。工具和原生音频有所改进,但稳定性有所下降。评价两极分化。”简而言之,有进步——但并非一些人所期待的巨大飞跃。
控制与混乱之间的拉锯战
对于专业创作者而言,Veo 3.1引入了新的“控制界面”,让他们能够精细调整结果。然而,正是那些赞扬这些工具的人,也遇到了令人沮丧的不一致性。工程师报告称,角色会在场景中途改变性别或年龄,道具凭空出现,甚至有些片段生成时完全没有声音。从视频中提取的静态帧会像素化——这对构建镜头库的团队来说是个坏消息。
这个问题不仅仅是技术故障。谷歌将其标记为“.1”更新,但许多用户期待它能向OpenAI的Sora 2迈出巨大一步。这种预期落差正在加剧失望情绪。Sora 2(目前仍仅限于演示)以其真实感和物理效果令人眼花缭乱,而谷歌则完全在玩另一套游戏——工作流程优先于惊艳效果。
为什么专业人士依然关注
Veo 3.1并非面向表情包制作者。它是为电影制作人、广告团队和专业工作室而生,这些用户需要可预测的输出,即使效果略逊一筹。Promise Studios和Latitude等公司已经将Veo 3.1整合到专业平台中,用于故事创作、预可视化和叙事原型设计。
三大主要功能引人注目:
参考图像 保持角色在不同镜头之间的一致性。 场景延伸 将片段拼接在一起,可形成长达一分钟的序列。 首/尾帧控制 为用户提供精确的视觉起止点——非常适合标志展示和动态图形。
这些工具是为生产流程而非随意实验而设计的。
然而,工程师警告称:连贯性不等于叙事性。Veo可以维持视觉流畅性,但它并不真正理解故事结构或因果逻辑。团队仍然需要故事板、分镜头脚本和外部工具来管理叙事。
音频可能是谷歌的秘密武器
一项功能可能比任何视觉升级都更重要:原生音频。Veo 3.1可以在生成视频的同时生成对话、环境音效和特效——这是大多数竞争对手仍无法做到的。这减少了工具切换,并加快了前期制作速度。
工程师称原生音频是“明智之举”,尤其是在口型同步表现良好的情况下。但他们也发现了一些无声片段和模糊不清的词语,这些需要尽快修复。
如果谷歌能攻克音频一致性难题,它可能会成为导演在投入实际成本之前测试场景的首选工具。
紧迫的截止日期提升了风险
关键在于:谷歌将在短短一周内——即2025年10月22日——关闭Veo 3.0。团队别无选择。他们现在必须迁移,重新测试每个提示,并调整其工作流程。
为何如此仓促?AI视频市场已从“炫酷的8秒短片”转向更长、多镜头、具有电影语法的序列。谷歌不能承受落后。
价格不变,账单更贵
谷歌声称定价未变。技术上确实如此——但其中有个“陷阱”。如果创作者从8秒短片转向45秒序列,尽管每秒费率保持不变,但总成本会飙升。工程师的建议很直接:按序列而非按单个片段进行预算。这可能会淘汰小型创作者,并青睐财力雄厚的制作室——这正是谷歌似乎正在瞄准的群体。
强大功能,真实法律风险
参考图像提供了控制力,但也带来了法律难题。如果团队上传的照片没有适当的许可,或者使用了类似真实人物的肖像,他们可能面临知识产权或肖像权问题。工程师敦促公司在情况变得混乱之前,收紧品牌指南并执行许可政策。
谷歌的更大布局:掌控生态系统
Veo 3.1并非孤立发布。谷歌将其部署到Gemini API、面向企业的Vertex AI、消费者版Gemini应用以及其专业消费者创作平台Flow中。这不仅仅是一个模型——更是一次生态系统布局。
目标很明确:让用户在谷歌工具内部的创作体验无缝衔接,以至于他们永远不想离开。工程师预计Veo、Flow和YouTube Studio之间将建立更深层的联系,实现资产循环使用。想象一下,一键生成场景并将其上传到Shorts。这就是谷歌正在构建的未来。
那么……谷歌赢得了这一轮吗?
尚未。测试Veo 3.1的工程师给出了实用建议:“用于制作时:测试角色锁定、场景延伸和帧过渡功能。留意音频问题并检查静态帧质量。”
他们的看法是?结果会因人而异。一致性仍在成熟中。但对于那些看重可控性而非纯粹视觉奇观的团队来说,新的控制功能可能物有所值。
这就是争论的核心。Veo 3.1不总能像Sora 2那样令人惊艳。它也无意于此。相反,它提供了一个可靠的“主力工具”——如果谷歌能解决其存在的问题。
真正的问题是:专业人士会选择“够用但可控”的东西,还是“惊艳但不可预测”的东西?谷歌押注前者。但工程师们尚未被说服。
正如评估报告中的一节所说:“对照Sora 2的真实性基准来判断,一些用户感到失望。”
在这场AI视频竞赛中,管理预期可能与管理像素同样重要。