OpenAI 推出 Sora 2 AI视频生成器,搭载同步音频和新的iOS社交应用,尽管在视频片段长度和可访问性方面评价褒贬不一

作者
CTOL Editors - Lang Wang
12 分钟阅读

当物理规则邂逅想象力:OpenAI的Sora 2将AI视频推向新纪元

新模型带来了逼真的动作、同步的音频,并瞥见了OpenAI更宏大的野心。然而,短片生成和有限的发布范围表明,这并非全貌——至少目前还不是。

旧金山——OpenAI刚刚揭开了Sora 2的神秘面纱,它已经引发了人们与曾重塑文本AI的“GPT-3.5时刻”的比较。首个Sora于2024年2月发布,它预示了未来,但在基础功能上步履蹒跚——物理效果卡通化,口型同步也时好时坏。而新版本则彻底改变了局面。现在你可以看到篮球击中篮板,以应有的方式弹起;或者看到桨板运动员搞砸后空翻,水花飞溅的物理效果逼真无缺。甚至对话也能与动画嘴唇完美同步,这是创作者们一直翘首以盼的功能。

不仅限于技术层面。OpenAI正在推出一款配套的iOS应用程序,核心功能是“数字分身”(Cameos),它允许用户将自己的肖像和声音植入AI生成的视频片段中。目前,该功能仅限受邀用户使用,且仅限于美国和加拿大,但其战略意图清晰可见:OpenAI希望在TikTok和YouTube Shorts主导的短视频内容市场中占据一席之地。

你知道吗?Sora的负责人Bill Peebles是一位年轻的研究员,拥有麻省理工学院(MIT)的学士学位和加州大学伯克利分校(UC Berkeley)的博士学位;他曾在英伟达(NVIDIA)、Adobe和Meta实习,随后加入OpenAI并领导了“Sora 2的创建”工作。

Bill Peebles (googleusercontent.com)
Bill Peebles (googleusercontent.com)


变革生产规则的飞跃

那么,Sora 2真正的独到之处在哪里?有三点:同步音频、更强的物理效果以及在多个镜头中保持一致性的角色。早期的模型为了满足提示词,常常有扭曲现实的糟糕习惯——比如物体瞬移、手融入工具,或者人物做出不可能的翻转动作。

这一次,模型能够识别失败。让它动画化一个体操运动员,它不会强行生成完美的动作。失误的抓取、失败的落地、碰撞时实际的动量转移——所有这些都自然地呈现出来。正如一位研究员所说:“Sora 2明白,有时人会摔倒,物体也不会完美地运动。这正是它看起来更可信的原因。”

对创作者而言,这意义重大。过去,制作AI视频意味着要处理无声片段和独立的音轨,然后费力地同步所有内容。Sora 2将这一工作流整合为一步——同时生成视频、对话、背景噪音和音效。它还可以根据指令切换风格,无论是电影般的真实感、动漫风格,还是介于两者之间,同时保持连贯性。


一款实为数据引擎的社交应用

撇开那些光鲜亮丽的演示,OpenAI的战略意图变得更加清晰。“数字分身”功能要求用户录制自己的声音和面部信息,才能在AI生成的视频片段中“出演”。表面上看,这是一种有趣的个性化体验。但实际上,分析师们看到了更深层次的含义:OpenAI正在收集高质量的生物识别数据,以支持未来多模态模型的发展——这类模型不仅能理解图像,还能理解物理世界的运作方式。

一位战略家直言不讳地总结道:“这并非是为了明天与TikTok竞争。这是为了在未来几年为世界模拟模型奠定基础。”

这款应用本身鼓励创作,而非被动浏览。其“信息流理念”强调可混剪内容、自然语言推荐,并对年轻用户设置了更严格的规则,包括与ChatGPT关联的家长控制功能。审核层、数字水印以及禁止深度伪造公众人物的规则也已内置其中。用户对其“数字分身”拥有完全控制权,可以追踪其肖像出现在哪些视频片段中,并随时撤销使用授权。


惊艳演示,但实际应用仍有限制

这些展示片初看之下令人眼花缭乱——一条巨龙穿梭于冰冷的尖塔之间,翅膀掠过之处留下一道道涡流;探险者在暴风雪中呐喊,声音与风暴完美同步。然而,当CTOL.digital的团队仔细审视这些精彩集锦之外的内容时,问题便开始显现。

时长不到五秒的短片在720p分辨率和30帧/秒的条件下表现良好。一旦超过这个长度,画面就开始出现问题。角色会失去表情,物体异常闪烁,幻觉开始破灭。我们的团队甚至为此创造了一个术语:“死眼”问题。一个测试片段清楚地展示了这些缺陷有多么明显——一个男人骑自行车快速穿过森林,头上顶着一只猫。结果并非异想天开的细节,而是感觉空洞,粗糙的边缘仿佛在尖叫着“AI生成”。另一位团队成员测试了“水流入悬崖的无底洞”的案例,结果生成的视频最好也只是纹丝不动。

“我们需要远超10秒的视频。都2025年了,”一位沮丧的团队成员说道。其他人则对他们所称的“AI糟粕”(指那种低投入、大批量生产的内容,可能淹没信息流)表达了不满。


法律与伦理阴影

CTOL.digital团队还指出两个热点问题:版权和隐私。

在版权方面,Sora 2能够以惊人的准确性模仿流行风格。这让粉丝们感到兴奋,但却令那些担心其作品会被衍生的AI创作淹没的人类艺术家感到担忧。

在隐私方面,“数字分身”的生物识别数据采集引发了警报。评论者质疑验证的强度、数据存储的安全性,以及如果控制失效可能发生的后果。OpenAI坚称用户保留所有权利并可随时撤销,但这些担忧依然存在。


竞争者、成本与市场压力

OpenAI并非孤军奋战。谷歌的Veo 3已经能够通过Gemini和AI Studio生成长达八秒的音频同步视频片段。Veo 3的定价约为每秒0.40美元,更快的层级则为0.15美元。这给OpenAI带来了压力,尤其如果它希望扩大API使用规模,Sora 2的视频片段成本需要控制在每10秒2美元以下。

挑战不仅在于产能——还在于效率。Blackwell GPU是这类工作的支柱,每台成本高达3万至5万美元,而云租赁费率也在不断变化。

与此同时,Runway、Luma和Pika等老牌玩家已经在专业工作流程中占据了牢固地位,它们提供更长的拍摄时间、编辑时间线和版权管理工具。观察人士预计,混合工作流将应运而生:Sora 2用于制作引人注目的短视频片段,而传统工具则用于打磨和组装更长的项目。


业界评判

CTOL.digital的最终结论是:Sora 2是一大飞跃,但仍显脆弱。物理效果感觉真实,同步音频更是福音。然而,在更长的镜头、人类情感和精细物体处理方面,它仍承受着压力。

他们警告称,隐私担忧和发布限制可能会减缓其普及,尽管角色一致性和音频整合开启了新的创作大门。他们的裁决是:进展令人印象深刻,但抛光的演示与日常生产之间仍存在差距。


投资者关注点

分析师们认为,涟漪效应将体现在多个方面。

短期赢家包括英伟达(NVIDIA)和CoreWeave等GPU云服务提供商,因为对计算能力的需求只增不减。微软(Microsoft)凭借其与OpenAI的深厚联系和Azure的强大实力,也可能获益。苹果(Apple)也可能受益,这得益于iOS的分发和潜在的设备端处理能力。

中期来看,用于验证AI内容的合规工具前景看好。欧盟的《人工智能法案》和美国新的州法律将要求更多的标签、水印和检测。将Sora 2整合到编辑流程中的创意软件公司——尤其是在多镜头故事板和版本控制方面——可能会开辟利润丰厚的利基市场。

风险依然存在。TikTok和YouTube等短视频巨头可能会感受到一定的用户粘性压力,但它们的网络、分红系统和全球影响力难以匹敌。如果没有安卓版本或变现工具,Sora 2短期内无法取代它们。

作为背景信息,今天英伟达的股价收于186.58美元,上涨4.74美元,交易量超过2.36亿股——这表明投资者对AI基础设施的信心尚未降温。


分析师强调通常的免责声明:过往趋势不保证未来结果。任何考虑投资的人士都应自行研究并咨询持牌顾问。

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯

我们网站使用Cookie来启用某些功能,为您提供更相关的信息并优化您在我们网站上的体验。更多信息请参阅我们的 隐私政策 和我们的 服务条款 。强制性信息可在 法律声明