Meta V-JEPA 2突破,预示人工智能“后大语言模型时代”到来
一种革命性的视频驱动AI系统,其展现的理解、预测和物理规划能力或将使当前的大语言模型过时
Meta发布了V-JEPA 2,这是一种突破性的视频模型,其能力远超当前驱动大语言模型的基于文本的预测。该基础模型系统经过超过一百万小时互联网视频的训练,实现了许多AI专家长期以来认为的关键里程碑:弥合了物理世界中被动观察与主动规划之间的鸿沟。
表:扬·勒昆对V-JEPA 2的主要批评
批评 | 描述 |
---|---|
缺乏抽象能力 | 未能实现人类般的跨领域推理和泛化能力 |
基准性能差距 | 在新的物理推理基准测试中表现远低于人类 |
表面层次的物理推理 | 依赖模式识别而非深度因果推理或鲁棒的物体永恒性 |
渐进式创新 | 被视为对先前自监督学习方法的适度扩展 |
模态受限 | 主要为视觉;缺乏与其他感官数据(音频、触觉等)的整合 |
宣传与炒作 | 被认为过度宣传且对替代或竞争性AI模型不屑一顾 |
从观察到行动:两阶段革命
V-JEPA 2的独特之处在于其创新的两阶段学习方法。与需要大量特定任务数据的传统AI系统不同,V-JEPA 2首先通过被动观察建立对世界运作方式的普遍理解,然后将这些知识应用于特定任务,只需最少的额外训练。
一位熟悉该研究的AI科学家指出:“这代表着对AI系统学习方式的根本性反思。V-JEPA 2并非试图生成像素级完美的预测或依赖对世界的文本描述,而是学习抽象表示,捕捉物理交互和时间动态的本质。”
该系统的第一阶段涉及对互联网视频进行大规模预训练,学习在表征空间而非像素层面预测缺失的空间和时间信息。在第二阶段,仅需62小时的未标注机器人交互数据,便足以创建V-JEPA 2-AC,这是一个动作条件模型,通过模型预测控制实现物理操控任务。
勒昆愿景的成形
V-JEPA 2的架构体现了Meta首席AI科学家扬·勒昆所倡导的关键原则,他一直是当前大语言模型的强烈批评者。勒昆一直坚持认为,真正的人工智能需要扎根于物理世界,并能够构建超越文本模式的丰富多层次表示。
结果令人瞩目:V-JEPA 2在传统上独立的视频识别(Something-Something v2数据集上 top-1 准确率达到77.3%)、动作预测(Epic-Kitchens-100数据集上 recall@5 达到39.7%)和机器人操控(抓取-放置任务成功率达到65-80%)等领域都取得了最先进的性能。最令人印象深刻的是,这些能力都源于一个单一的共享表征。
打破机器人领域的数据壁垒
V-JEPA 2最显著的成就或许是它能够以最少的训练数据执行复杂的机器人操控任务。传统方法需要数百小时的专家演示或数百万次的试错尝试。
一位关注AI发展的行业分析师解释说:“这极大地降低了适应性机器人的准入门槛。一台工厂机器人可以通过观看人类执行类似动作的视频来学习新的组装任务,只需最少的物理试错即可适应。其经济影响是巨大的。”
该系统在表征空间中基于能量的规划效率极高,每个规划步骤仅需16秒,而可比系统则需要4分钟,同时还能实现更高的成功率。这种效率使得本地机器人集群的实时规划成为可能。
超越语言:当前AI的局限
V-JEPA 2的出现,正值人们日益认识到当前大语言模型存在的根本性局限。尽管LLM在文本生成方面表现出色,但它们缺乏对物理现实的理解,并且在需要世界模型的规划和推理任务上表现不佳。
一位该领域的研究人员指出:“我们所看到的是对联合嵌入理念的验证。在抽象表征空间中进行预测,比试图生成高保真感知数据或依赖文本中的统计模式更为高效和有效。”
值得注意的是,V-JEPA 2在没有任何语言监督的情况下进行预训练,却在视频问答任务上取得了最先进的成果。当它与一个大语言模型对齐时,在时间相关问题上的表现优于图像-文本编码器,这挑战了视觉-语言预训练的主流范式。
前瞻工业变革
V-JEPA 2的实际应用范围覆盖多个行业:
在仓储和微履约机器人领域,系统可以快速适应新产品,无需昂贵的重新标注或远程操作会话。自主检测和维护操作可以根据CAD/BIM模型中的目标图像进行条件设定,无需复杂的奖励工程。视频分析和搜索应用将受益于以运动为中心的嵌入,这些嵌入在时间推理任务上的表现优于基于图像的方法。
对于扩展现实(XR)应用和生成式智能体,将视频原生编码器与LLM对齐,使系统能够真正“感知”时间,并在混合现实环境中智能行动。该技术的效率也使其适用于计算资源有限的边缘AI应用。
投资格局:定位“后大语言模型时代”
对于关注AI发展的投资者而言,V-JEPA 2预示着竞争格局的重大转变。随着市场对具备物理世界理解和规划能力的AI系统需求日益增长,那些重仓纯语言模型的公司可能面临挑战。
那些能够整合世界模型技术的机器人公司,随着实施壁垒的降低,可能会看到加速的采用曲线。机器人训练数据需求的大幅减少,尤其可能惠及此前因数据收集成本而受阻的中型自动化公司。
专注于边缘AI处理的半导体制造商可能会发现新的机会,因为表征空间规划相比像素生成方法降低了计算需求。同样,提供针对视频处理和潜在空间操作优化的专业AI基础设施的云服务提供商,可能会占据不断增长的市场份额。
然而,分析师警告称,商业应用仍面临摄像机校准、更长的规划周期以及更直观的目标界面等挑战。先行者需要解决这些局限性,同时构建利用V-JEPA 2核心能力的特定领域应用。
迈向物理AI之路上的里程碑
尽管V-JEPA 2代表着一项重大进展,但研究人员承认仍存在局限性。该系统对摄像机定位敏感,难以处理非常长的规划周期,并且目前需要视觉目标而非语言指令。
尽管如此,这项工作为迈向更通用的人工智能提供了一个有力的可行路径——一种主要通过观察学习,然后将所学知识应用于在世界中行动的方式,这与人类的学习方式非常相似。这种方法是否真的会在勒昆预测的五年内使当前的大语言模型过时,还有待观察,但V-JEPA 2为下一代AI系统提供了一个强大的蓝图,这些系统不仅理解语言,更理解物理世界本身。
免责声明:本分析基于当前的研究进展,不应被视为投资建议。技术的过往表现不保证未来的结果。读者应咨询财务顾问以获取个性化指导。