英伟达发布 Cosmos-Reason1:革命性AI模型连接物理理解与具身推理
英伟达研究人员推出了Cosmos-Reason1,这是一个开创性的多模态大语言模型系列,代表着人工智能理解和推理物理世界能力的一项重大飞跃。这些新AI模型有70亿和560亿参数版本,专门设计用于赋予AI系统物理常识和具身推理能力,有望彻底改变机器人技术、自动驾驶汽车和增强现实应用。
物理AI的综合框架
英伟达研究团队通过一种创新的系统方法开发了 Cosmos-Reason1,解决了AI最棘手的挑战之一:大语言模型缺乏物理基础的问题。开发过程包括构建全面的本体论、精心整理海量数据集以及实施专门的训练方法,以弥合基于语言的AI与现实世界物理交互之间的鸿沟。
研究人员构建了两种不同的本体论来组织他们的方法。第一种是分层本体论,将物理常识分为三个主要类别:空间、时间和基本物理,并进一步细分为16个具体子类别。第二种是用于具身推理的二维本体论,它将四种关键能力(感官处理、效应预测、遵守约束和从交互中学习)映射到五种不同的智能体类型。
为了有效训练这些模型,团队精心整理了大约400万个视频-文本对,其中包含视觉问答任务、思维链推理轨迹和直观物理谜题。训练过程包括两个不同阶段:首先是对特定领域视频推理数据进行物理AI监督微调,然后使用基于规则、可验证的奖励进行物理AI强化学习,这些奖励来源于多项选择题问答。
这项开发最终创建了新颖的基准测试,包含1,214个具身推理多项选择题和604个物理常识问题。根据这些基准进行评估时,Cosmos-Reason1表现出卓越的性能,在具身推理任务中比包括GPT-4o和Qwen2.5-VL在内的强大基线模型高出10-15分,在常识推理任务中高出2-7分。
主要成果:变革AI的物理智能
Cosmos-Reason1的推出标志着人工智能发展的几项关键成就。这些模型表明,通过有针对性的数据整理和强化学习技术,大语言模型可以有效地扎根于现实世界物理。这与传统AI方法形成了根本性转变,传统方法在基本的物理推理任务上常常表现不佳。
这项研究首次建立了物理常识和具身推理的综合基准,提供了标准化的评估方法,将使该领域的研究更具可比性和可重复性。这两种本体论为研究人员提供了系统化的框架,用于分类和评估物理推理能力,有望成为更广泛AI社区的通用语言。
可扩展的训练方法,特别是强化学习中基于规则的奖励的使用,展示了可以推广到其他结构化推理任务的实用方法。560亿参数模型中采用的混合Mamba-MLP-Transformer架构,展示了在多模态应用中进行长上下文推理的有效解决方案。
值得一提的是,英伟达承诺根据英伟达开放模型许可证发布代码和预训练模型权重,这将促进更广泛的应用,并加速学术界和商业环境中的研究进展。
深度分析:对AI和行业的影响
Cosmos-Reason1的重要性远远超出了其直接的技术成就,它代表着AI系统如何与物理世界交互和理解物理世界的范式转变。这项研究解决了历史上阻碍AI在需要物理理解的现实世界应用中实现可靠性能的根本性限制。
从技术角度来看,这项工作表明,通过专用训练数据明确地针对直观物理概念,可以显著提高模型性能。关注“时间之箭”、“空间谜题”和“物体永恒性”等基本方面,代表了一种新颖的AI训练方法,解决了物理交互中常被忽视但至关重要的能力。
利用大语言模型生成思维链推理轨迹,然后进行细化和验证的方法,为创建复杂推理任务的高质量训练数据提供了一种可扩展的方法。这种“模型在环”的数据整理策略可能会启发需要复杂推理能力的各种AI应用中的新方法。
其商业影响在多个行业中尤其引人注目。在机器人技术和自动化领域,这些模型可以使服务型和工业机器人表现出更好的物理直觉,减少试错学习,并提高拾取-放置操作、装配过程和自主导航等复杂任务的安全性。
对于自动驾驶汽车开发而言,增强的决策能力在处理动态场景(包括恶劣天气条件、复杂的交通交互和意外路况)方面可能至关重要。对物理动力学理解的提高有望带来更稳健的预测和规划系统。
在增强现实和数字孪生应用中,Cosmos-Reason1可以促进更自然的语言接口,准确地推理并指导模拟和真实环境中的物理交互。这种能力可能会改变用户与复杂工业系统和虚拟环境的交互方式。
资产管理和检测行业可以受益于理解物体永恒性和机械可供性的自动化质量控制系统,从而在制造和工业环境中实现更可靠、更高效的检测过程。
你知道吗:关于物理AI的趣事
在AI系统中开发物理常识弥补了当前技术中的一个惊人空白。尽管其语言能力令人印象深刻,但许多最先进的多模态大语言模型在大多数人类在幼儿时期就能掌握的基本直观物理任务上表现接近随机水平。
研究表明,现有强大的模型如GPT-4o及其他领先的多模态系统在基本的物理推理概念上表现出显著的困难,这突显了专门训练方法的重要性。这一发现强调了语言上的复杂性不一定能转化为物理理解。
Cosmos-Reason1训练数据集包含旨在教授基本物理概念的创新型自监督任务。这些任务包括测试物体关系理解的空间谜题、评估时间推理的时间之箭挑战,以及评估模型是否理解物体在视野外仍然存在的物体永恒性测试。
混合Mamba-MLP-Transformer架构代表了AI模型设计中的一个新兴趋势,它结合了不同的计算方法,以实现对长上下文信息更高效的处理。这种架构创新可能会影响多模态AI系统的未来发展。
有趣的是,这项研究表明,使用简单的、基于规则的奖励进行强化学习可以有效地增强大语言模型中的特定推理能力。这种方法表明,只要设计得当,复杂的AI能力可以通过相对简单的奖励机制得到提升。
Cosmos-Reason1在许可式许可证下开源发布,是对AI研究社区的重大贡献,有望加速希望将其物理推理能力整合到产品和服务中的公司的开发周期。这种做法与许多先进AI开发日益专有化的性质形成对比。
为物理AI评估创建标准化基准,解决了该领域的一个关键需求,因为缺乏一致的评估方法使得难以比较不同的方法并系统地跟踪进展。这些基准可能成为具身AI系统未来研发的重要工具。