Meta发布“像代码一样思考”的代码世界模型,有望重塑软件开发的未来

作者
CTOL Editors - Lang Wang
8 分钟阅读

Meta推出“像代码一样思考”的人工智能,重塑软件开发的未来

开源系统学会模拟代码执行,而非仅阅读文本

Meta的FAIR团队揭示了一种新型人工智能模型——它不再像大型语言模型(LLM)那样,仅仅将代码作为静态文本阅读,而是能够“想象”代码的实际运行方式。这个被称为代码世界模型(CWM)的模型,能够逐行、逐步地构建软件执行的内部图景,几乎就像对程序运行进行心理模拟一样。

这种视角的转变带来了令人瞩目的成果。CWM拥有320亿参数,在软件研究中最严苛的基准测试之一——SWE-bench Verified测试中,树立了新标准。它解决了现实世界中的软件错误,成功率高达65.8%。这使其直接与OpenAI和Anthropic等专有巨头展开竞争——而且它是开源的。

一位大型语言模型研究员解释道:“这不仅仅是为了让AI更好地编写代码。它关乎教导机器真正理解软件的功能,而不仅仅是它的表象。此外,这也是LeCun世界模型的一个出色专业化应用。”

LLM与LeCun世界模型对比

特性大型语言模型(LLM)(如GPT-4等)LeCun的世界模型
训练数据文本(数万亿个token)多模态感知数据(视觉、听觉、环境)
核心目标下一个token预测预测世界的未来状态
基础间接(通过人类文本)直接(通过感知-行动循环)
推理相关驱动、统计学因果、基于模型
记忆有限的上下文窗口长期情景+语义记忆
规划弱,需要外部支架内在,通过内部模拟
效率数据密集型旨在实现类人效率
应用聊天、编码、文本任务机器人、自主智能体、真正的AI助手

激进的训练方法

CWM的强大之处源于其训练方式。传统的LLM会吞噬海量的源代码,但从未真正“看到”代码是如何实际运行的。Meta通过一个旨在捕捉代码执行本身的“中期训练”阶段,颠覆了这种模式。

其中一个数据集包含了详细的Python执行轨迹——本质上是逐行细述程序内部状态如何随每行代码而变化。另一个数据集被称为“智能体轨迹”,记录了AI智能体与实时计算环境之间数百万次的真实交互。该智能体修改文件、运行shell命令并观察结果,几乎就像一个数字学徒跟随资深开发者学习一样。

通过对这种动态数据进行训练,该模型学到的不仅仅是语法。它吸收了代码的行为,几乎就像学习数字世界的物理法则一样。这一基础使其能够在更改发生之前预测其结果——这对于调试来说是一种超能力。

攻克基准测试

CWM的能力在SWE-bench Verified测试中表现最为突出。在这个测试中,AI模型尝试修复GitHub项目中的实际错误。要取得成功,系统不仅需要理解一小段代码,还需要掌握跨文件和依赖项的全局视图,然后编写出能够通过严格测试套件的修复方案。

在此测试中,CWM不仅跟上了同行,甚至超越了所有其他开源模型,包括那些规模更大的模型。它展示了研究人员所称的“神经调试”能力——一种在脑海中模拟代码运行、无需执行即可标记问题的惊人能力。在试验中,它预测代码执行过程的准确率超过96%。

而且,它并未因此牺牲通用技能。该模型在传统编程任务和数学推理方面依然表现出色,这表明更深层次的理解能够增强而非缩小其整体能力。

热议与疑虑

自然而然地,人工智能社区对此表现出强烈的好奇心。许多人赞扬Meta不仅发布了模型本身,还发布了揭示其演变各个阶段的训练检查点——这与一些科技巨头日益封闭的做法形成了可喜的对比。

然而,热情也伴随着一些注意事项。研究人员希望能够与现有的代码生成系统进行独立的直接对比测试,并在开发环境中进行实际应用试验。此外,还存在一个实际的规模问题:CWM拥有320亿参数,需要强大的计算能力。对于日常开发者而言,更精简的版本将是把理论变为实践的关键。

不仅仅是代码补全

更重要的意义在于,这种方法对整个AI领域发出了何种信号。如果对执行动态的训练对代码如此有效,为何不将其应用于那些结果比表象更重要的其他领域呢?

CWM在内部建模环境的能力,预示着未来的AI智能体将能够规划和执行多步操作。设想一下,自动化测试员可以在黑客之前发现漏洞,或者数字助手可以轻松调试系统。

通过开源模型和方法,Meta押注于协作。此举可能会促使竞争对手提高透明度,并加速整个行业的进步。

前景展望

目前,CWM是一项等待在实践中证明自己的技术胜利。正如CTOL.digital工程团队所言:“这是一项出色的研究成果,内容扎实,前景光明,但我们需要对其进行实际测试。”它真正的考验将在实际应用中到来,即为实际开发者修复错误和简化工作流程。

这个时机意味深长。当人工智能世界在保密与开放之间挣扎之际,Meta的这一决定可能会改变该领域的预期。如果机器理解代码执行成为常态,我们或许正步入一个软件开发的新时代——一个AI不再仅仅复制模式,而是对其进行推理的时代。

这种从语法到语义的飞跃能否引发一场真正的革命,将取决于CWM在压力下的表现。业界正密切关注。

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯

我们网站使用Cookie来启用某些功能,为您提供更相关的信息并优化您在我们网站上的体验。更多信息请参阅我们的 隐私政策 和我们的 服务条款 。强制性信息可在 法律声明