Meta发布“像代码一样思考”的代码世界模型，有望重塑软件开发的未来

Meta推出“像代码一样思考”的人工智能，重塑软件开发的未来

Meta的FAIR团队揭示了一种新型人工智能模型——它不再像大型语言模型（LLM）那样，仅仅将代码作为静态文本阅读，而是能够“想象”代码的实际运行方式。这个被称为代码世界模型（CWM）的模型，能够逐行、逐步地构建软件执行的内部图景，几乎就像对程序运行进行心理模拟一样。

这种视角的转变带来了令人瞩目的成果。CWM拥有320亿参数，在软件研究中最严苛的基准测试之一——SWE-bench Verified测试中，树立了新标准。它解决了现实世界中的软件错误，成功率高达65.8%。这使其直接与OpenAI和Anthropic等专有巨头展开竞争——而且它是开源的。

一位大型语言模型研究员解释道：“这不仅仅是为了让AI更好地编写代码。它关乎教导机器真正理解软件的功能，而不仅仅是它的表象。此外，这也是LeCun世界模型的一个出色专业化应用。”

LLM与LeCun世界模型对比

CWM的强大之处源于其训练方式。传统的LLM会吞噬海量的源代码，但从未真正“看到”代码是如何实际运行的。Meta通过一个旨在捕捉代码执行本身的“中期训练”阶段，颠覆了这种模式。

其中一个数据集包含了详细的Python执行轨迹——本质上是逐行细述程序内部状态如何随每行代码而变化。另一个数据集被称为“智能体轨迹”，记录了AI智能体与实时计算环境之间数百万次的真实交互。该智能体修改文件、运行shell命令并观察结果，几乎就像一个数字学徒跟随资深开发者学习一样。

通过对这种动态数据进行训练，该模型学到的不仅仅是语法。它吸收了代码的行为，几乎就像学习数字世界的物理法则一样。这一基础使其能够在更改发生之前预测其结果——这对于调试来说是一种超能力。

CWM的能力在SWE-bench Verified测试中表现最为突出。在这个测试中，AI模型尝试修复GitHub项目中的实际错误。要取得成功，系统不仅需要理解一小段代码，还需要掌握跨文件和依赖项的全局视图，然后编写出能够通过严格测试套件的修复方案。

在此测试中，CWM不仅跟上了同行，甚至超越了所有其他开源模型，包括那些规模更大的模型。它展示了研究人员所称的“神经调试”能力——一种在脑海中模拟代码运行、无需执行即可标记问题的惊人能力。在试验中，它预测代码执行过程的准确率超过96%。

而且，它并未因此牺牲通用技能。该模型在传统编程任务和数学推理方面依然表现出色，这表明更深层次的理解能够增强而非缩小其整体能力。

自然而然地，人工智能社区对此表现出强烈的好奇心。许多人赞扬Meta不仅发布了模型本身，还发布了揭示其演变各个阶段的训练检查点——这与一些科技巨头日益封闭的做法形成了可喜的对比。

然而，热情也伴随着一些注意事项。研究人员希望能够与现有的代码生成系统进行独立的直接对比测试，并在开发环境中进行实际应用试验。此外，还存在一个实际的规模问题：CWM拥有320亿参数，需要强大的计算能力。对于日常开发者而言，更精简的版本将是把理论变为实践的关键。

更重要的意义在于，这种方法对整个AI领域发出了何种信号。如果对执行动态的训练对代码如此有效，为何不将其应用于那些结果比表象更重要的其他领域呢？

CWM在内部建模环境的能力，预示着未来的AI智能体将能够规划和执行多步操作。设想一下，自动化测试员可以在黑客之前发现漏洞，或者数字助手可以轻松调试系统。

通过开源模型和方法，Meta押注于协作。此举可能会促使竞争对手提高透明度，并加速整个行业的进步。

目前，CWM是一项等待在实践中证明自己的技术胜利。正如CTOL.digital工程团队所言：“这是一项出色的研究成果，内容扎实，前景光明，但我们需要对其进行实际测试。”它真正的考验将在实际应用中到来，即为实际开发者修复错误和简化工作流程。

这个时机意味深长。当人工智能世界在保密与开放之间挣扎之际，Meta的这一决定可能会改变该领域的预期。如果机器理解代码执行成为常态，我们或许正步入一个软件开发的新时代——一个AI不再仅仅复制模式，而是对其进行推理的时代。

这种从语法到语义的飞跃能否引发一场真正的革命，将取决于CWM在压力下的表现。业界正密切关注。