24小时编码员:OpenAI最新编码模型GPT-5.1-Codex-Max的机遇与挑战
工程团队报告结果喜忧参半,新模型引发关于AI在软件开发中作用的疑问
OpenAI最新编码模型能够连续独立工作超过24小时,自动压缩内存以持续专注于复杂软件任务,而这类任务会让人类开发者精疲力尽。然而,随着这项技术达到新的前沿,早期采用者们发现,原始能力并不总是能转化为实际生产力。
该公司于周三发布了GPT-5.1-Codex-Max,将其定位为“代理式”编码的突破——即能够自主处理数小时工程任务的AI系统。该模型在SWE-Bench Verified测试中达到预计77.9%的成绩,略微领先Anthropic和Google的最新发布。内部基准测试显示出更大幅度的提升,在OpenAI自己的工程评估中从66.3%跃升至79.9%。
但ctol.digital的工程团队对该技术的能力提供了更为细致的描述。他们的内部审查揭示,该工具在某些场景下表现出色,在其他场景下却步履维艰——这种模式可能会定义AI辅助开发的下一阶段。
“更好的长期编码和代码审查质量,”ctol.digital团队在评估中指出,称赞该模型“在多小时任务中具有更强的持续推理能力”。一些工程师发现,在特定工作流程中,它“对Anthropic的Sonnet 4.5表现出惊人的优势”。该团队证实了OpenAI的效率主张,观察到实现类似结果所需的计算令牌(tokens)减少了约30%。
然而,这些进步也伴随着显著的限制。ctol.digital的工程师报告称,“在复杂构建中存在速度、可靠性和完整性问题”,并指出“在过去一个月中,针对某些工作负载,感知到的质量有所下降”。尽管OpenAI宣称速度提升了27%至42%,但工程团队却经历了不同的情况:生成速度“在交互式任务中可能感觉比Claude/Sonnet慢”,令牌输出速率约为每秒18个,而竞争系统可达每秒80个。
基准测试性能与实际应用效用之间的差距在端到端应用程序生成方面表现得最为明显。ctol.digital团队记录了“UI错误、脚本失败、部分实现”——这正是OpenAI声称该模型在长时间会话中擅长的工作。工程师发现该系统在某些提示下可能“模糊不清或漫无目的,需要严格的指令”,这表明该模型的自主性仍然受限于人类的监督。
OpenAI在其发布材料中间接回应了其中一些担忧。该公司警告称:“随着Codex越来越擅长长期运行任务,开发者在进行更改或部署到生产环境之前,审查代理的工作变得越来越重要。”这一声明证实了ctol.digital的经验:这些系统仍然会犯错误,而随着它们生成更多代码,“验证和理解它以便将来调试变得更加困难”。
该公司报告称,95%的工程师每周使用Codex,自采用以来,拉取请求(pull requests)增加了70%。但这些内部指标可能无法捕捉到外部团队所记录的摩擦——即较慢的响应、不完整的实现以及为防止输出漫无目的而需要“严格指令”。
这项技术在持续推理和内存管理方面取得了真正的进步。然而,ctol.digital的审查表明,行业面临一个更根本的问题:随着AI代理能够自主工作数小时甚至数天,审查、理解和调试其输出的负担是否会抵消生产力收益?答案可能决定这些系统是成为不可或缺的编码伙伴,还是昂贵而复杂的自动补全工具。
