Anthropic 发布 Claude Sonnet 4.5:更快、更智能,但在编码竞赛中仍屈居第二
这款新的大语言模型在处理长期复杂任务和编码支持方面取得了实质性进展,但在最棘手的问题上仍难以匹敌 GPT-5 Codex。
旧金山 — Anthropic 公司于周一发布了其最新的 AI 模型 Claude Sonnet 4.5,并对此大胆宣称。该公司称其为“世界上最好的编码模型”。但深入审视后发现并非如此。是的,该模型比其前身更快、更具韧性。然而,独立测试显示,在对专业开发者最重要的关键领域,它仍逊色于 OpenAI 的 GPT-5 Codex。
此次发布距离 Sonnet 4 问世仅四个月,这再次提醒人们,AI 公司之间超越竞争对手的速度有多快。Anthropic 和 OpenAI 如今几乎每个季度都会发布重大更新。观察人士注意到,Anthropic 经常选择与 OpenAI 针锋相对的发布时机。例如,Anthropic 的 Opus 4.1 便在 GPT-5 去年 8 月发布之前推出。
为持久力而生,而非仅仅追求速度
Anthropic 正大力押注其模型的持久性。根据该公司的测试,Sonnet 4.5 能够连续处理复杂的编码项目超过 30 小时而不会分散注意力。这相比于在长时间会话中容易偏离任务的旧模型来说,是一大飞跃。
数据证实了这一点。在衡量实际软件工程表现的基准测试 SWE-bench Verified 上,Sonnet 4.5 的得分高于 Anthropic 之前的所有模型。在测试 AI 处理完整计算机系统能力的 OSWorld 上,它的得分从 6 月份的 42.2% 跃升至目前的 61.4%。
SWE Bench Verified 基准测试(图片来源:anthropic.com)
实际上,这意味着该模型现在不仅能编写代码。它还能浏览网页、填写电子表格,甚至通过 Anthropic 的 Chrome 扩展程序完成冗长的在线表格。开发者还获得了新工具,例如 Claude Code 中的检查点功能(无需 Git 即可保存进度)、更流畅的终端以及内置的 Visual Studio Code 集成。
现实考量
我们 CTOL.digital 工程团队的工程师们称赞了它在日常工作中的速度和可靠性,例如审查拉取请求、调试和处理多文件项目。检查点功能尤其受到好评。
但当他们要求它应对更严峻的挑战时,蜜月期便结束了。复杂的前端工作让它束手无策。在某些情况下,它会忽略项目的现有结构或身份验证设置,这可能以开发者不希望的方式破坏应用程序。
我们工程团队的一位工程师解释说:“对于日常编码,它表现出色。但当我们面对深入的逻辑难题或棘手的生产环境 bug 时,GPT-5 Codex 仍然是我们的首选。”
启示是什么?许多团队成员发现他们正在运行一个双模型系统:使用 Sonnet 4.5 处理日常任务,并将难题交给 GPT-5。这种方法可以在 Anthropic 缩小差距之前,平衡成本和生产力。
布局代理的未来
除了模型本身,Anthropic 还在悄然为更大的目标奠定基础。该公司刚刚推出了 Claude 代理 SDK,这与 Claude Code 背后的工具包相同。通过它,开发者可以构建自主代理,处理长时间运行的任务、协调权限并在多个子代理之间进行协调。
Anthropic 还为高级用户举办为期五天的“与 Claude 畅想”演示活动。在此次活动中,Sonnet 4.5 将现场且未经脚本地从零开始构建真实可用的软件。尽管被定位为一项实验,但这暗示了该公司超越编码助手,迈向成熟 AI 协作者的雄心。
定价保持不变——每百万输入令牌3美元,每百万输出令牌15美元——这使得 Claude 在竞争对手纷纷降价之际,仍牢牢占据高端层级。
安全仍是重中之重
Anthropic 并未忘记 AI 对齐问题。Sonnet 4.5 被宣传为迄今为止最安全的模型,它更少表现出奉承、欺骗或其他危险行为。它还比以往更好地抵御提示注入攻击,这在代理运行于真实系统中时至关重要。
该模型附带 AI 安全等级3保护措施,其中包括能够捕获与武器开发相关的危险输入的过滤器。这些过滤器有时会阻止无害内容,但 Anthropic 表示,误报率比早期版本下降了十倍。
四面楚歌
此次发布后,Anthropic 的生存状况似乎不再那么岌岌可危,但威胁依然存在。它已经失去了作为最佳编码大语言模型的核心地位——我们最棘手的问题现在只能通过 GPT-5 高级版/专业版来解决。目前,Anthropic 只能在价格和日常使用场景方面竞争。但如果 Gemini 3 在编码方面超越 Sonnet 4.5,同时价格更低,保持在帕累托前沿,那么 Anthropic 可能会陷入严重困境,因为其模型迄今为止最大的优势一直在日常编码任务中。
投资者请注意
对投资者而言,传递的信息很明确:大语言模型市场正在快速成熟。现在的收益是增量式的,真正的差异化可能很快将来源于集成、生态系统锁定或行业特定微调,而非单纯的原始能力。
与此同时,开发者不太可能只使用一家供应商的产品。更明智的做法是根据具体工作混用和搭配模型。这可能会挤压模型开发商的利润,但为开发编排工具的公司创造机会。
对于仅销售基础模型的公司来说,风险最为尖锐。随着功能趋同且客户可以轻松切换,定价权可能在运营成本下降之前就已经崩溃。超大规模云服务提供商凭借其雄厚的资金和云服务捆绑策略,可能会加速这一趋势。
免责声明: 本文反映了当前的市场状况和模式。过往业绩不保证未来表现。读者在做出投资决策前应寻求独立的财务建议。