Anthropic 发布 Claude Sonnet 4.5：更快、更智能，但在编码竞赛中仍位居第二

Anthropic 发布 Claude Sonnet 4.5：更快、更智能，但在编码竞赛中仍屈居第二

这款新的大语言模型在处理长期复杂任务和编码支持方面取得了实质性进展，但在最棘手的问题上仍难以匹敌 GPT-5 Codex。

旧金山 — Anthropic 公司于周一发布了其最新的 AI 模型 Claude Sonnet 4.5，并对此大胆宣称。该公司称其为“世界上最好的编码模型”。但深入审视后发现并非如此。是的，该模型比其前身更快、更具韧性。然而，独立测试显示，在对专业开发者最重要的关键领域，它仍逊色于 OpenAI 的 GPT-5 Codex。

此次发布距离 Sonnet 4 问世仅四个月，这再次提醒人们，AI 公司之间超越竞争对手的速度有多快。Anthropic 和 OpenAI 如今几乎每个季度都会发布重大更新。观察人士注意到，Anthropic 经常选择与 OpenAI 针锋相对的发布时机。例如，Anthropic 的 Opus 4.1 便在 GPT-5 去年 8 月发布之前推出。

为持久力而生，而非仅仅追求速度

Anthropic 正大力押注其模型的持久性。根据该公司的测试，Sonnet 4.5 能够连续处理复杂的编码项目超过 30 小时而不会分散注意力。这相比于在长时间会话中容易偏离任务的旧模型来说，是一大飞跃。

数据证实了这一点。在衡量实际软件工程表现的基准测试 SWE-bench Verified 上，Sonnet 4.5 的得分高于 Anthropic 之前的所有模型。在测试 AI 处理完整计算机系统能力的 OSWorld 上，它的得分从 6 月份的 42.2% 跃升至目前的 61.4%。

SWE Bench Verified 基准测试（图片来源：anthropic.com）

实际上，这意味着该模型现在不仅能编写代码。它还能浏览网页、填写电子表格，甚至通过 Anthropic 的 Chrome 扩展程序完成冗长的在线表格。开发者还获得了新工具，例如 Claude Code 中的检查点功能（无需 Git 即可保存进度）、更流畅的终端以及内置的 Visual Studio Code 集成。

现实考量

我们 CTOL.digital 工程团队的工程师们称赞了它在日常工作中的速度和可靠性，例如审查拉取请求、调试和处理多文件项目。检查点功能尤其受到好评。

但当他们要求它应对更严峻的挑战时，蜜月期便结束了。复杂的前端工作让它束手无策。在某些情况下，它会忽略项目的现有结构或身份验证设置，这可能以开发者不希望的方式破坏应用程序。

我们工程团队的一位工程师解释说：“对于日常编码，它表现出色。但当我们面对深入的逻辑难题或棘手的生产环境 bug 时，GPT-5 Codex 仍然是我们的首选。”

启示是什么？许多团队成员发现他们正在运行一个双模型系统：使用 Sonnet 4.5 处理日常任务，并将难题交给 GPT-5。这种方法可以在 Anthropic 缩小差距之前，平衡成本和生产力。

布局代理的未来

除了模型本身，Anthropic 还在悄然为更大的目标奠定基础。该公司刚刚推出了 Claude 代理 SDK，这与 Claude Code 背后的工具包相同。通过它，开发者可以构建自主代理，处理长时间运行的任务、协调权限并在多个子代理之间进行协调。

Anthropic 还为高级用户举办为期五天的“与 Claude 畅想”演示活动。在此次活动中，Sonnet 4.5 将现场且未经脚本地从零开始构建真实可用的软件。尽管被定位为一项实验，但这暗示了该公司超越编码助手，迈向成熟 AI 协作者的雄心。

定价保持不变——每百万输入令牌3美元，每百万输出令牌15美元——这使得 Claude 在竞争对手纷纷降价之际，仍牢牢占据高端层级。

对于仅销售基础模型的公司来说，风险最为尖锐。随着功能趋同且客户可以轻松切换，定价权可能在运营成本下降之前就已经崩溃。超大规模云服务提供商凭借其雄厚的资金和云服务捆绑策略，可能会加速这一趋势。

免责声明： 本文反映了当前的市场状况和模式。过往业绩不保证未来表现。读者在做出投资决策前应寻求独立的财务建议。

Anthropic 发布 Claude Sonnet 4.5：更快、更智能，但在编码竞赛中仍位居第二

Anthropic 发布 Claude Sonnet 4.5：更快、更智能，但在编码竞赛中仍屈居第二

为持久力而生，而非仅仅追求速度

现实考量

布局代理的未来

安全仍是重中之重

四面楚歌

投资者请注意

您可能也喜欢

订阅我们的通讯