对话盲区:深入解析 Claude Haiku 4.5 的速度与智能权衡

作者
CTOL Editors - Ken
10 分钟阅读

对话盲区:Claude Haiku 4.5 速度与智能的权衡之道

Anthropic 刚刚发布了其最新的“小型”AI模型 Claude Haiku 4.5,并附带了一个大胆的承诺——以闪电般的速度和远低于常规的价格提供前沿水平的编码能力。从纸面上看,这似乎是一个梦想:速度是五个月前发布模型的两倍,成本却仅为其三分之一。然而,在这些引人注目的头条背后,早期企业用户们正在发现一个可能重塑公司部署AI助手的缺陷。

Haiku 4.5 编码能力堪比专业人士。但问题在于:它并不总能理解你想要它构建什么。

CTOL.digital 的工程团队是首批在实际环境中使用该模型的用户之一,他们直言不讳地指出:“编码能力没问题,但它很难进行对话,也难以理解业务需求或日常交流。” 他们的反馈,以及多家企业用户的类似看法,凸显了一个日益凸显的行业困境——当速度和成本优化压倒了理解能力时,执行就会受损。

Haiku 4.5 Benchmark Performance on Coding Tasks
Haiku 4.5 Benchmark Performance on Coding Tasks

“准前沿”AI 的经济性

Claude Haiku 4.5 在价值方面表现出色。它与今年早些时候推出的高端模型 Claude Sonnet 4 不相上下,但价格却便宜得多。在 SWE-bench Verified(最严苛的编码基准测试之一)上,Haiku 达到了 73.3% 的准确率,并且处理请求的速度是两倍以上。

定价更是令人震惊: 每百万输入 token 1 美元,每百万输出 token 5 美元。 这正是企业能够真正实现跨部门和生产系统大规模使用的“甜蜜点”。

Anthropic 不仅仅是发布了一款产品,更展开了一场分销攻势。Haiku 4.5 已在 AWS、Google Cloud 上线,甚至在 GitHub Copilot 中进行了预览。目标很明确:让 Haiku 4.5 成为为聊天机器人、编码助手和内部自动化提供支持的大量“中端”AI任务的默认引擎。

一位技术分析师总结道:“这全面重塑了‘小而智能’模型的定价。预计竞争对手将迅速作出反应。”

工程团队的真实反馈

如果系统误解了你的意图,那么速度和经济性都无足轻重。CTOL 的测试揭示了一个模式:Haiku 4.5 擅长原始代码实现,但在人与 AI 之间实现这一目标的对话方面却步履维艰。

从技术角度看,它令人印象深刻:“速度快,响应迅速;编码质量接近 Sonnet 级别,”他们的内部笔记写道。在多智能体设置中——一个模型负责规划,其他模型负责执行——Haiku 4.5 作为执行者表现出色。

但如果你让它收集需求、讨论想法,或处理真实软件开发中繁琐的来回沟通时,问题就出现了。许多测试人员描述说,模型“开局艰难”,感觉“令人头疼”,直到他们强行让它进入编码模式。

这造成了一个奇怪的悖论:更便宜的模型最终却要求用户具备更高的沟通技巧。不是 AI 适应人类,而是人类必须适应 AI。

基准测试的幻象

Anthropic 对其测试过程保持透明——而这种透明揭示了很多信息。

他们使用的基准测试包括:

  • 精心设计的提示词
  • 鼓励工具使用“超过100次”
  • 高达 128,000 token 的庞大“思考预算”
  • 精心调优的智能体框架

换句话说,这是很棒的科学研究,但实际应用场景中往往无法提供这种程度的脚手架。一位分析师警告说:“预计与官方公布的数据会存在差距。”

CTOL 的经验证实了这一点。在完美的提示下,Haiku 4.5 表现出色。而在自然、混乱的对话中,它却步履蹒跚。这很重要,因为 AI 助手的全部意义在于消除摩擦,而不是增加与机器对话的规则。

规划者-执行者模式的未来

Anthropic 似乎也深知这一点。该公司没有假装 Haiku 是一款万能解决方案,而是将其定位为团队的一部分。

Sonnet 4 负责规划。 Haiku 4.5 负责执行。

“Sonnet 将复杂问题分解成多个步骤,然后协调多个 Haiku 4.5 并行完成任务,”该公司解释道。

CTOL 对此表示认同。他们称 Haiku “作为 Sonnet 规划器下的快速执行者是理想之选”。给它清晰的指令,它就能飞速完成任务。但如果让它从对话中推断结构,它就会磕磕绊绊。

这种规划者-执行者模式可能成为新的 AI 架构:昂贵的模型负责理解,便宜的模型负责执行。

明智的权衡……还是战略陷阱?

Haiku 的弱点实际上可能是有意为之。通过专注于执行而非理解,Anthropic 构建了一个完美适用于特定角色的模型:一个无需知道“为什么”,只需知道“做什么”的可靠工作者。

这其中存在经济逻辑。如果 80% 的 AI 工作负载涉及执行明确定义的子任务,那么使其变得便宜和快速就能节省成本。剩下的 20%——规划、推理和细微之处——可以由高端模型处理。

此外,Haiku 4.5 拥有 ASL-2 安全评级,这意味着更少的限制和更广泛的部署。而更高级别的模型则受制于更严格的控制。

但这种方法迫使企业采用多模型设置。他们节省了执行成本,但必须为更智能的前端处理模型付费。这种权衡许多企业会接受——但这也在一定程度上加剧了对特定供应商的依赖。

企业需要了解什么

根据早期使用者发现的情况,聪明的团队正在这样做:

不要将 Haiku 4.5 用于客户对话或需求收集。它不适合做这些。

任务路由:

  • 结构化编码 → Haiku
  • 模糊请求 → Sonnet 或其他高级模型

预计生产环境中的基准性能会下降。实际输入是混乱的。为这种差距做好预算。

一个惊喜是:Haiku 4.5 比 Haiku 3.5 更开放和协作。测试人员表示,它能处理以前版本回避的内容——这表明 Anthropic 改进了对齐性,尽管对话深度仍有欠缺。

行业的转折点

Haiku 4.5 引发了一个更大的问题:我们是在走向真正与人类协作的 AI,还是走向需要专家操作的专业工具?

对话盲区之所以重要,因为它背离了大型语言模型的最初承诺:自然语言成为通用接口。如果我们必须“说AI语”才能获得良好结果,那我们真的进步了吗?

一些企业已经感受到了这种紧张感。Reddit 上的一位工程师捕捉到了这种情绪:“它被认为比 Sonnet 便宜,但与 OpenAI/Gemini 的预算级别模型和超低成本模型相比又被批评为定价过高。”

未来几个月将决定方向。规划者-执行者模式会成为标准,还是会有人突破三位一体的难题:快速、便宜、且深度对话?

在此之前,Haiku 4.5 提供了卓越的执行力——但如果没有指导,就不要指望它能完全理解你的意思。正如 CTOL 团队艰难学到的教训:速度固然强大,但理解能力才是王道。

Anthropic 拒绝对具体反馈发表评论,但指出可以查阅该模型的技术文档和系统卡,以获取有关其能力和局限性的详细信息。


本文参考了内部测试笔记、技术文档以及对 Claude Haiku 4.5 企业用户的采访。部分消息来源要求匿名,以便坦诚地谈论早期 AI 系统。

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯

我们网站使用Cookie来启用某些功能,为您提供更相关的信息并优化您在我们网站上的体验。更多信息请参阅我们的 隐私政策 和我们的 服务条款 。强制性信息可在 法律声明