AI推理辩论:里程碑式研究挑战苹果关于大型模型“认知崩溃”的主张
一项科学反驳重塑了对AI能力的理解,驳斥了苹果研究对语言模型推理能力的怀疑立场
本周发表的一篇措辞尖锐的科学反驳文章中,Anthropic研究人员挑战了关于人工智能系统根本局限性的叙述。这篇题为《思考的幻象的幻象》的论文,驳斥了苹果研究在其颇具影响力的研究《思考的幻象:通过问题复杂性视角理解推理模型的优势与局限》中提出的主张。
这篇由研究人员Alex Lawsen和Claude Opus撰写的反驳文章,仔细剖析了苹果的实验,而这些实验在AI研究圈中已成为普遍认知。他们的发现表明,AI推理能力上感知到的局限性可能更多是幻象而非现实——是评估方法缺陷而非实际认知边界造成的假象。
苹果研究对大型推理模型(LRMs)的批评
攻击点/局限性 | 简洁描述 | 论文中的关键证据 |
---|---|---|
1. 准确率完全崩溃 | 准确率在超过某个复杂性阈值后降至零,表明推理泛化失败。 | 所有谜题(例如汉诺塔)的准确率随复杂性增加而降至0%。 |
2. 努力程度的反常缩减 | 模型在面对更难的问题时“放弃”,在复杂性超过临界点后,思考令牌(thinking token)消耗反而更少,表明存在扩展限制。 | 思考令牌使用量达到峰值后,在更难的问题上急剧下降,尽管有充足的令牌预算。 |
3. 精确计算与一致性失败 | 难以进行精确的、按部就班的执行,并且在不同类型的谜题上表现出不一致。 | 提供解决方案算法也无法阻止失败。 高度不一致:汉诺塔可正确移动100多次,而更简单的渡河难题则少于5次。 |
4. 效率低下且有缺陷的推理 | 内部“思考”轨迹显示过程效率低下:“过度思考”简单问题,而无法为复杂问题找到正确路径。 | 在简单问题上,正确答案出现较早,但随后是错误的探索。在复杂问题上,正确答案出现较晚或根本没有。 |
5. 在低复杂性任务上表现不佳 | 在简单任务上,“思考”模型(LRMs)通常比标准LLM更差,效率更低。思考过程反而成为劣势。 | 在低复杂性场景下,标准非思考模型始终优于其对应的LRM模型。 |
6. 基准评估存在缺陷 | 在标准数学基准(例如AIME)上看似存在的推理增益值得怀疑,很可能是数据污染造成的。 | AIME25的表现比AIME24差,这与人类的表现相反,表明旧基准数据可能存在污染。 |
Anthropic研究对《思考的幻象》的反驳
原始攻击点 | 简洁反驳 | 关键证据 |
---|---|---|
1. 准确率完全崩溃 | 并非推理崩溃,而是物理令牌限制。失败恰好发生在详尽输出超出模型令牌预算时。 | **第4节:**计算表明汉诺塔的“崩溃”点与模型的令牌限制相符。模型也明确表示它们正在截断输出。 |
2. 努力程度的反常缩减 | 令牌减少是达到输出限制的结果,而非模型“放弃”的迹象。 | **第4节:**这是令牌限制的直接后果;生成就此停止。 |
3. 精确计算与一致性失败 | 由有缺陷的复杂性衡量标准导致,该标准混淆了解决方案长度与计算难度。 | **第6节:**汉诺塔在算法上很简单(解决方案长),而渡河难题是NP难问题(解决方案短),这解释了性能差异。 |
4. 效率低下且有缺陷的推理 | 推理是合理的;输出格式是限制。模型在被要求提供紧凑表示时,证明它们理解算法。 | **第5节:**模型通过生成一个解决汉诺塔的函数,而非详尽的移动列表,实现了非常高的准确率。 |
5. 在低复杂性任务上表现不佳 | (未直接提及,因为反驳主要集中于解构高复杂性失败的主张。) | - |
6. 基准评估存在缺陷 | 原始评估存在致命缺陷,包括数学上不可能解决的谜题。 | **第3节:**当N≥6时,渡河难题被证明是无法解决的。模型因未能解决一个不可能的问题而被错误地惩罚。 |
模型并非失败,只是“写不下”了
这场科学争议的核心是一个看似简单的发现:在许多苹果研究人员报告称人工智能模型在解决汉诺塔等复杂谜题时“失败”的案例中,它们实际上并非推理失败——它们只是字面上“用完了空间”来写下答案。
“苹果团队所解读的推理局限性,实际上是对输出长度的物理约束,”一位熟悉这两篇论文的AI评估专家解释道,“这就像声称人类无法数到一百万,仅仅因为他们在数到头之前就说累了。”
这项反驳表明,对于需要指数级长解决方案的谜题——例如有15个盘子的汉诺塔,需要32,767个精确的移动——模型达到了它们的令牌最大输出限制。在许多情况下,AI系统甚至明确表示,由于长度限制,它们正在截断它们的解决方案。
“不可能的谜题”陷阱
或许最令人震惊的是,调查显示,苹果研究中用于“证明”AI推理失败的渡河难题中,约有23%在数学上是无法解决的——而原始研究人员显然忽略了这一事实。
“涉及六个或更多角色以及三座船的渡河任务被证明是无法解决的,”论文指出,“模型因为正确识别出无解而被错误地惩罚。”
这一发现从根本上动摇了苹果原始研究中关于AI局限性得出的结论。一位未参与这两篇论文的计算复杂性专家评论道:“惩罚AI未能解决一个无解的问题,并非在衡量其推理能力——而是在衡量研究人员对问题空间的理解。”
提出更好的问题,得到更好的答案
在可能对实际应用产生最重要影响的方面,研究人员证明,仅仅改变提问方式就能显著提高性能。当被要求生成一个打印解决方案的程序,而不是枚举数百万个