Thinking Machines 研究人员解决了语言模型对相同问题给出不同答案的原因,但此修复带来了60%的性能损失

作者
CTOL Editors - Lang Wang
11 分钟阅读

深度学习研究人员解决语言模型长期存在的可复现性危机

新技术实现了人工智能响应的完美一致性,但引发了关于性能权衡和研究重点的讨论

2025年9月11日 — 思考机器实验室(Thinking Machines Lab)的一个团队发表了一项研究,旨在解决人工智能领域一个长期存在的重大技术挑战:即便在理论上的确定性条件下,大型语言模型也无法在给定相同输入时,产生完全相同的输出。

这项题为《战胜大语言模型推理中的非确定性》的研究,揭示了人工智能不一致的根本原因,并提出了一种能够实现完美可复现性的解决方案——尽管代价是显著的计算成本。这一发现引发了人工智能社区内部的辩论,讨论这究竟是一项基础性突破,还是仅仅解决了小众问题的精密工程。

揭露真正“元凶”

多年来,研究人员将人工智能的非确定性归因于浮点运算与并行GPU处理的结合——这一解释被思考机器团队系统性地驳斥了。通过细致的实验,他们证明单个矩阵运算在多次运行中实际上是确定性的。

他们发现,真正的原因在于“批次不变性”(batch invariance)——即人工智能系统为了处理效率而对用户请求进行分组的方式。像RMSNorm、矩阵乘法和注意力机制等核心操作,会根据批次大小改变其内部计算策略,从而在相同输入下,根据服务器负载的不同产生不同的结果。

研究解释道:“相同的问题可能产生不同的答案,并非因为数学上的不精确性,而是因为恰好有多少其他用户同时提交了请求。”这一发现揭示了表面上相同的人工智能查询是如何依赖于不相关的计算上下文的。

构建确定性解决方案

该团队并未接受这一局限,而是设计了“批次不变核函数”(batch-invariant kernels)——经过修改的计算例程,无论批次大小如何,都能保持一致的行为。该解决方案要求重新构想三个基本操作:

RMSNorm:在所有批次大小下实施一致的数据并行归约策略,避免随批次维度变化的性能优化“分裂归约”(split-reduction)方法。

矩阵乘法:消除根据输入大小动态调整的“Split-K”策略,转而使用具有一致瓦片大小的固定核函数配置。

注意力机制:这是最复杂的修改,涉及到使用固定分裂大小策略而非可变分裂策略,确保无论序列长度如何,都能保持相同的归约模式。

显著成果与高昂成本

在一个2350亿参数模型上进行的测试产生了惊人的结果。标准的vLLM实现从1000个相同请求中产生了80个独特补全。而批次不变方法实现了完美的可复现性——所有1000个补全都做到了位级相同。

然而,这种确定性付出了巨大的计算成本:与优化实现相比,延迟增加了约60%。研究人员承认他们的实现仍未优化,但这种性能损失引发了关于实际部署场景的疑问。

强化学习的突破

这项研究最重要的贡献可能在于强化学习应用。该团队证明,推理和训练阶段之间的数值发散,会隐式地将在线策略算法(on-policy algorithms)转换为离线策略算法(off-policy ones),这需要复杂的纠正措施并引入训练不稳定性。

通过确保采样和训练之间的位级相同,他们的方法实现了“真正的在线策略强化学习”,消除了策略之间的KL散度,并有望稳定长期困扰研究人员的人工智能训练过程。

专家评价褒贬不一

这项工作在人工智能社区中引发了截然不同的评价。学术评论员称赞这项研究是“基础性工作”和“卓越的诊断精度”,将其比作将人工智能从“经验艺术”转变为“严谨的工程学科”。

一份详细的学术评估将批次不变性的发现描述为“出色的演绎推理”,并称注意力机制的固定分裂大小策略“尤其有见地”。该评估强调了其对强化学习的深远影响,认为这项工作“揭示并解决了一个顽固的底层缺陷,这很可能在无数实验中一直是一个混淆变量”。

然而,更持怀疑态度的观点质疑这项研究的更广泛意义。行业观察家指出,尽管技术上无可挑剔,但这项工作主要解决了与研究人员和工程师相关的问题,而非终端用户。一些人认为,对确定性的关注表明该领域“真正的前沿领域所剩无几”。

一位行业分析师评论道:“对于一个拥有OpenAI背景的实验室来说,将确定性作为其首次亮相的信息加以强调,这让人感到出奇的平淡无奇。这项工作是扎实的,但作为一项标志性声明,它更像是一份细致的实验室笔记,而非鼓舞人心的愿景。”

实际应用与局限性

这种确定性方法在需要绝对一致性的特定领域显示出明确的价值:科学研究的可复现性、监管合规、金融建模以及“几乎相同答案”不可接受的任务关键型应用。

对于追求速度和成本效益的消费级应用而言,60%的性能损失构成了重大障碍。研究团队认为,通过优化的核函数工程,这种差距可能会缩小,但峰值性能和批次不变性之间的根本权衡可能仍然存在。

市场与投资影响

受监管行业的企业客户可能会推动对确定性人工智能服务的需求,从而为云服务提供商创造高端市场。然而,性能成本可能会限制其在专业用例之外的更广泛采用。

硬件制造商可能会探索针对批次不变操作优化的专用芯片,但考虑到当前的性能损失,此类发展仍具有高度投机性。更直接的影响可能集中在能够提供确定性推理作为差异化服务层级的人工智能基础设施公司。

投资分析师认为,这项工作的意义在很大程度上取决于实施改进以及通过先进的核函数工程能否大幅降低性能差距。

技术成熟度与创新

这项研究凸显了人工智能发展中突破性能边界与确保系统可靠性之间的根本矛盾。尽管批次不变性解决方案展示了令人印象深刻的工程严谨性,但关于这种细致的优化是否代表了研究资源最有效的配置,仍存在疑问。

这项工作无疑提高了人工智能系统的可靠性,并为更稳定的强化学习奠定了基础。然而,这是否构成突破性创新,或仅仅是专业领域内精密的解决方案,仍取决于视角和应用场景。

对于需要可验证的人工智能一致性的组织来说,这项研究提供了一条清晰的前进道路。对于专注于能力扩展和效率提升的更广泛人工智能生态系统而言,其相关性仍较为有限。技术成就无可否认;其变革性潜力在很大程度上取决于未来的优化努力和市场对人工智能确定性不断变化的需求。

投资免责声明:本文所呈现的分析是基于技术研究的知情评估,不应构成具体的投资建议。人工智能技术投资存在固有风险,过往业绩不保证未来结果。读者在做出投资决策前应咨询合格的财务顾问。

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯

我们网站使用Cookie来启用某些功能,为您提供更相关的信息并优化您在我们网站上的体验。更多信息请参阅我们的 隐私政策 和我们的 服务条款 。强制性信息可在 法律声明