悄然变革:阿里巴巴研究团队或已解决人工智能的“注意力”难题
在广阔的人工智能研究领域,突破往往是渐进的且被过度宣传。然而,阿里巴巴通义千问团队发表的一篇论文:《大型语言模型中的门控注意力:非线性、稀疏性及无注意力汇聚》(Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free),却取得了一项显著成就:它可能从根本上改进了人工智能系统的“思维”方式。
这项研究被NeurIPS 2025评选委员会评为大会最佳论文。它对Transformer架构——ChatGPT、Claude以及当今几乎所有主流语言模型的数学骨干——引入了一个看似简单的修改。然而,这种简单性却掩盖了其潜在的巨大影响:早期结果表明,这项技术可以使人工智能系统更智能、更稳定,并且训练成本大幅降低。
隐藏在显而易见之处的问题
多年来,研究人员观察到大型语言模型中存在一些似乎无法解释的奇怪行为。模型会不可思议地固着于任何文本的第一个词——例如“The”或“你好”——并赋予其不成比例的重要性。工程师们将此现象称为“注意力汇聚”(attention sink),并将其视为这些系统处理信息方式中一个不幸但必要的怪癖。
与此同时,训练这些模型仍然是一项充满风险的尝试。如果学习率设置过高,试图加快训练速度,整个系统就可能崩溃并变得语无伦次。数十亿美元的计算资源悬而未决,只为找到一个恰当的、极其缓慢的训练速度。
通义千问团队怀疑,这些并非独立问题,而是更深层次架构缺陷的症状:标准的注意力机制过于僵化、过于线性,无法动态地从噪音中筛选出有用信号。
一扇门,而非一堵墙
他们开发的解决方案——门控注意力(gated attention)——就像一个高端场所的经验丰富的保安。在模型的注意力机制识别出潜在相关信息后,一个经过学习的“门”会瞬间做出决定:是让这些信息全强度通过、减弱其强度,还是完全阻断。
其数学原理简洁而优美。该系统没有直接传递注意力输出,而是首先应用一个过滤器,可以清除不相关的信息。关键在于,这个门会根据当前具体的查询学习如何过滤——这是一种动态的、基于上下文的智能,而非静态规则。
在从17亿到150亿参数的模型上进行测试,并在高达3.5万亿个token的数据集上进行训练后,结果始终如一。门控模型在包括数学推理、编码任务和通用知识在内的主要基准测试中,性能超越了标准架构。更令人印象深刻的是,它们能够容忍显著更高的学习率,而不会出现困扰传统训练的灾难性故障。
注意力汇聚现象消失
也许最具理论意义的发现是:注意力汇聚现象彻底消失了。使用门控注意力的模型不再将多余信息倾倒在第一个token上。研究人员曾认为是这些系统维持数学稳定性的基础机制,结果却只是效率低下的一个症状,而非必要条件。
这对量化(quantization)——为实现更经济的部署而压缩模型的过程——产生了深远影响。通过消除标准模型产生的极端“异常值”,门控注意力使这些系统在计算能力较低的硬件上运行变得容易得多,而不会牺牲准确性。
工业验证
这项技术不仅仅是理论上的。根据该论文,它已被整合到Qwen3-Next模型中——这些是服务于真实用户的生产系统。这种工业部署提供的验证超越了学术基准的范畴,进入了商业人工智能应用错综复杂的现实。
对企业而言,其影响贯穿整个价值链。训练成本的降低直接转化为计算资源的节省。更好地处理长文档改进了法律分析、金融研究和代码理解等领域的应用。更便捷的量化意味着更大规模的更经济的推理。
普惠性问题
评选委员会在他们的赞扬中提到了一点不同寻常之处:在一个透明度日益罕见的领域,他们赞赏“科学成果的开放共享”。当前沿人工智能实验室越来越多地隐藏架构细节时,阿里巴巴决定发布全面研究成果——这些成果由只有工业规模资源才能支撑的大量实验提供支持——代表着对研究共享领域的有意义贡献。
随着这项技术商业价值的证实,这种开放性是否能持续下去仍不确定。但目前,通义千问团队已经证明,人工智能系统的基础架构改进仍然是可能的,而且有时,最有影响力的创新,事后看来,几乎是显而易见的。
“注意力”时代可能正在演变为“选择性注意力”时代——这是一种比人工智能研究人员通过如此精妙的数学所预期实现的更具人性化的品质。
