线性注意力革命:揭秘月之暗面AI对Transformer霸权的大胆挑战

作者
CTOL Editors - Lang Wang
8 分钟阅读

线性注意力革命:月之暗面 Kimi 如何大胆挑战 Transformer 主导地位

Kimi 对混合架构的不懈探索如何引发效率革命,以及随之而来的原创性争议

意想不到的突破

历经无数个不眠之夜、失败的训练和无休止的调整,月之暗面(Moonshot AI)的 Kimi Linear 模型——一个基于混合线性注意力机制构建的庞大 480 亿参数模型——最终打破了所有关键基准。

一位开发人员在内部笔记中写道:“结果就像成年人教导小孩一样轻松自如。”这些提升并非渐进式,而是颠覆性的。

Kimi Linear 于 2025 年推出,直接挑战了自 2017 年以来一直主导人工智能领域的 Transformer 架构。它将键值缓存(key-value cache)的使用量削减了 75%,在百万级 token 长度下,文本解码速度提升高达六倍,同时保持了传统注意力模型相同的表达能力。

对于任何从事大语言模型(LLM)相关工作的人来说,这都是一个巨大的进步。当推理成本和内存限制决定了可能性时,Kimi Linear 的设计提供了一条全新的前进道路。它为从分析冗长的法律文件到驱动能够进行长期推理的自主智能体等一系列应用打开了大门。

将工程推向极限

这成功故事的背后,是一段充满尝试、挫折和顽强决心的历程。从小型原型扩展到 480 亿参数的专家混合系统(mixture-of-experts system),几乎让整个团队濒临崩溃。调试分布式训练故障、重新设计网络层以及测试数百种变体,成了他们每晚的例行工作。一位团队成员后来简单地形容:“痛苦,但每分每秒都值得。”

他们进步的核心是被称为 Kimi Delta Attention 的创新——诞生于对 Gated DeltaNet 的激进优化。早期的方法依赖于全局门控机制,需要昂贵的 FP32 分块处理。新设计转向了通道级门控(channel-wise gates),在保持效率的同时实现了精确的内存控制。

他们采用了一个大胆的比例:每三个 Delta 注意力层对应一个全注意力层。这种通过精心细致的实验发现的平衡点,被证明是速度与性能之间的最佳结合。

接下来是一个更勇敢的决定——完全放弃旋转位置编码(rotary position embeddings)。这种“完全无 RoPE”(full NoPE)的方法将所有位置理解能力交由 KDA 层处理,从而简化了模型而未降低其性能。据报道,连 RoPE 的创建者都对其大胆之举表示赞赏。

Kimi Linear 在 5.7 万亿 token 上进行了训练,并采用了专家混合(MoE)配置,拥有 32 位专家而非通常的 8 位。它在 MMLU-Pro 上达到了 51.0 分,在 RULER 上达到了 84.3 分——超越了全注意力模型,同时在百万 token 规模下运行速度快了大约六倍。

经验教训与未来展望

开发人员对项目的局限性坦诚相待。他们承认,由于硬件限制,无法在该规模下达到绝对的最新技术水平。但这并非重点。Kimi Linear 证明了混合线性注意力可以从理论走向生产实践。

他们称之为“旗舰级去风险”项目——是对未来的战略性押注。为了证明他们对透明度的信念,他们开源了整个代码库,其中包括优化过的内核,这些内核可以无缝集成到 Flash Linear Attention 和 vLLM 框架中。

这种开放性吸引了全球研究人员的关注。许多人将 Kimi Linear 视为神经网络架构演进中的关键一步。一位社区开发者将其概念根源追溯到最初的 Delta 规则,认为“经验突破往往先于理论完善”。

正如一位研究员总结的那样:“我们第一次不必在能力和效率之间做出取舍。”

原创性争议

当然,人工智能领域的每一次重大飞跃都伴随着争议。在发布后不久,批评者指责月之暗面团队抄袭了早期 RWKV7 架构中的创意。一些人甚至称此次发布为宣传噱头,声称其更多是为了吸引眼球而非推动科学进步。

开发人员对此进行了强力反驳。他们强调了 Kimi Linear 的明显区别——采用通道级门控而非全局门控,独特的混合层比例,以及完全采用 NoPE 的决定。一位开发人员表示:“如果有人认为它是一样的,那也无妨,但也许他们应该少抱怨,多花时间扩展自己的模型。”

支持者们纷纷站在他们一边。一位知名研究员评论道:“当其他人放弃线性注意力时,Kimi 重新点燃了希望。它既是一款产品,也是一项根本性创新。”

这场辩论超越了“谁抄袭了谁”的争论,它触及了人工智能研究本身的核心:真正的创新是关于全新的理念,还是可以通过提炼和重组现有理念而产生?无论如何,Kimi Linear 都证明了一件至关重要的事情:曾被视为死胡同的线性注意力,仍然蕴藏着尚未开发的巨大潜力。

前路漫漫

研究人员现在可以下载并实验 Kimi-Linear-48B-A3B-Base 模型及其指令微调变体。他们只需要 PyTorch 2.6 和最新的 FLA 库。早期测试人员表示,该模型“个性感觉自然”,并且“与 Kimi-2 的风格一致”,这意味着效率的提升并未削弱其类人输出的能力。

对于一个痴迷于参数数量和训练预算的行业来说,Kimi Linear 提出了一个大胆的问题:下一次重大飞跃,是否不再是关于将模型做得更大,而是更智能?

无论这款模型是成为里程碑,亦或仅仅是一个引人入胜的注脚,有一点是肯定的——它重新点燃了人们对人工智能效率领域无限可能性的热情。

用一位疲惫而又胜利的开发人员的话来说:所有的付出都是值得的。

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯

我们网站使用Cookie来启用某些功能,为您提供更相关的信息并优化您在我们网站上的体验。更多信息请参阅我们的 隐私政策 和我们的 服务条款 。强制性信息可在 法律声明