深思凭借新型稀疏注意力技术将AI推理成本降低高达60%

作者
CTOL Editors - Lang Wang
10 分钟阅读

价格战:深度求索对更廉价AI的激进押注

深度求索再次大幅削减AI成本高达75%,迫使竞争对手重新评估其战略,并可能为先进技术的更广泛普及打开大门。


北京 — 构建AI一直伴随着一个令人头疼的权衡:更强大的能力意味着更高的成本。然而,中国深度求索(DeepSeek)的新发布再次打破了这一规则,其连锁反应可能会重塑整个行业。

就在中国国庆节前夕——这个时间点在关注该公司不间断发布周期的工程师们之间已成为一个内部笑话——深度求索发布了其最新模型V3.2-Exp。与以往的升级不同,此次发布并未声称超越其前身。相反,它采取了一种不同的策略:以极低的成本提供大致相同的性能。

节省的成本是惊人的。对于一个128,000 token的上下文——大约相当于一本完整小说的体量——该系统现在处理输入(缓存未命中)每百万token仅需0.28美元,而此前为0.56美元;缓存命中则从每百万token0.07美元降至0.028美元,降幅高达60%。生成输出的成本通常更高,如今却大幅跳水:从每百万token2.20美元降至仅1.68美元。该公司的API接口体现了这一变化,输入成本削减了一半,输出成本则降低了四分之三。

“这简直是屠夫级别的降价,”一位工程师开玩笑说。其他人则预测此举将把竞争对手逼入绝境,并可能淘汰那些无法匹配这种经济效益的较弱实验室。

Deepseek (github.com)
Deepseek (github.com)


其背后的巧妙技巧

深度求索新系统的核心是一个看似简单的想法:在一个巨型文档中,并非每个词都需要关注其他所有词。

想象一个学生写学期论文。如果他们每次写一句话都要重读整本教科书,这个过程将耗时无穷。传统大型语言模型(LLM)就是这样运行的——对于短文本来说效率足够,但对于当今应用程序所需的大量文档来说,成本则高得离谱。

深度求索的解决方案名为深度求索稀疏注意力,它引入了一个巧妙的捷径。一个“闪电索引器”会快速扫描所有之前的token并评估其重要性。然后,模型不再处理整个上下文,而是只对最重要的2,048个token应用完全注意力机制。

其巧妙之处在于这个索引器的轻量化。它使用简单的数学运算——比如ReLU函数而非复杂的指数函数——并运行在低精度FP8算术上。结果是:每个token都被触及,但计算的重头戏留给了最有用的那些。

“这就像是问图书馆员哪些章节重要,而不是从头到尾读完整本书,”一位研究该架构的研究人员解释道。“图书馆员可能不完美,但足以节省大量时间。”

这一改变使得计算中昂贵的部分以直线而非陡峭曲线增长。突然之间,那些曾经看似成本过高的任务——分析整个代码库、法律摘要或科学论文——在财务上变得可行了。


训练模型识别关键信息

深度求索并非简单地将这个索引器投入使用。他们训练它识别重要信息。

首先,他们冻结了现有模型,并在完全注意力模式下运行,以生成“黄金标准”的重要性分数。索引器通过模仿这些分数进行学习,有效地借鉴了重量级系统的智慧。只有在掌握了基础知识后,深度求索才激活了稀疏注意力设置并进行整体训练。

“你无法轻易从零开始构建这样的东西,”一位工程师在技术讨论中写道。“使用密集模型‘教导’稀疏模型的效果非常好——其他人也会复制这种做法。”


性能是否同样出色?

深度求索坚称新系统保持了原有性能。在推理、编码和多智能体任务的基准测试中,新系统表现出几乎与原系统持平的水平,仅在细节上有细微的互有胜负。

然而,怀疑论者依然存在。一位深度评测者赞扬了成本节约,但也指出了一些明显的权衡:在多步推理方面性能略弱,数学运算可靠性较低,以及在面对难题时倾向于依赖捷径而放弃。

“以25%的价格获得90%的性能,”这位评测者写道。“如果成本是关键考量,那这笔交易非常划算。”

这引发了一个更大的问题:既然模型在许多领域已经接近人类水平的表现,那么下一个前沿是原始能力——还是效率?深度求索显然押注于后者。


引发的公开讨论

此次发布在工程师之间引发了热烈的讨论。一些人认为,即使是对每个token进行轻量级评分,仍然会带来额外开销。另一些人则想知道深度求索为何没有在不同层级混合使用稀疏注意力和完全注意力,以兼顾准确性和效率。

此外,这种方法如何与现代AI基础设施——批处理、GPU特性、分页注意力——协同工作,也是一个实际问题。深度求索通过开源其原型代码和高性能CUDA内核来尝试扫清障碍,社区也已将其适配至华为昇腾NPU及其他国产芯片。这种即时的多厂商支持看起来不像巧合,更像是一种战略,尤其是在中国寻求摆脱对外国AI硬件依赖的背景下。

目前,深度求索将同时保留这两个版本直到2025年10月15日,让开发者有机会自行进行A/B测试。


宏观背景

此次发布并非孤立事件。在西方出口管制限制顶级AI芯片获取的背景下,中国企业必须从现有硬件中榨取更多性能。深度求索的模型证明,巧妙的算法可以在一定程度上弥补硬件劣势。

对于企业而言,这一转变意义重大。需要记忆冗长对话的AI助手、必须阅读整个代码库的代码辅助工具,以及用于分析长篇报告的文档分析器——所有这些都突然变得可大规模负担。

“智能体时代仍然需要更高的速度,”一位开发者评论道,总结了当前的情绪。更低的成本开启了新的可能性,但也显示了这项技术还有很长的路要走。

观察家们将深度求索描述为稳健、低调且真正创新——不张扬,但持续带来突破。他们习惯在假期前发布重大版本,甚至已经成为一个老梗:工程师们开玩笑说,该公司“一次发布,就毁掉一次假期。”


下一步是什么?

对于处理长上下文——32,000到128,000 token——的开发者来说,信息很明确:立即测试V3.2-Exp。潜在的成本节约巨大,不容忽视,即使它仍有一些小缺陷。

对于整个行业而言,深度求索的实验可能标志着一个转折点。如果稀疏注意力被证明具有竞争力,其他实验室将面临艰难选择:采纳这种方法,或者大幅降价。无论如何,推理成本是固定不变的这一假设刚刚被打破。

对于更广阔的世界而言,更便宜的推理成本可能与更智能的模型同样重要。如果小型公司和个人开发者最终能够负担得起大规模构建,创新的步伐可能会以意想不到的方式加快。

非投资建议

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯

我们网站使用Cookie来启用某些功能,为您提供更相关的信息并优化您在我们网站上的体验。更多信息请参阅我们的 隐私政策 和我们的 服务条款 。强制性信息可在 法律声明