微软突破云AI竞赛百万令牌障碍,但优势可能转瞬即逝

作者
CTOL Editors - Ken
8 分钟阅读

微软在云端AI竞赛中突破百万令牌(Token)屏障,但胜利可能只是昙花一现

改写云计算的记录

微软Azure在人工智能推理速度方面打破了基准记录,在单个机架规模系统上实现了前所未有的每秒110万个令牌(tokens),比其此前的记录提升了27%,这一里程碑标志着真正工业级AI已在云端到来。

这一成就由工程师Mark Gitau和Hugo Affaticati利用由英伟达Blackwell Ultra架构驱动的新型Azure ND GB300 v6虚拟机完成,与上一代硬件相比,性能提升了五倍。然而,在这些庆祝性的头条新闻背后,隐藏着一个更复杂的故事:这与其说是一场革命,不如说是一场军备竞赛中不可避免的下一步,而这场竞赛的终点线仍在不断前移。

基于他人芯片的工程胜利

这项技术成就是毋庸置疑的。Azure在18台虚拟机上运行了行业标准Llama 2 70B模型,共搭载72块英伟达GB300 GPU,展示了尖端芯片与成熟软件优化相结合的成果。该系统每块GPU每秒处理15,200个令牌,而英伟达上一代H100芯片的每块GPU每秒仅处理3,066个令牌。

Azure的工程师从系统的高带宽内存中实现了92%的效率,并达到了每秒7.37太字节的内存吞吐量——这些数据表明这是一项精细调优的操作,而非简单的硬件安装。该公司公布了详细的复现说明,这种透明度在云服务提供商的公告中并不常见,也显示了他们对其工程堆栈的信心。

但新闻稿淡化了一点:这本质上是英伟达的突破,而非微软的。GB300 NVL72机架规模系统正是英伟达专为这类推理工作负载而设计,其GPU内存比上一代增加了50%,散热能力提高了16%。Azure只是率先将其作为云服务推出。

数字背后的真正含义

其重要性不在于革命性的技术,而在于企业规模下现在可能实现的一切。 第三方观察机构Signal65称之为“明确的证明”,表明变革性的AI性能已作为可靠的实用工具而存在——这种定位比原始数据本身更为重要。

对于构建AI应用的公司来说,实际影响是立竿见影的:以前需要多个机架或漫长处理时间的工作,现在可以在单个系统上完成。经济效益也随之按比例变化。但有几个关键的注意事项给这种热情泼了冷水。

首先,这是一个“离线”基准测试——一个批处理场景,而非实际应用所需的实时、低延迟服务。首个令牌响应时间(time-to-first-token)、并发用户处理以及混合工作负载下的持续性能等问题仍未解决。

其次,提交至MLPerf v5.1的成绩未经证实,这意味着它尚未通过正式审查流程以验证认证的排行榜结果。虽然这是合法的性能数据,但达不到行业黄金标准的验证水平。

第三,或许也是最重要的一点,该测试使用的是Llama 2 70B——一个2023年时代的模型。当今的前沿应用运行在更大、复杂得多的系统上:例如Llama 3.1 405B或DeepSeek-R1的6710亿参数混合专家(mixture-of-experts, MoE)架构。Azure的百万令牌成就是否能扩展到这些要求更高的模型,仍是未知数。

万亿美元背景下的考量

这项公告的时机并非偶然。AI基础设施市场,根据不同的评估方法,目前价值在580亿至1820亿美元之间,预计到2030年将吸收数万亿美元的资本支出。微软、亚马逊和谷歌等超大规模云服务商正面临越来越大的压力:AI API价格趋于下降,而基础设施成本却不断飙升。

性能每提高一个百分点,都直接影响每次API调用、每次聊天机器人交互、每次代码生成请求的毛利率。Azure比GB200提升27%的性能,在规模化应用中意味着实实在在的收益——但这只有在它们能保持领先优势的情况下才成立。

这种领先地位似乎岌岌可危。亚马逊云服务(AWS)已经提供Blackwell系列系统,一旦供应允许,几乎肯定会部署GB300配置。CoreWeave和戴尔数周前就宣布了GB300 Ultra的首次商业部署。谷歌云(Google Cloud)和甲骨文云基础设施(Oracle Cloud Infrastructure)仅落后数月,而非数年。甚至AMD的MI355X也展示了具有竞争力的MLPerf性能,为英伟达的统治地位提供了潜在的性价比替代方案。

首发不等于独占

Azure真正的成就是率先将GB300 NVL72产品化为易于访问的云服务,并提供了透明、可复现的性能数据。这在上市时间和系统集成方面是具有重要意义的领先——这是将实验性硬件转化为可计费基础设施的、看似不起眼却至关重要的工作。

但这种领先是以季度而非年来衡量的。竞争护城河很窄,因为最终大家使用的都是英伟达的相同基础。一旦竞争对手公布了他们的数据——特别是经过验证的MLPerf提交结果——Azure头条上的领先地位就会烟消云散。

更深层次的挑战仍未解决:这些系统每机架功耗仍达100-120千瓦,需要复杂的液冷系统,并且无法解决行业向更长的上下文窗口、多租户效率或混合专家路由优化方向的转变。

微软已经证明了下一代AI基础设施在生产级云环境中运行良好。但他们尚未证明,一旦其他所有人都达到同样水平,谁还会记得谁是第一个呢?

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯

我们网站使用Cookie来启用某些功能,为您提供更相关的信息并优化您在我们网站上的体验。更多信息请参阅我们的 隐私政策 和我们的 服务条款 。强制性信息可在 法律声明