英伟达宣布Rubin CPX芯片,旨在加速处理百万Token上下文的人工智能应用

作者
CTOL Editors - Lang Wang
12 分钟阅读

英伟达Rubin CPX:剑指百万令牌瓶颈,重塑AI经济模式

芯片制造商推出专用于长语境工作负载的处理器,以应对推理成本飙升超出传统GPU能力的问题

英伟达公司于2025年9月9日宣布,正在开发Rubin CPX,一款专用的图形处理器,旨在加速需要处理一百万或更多上下文令牌的AI应用推理。该芯片解决了该公司所识别出的人工智能基础设施中一个新兴瓶颈:现代AI模型已演变为能够进行多步骤推理、持久记忆和长周期上下文处理的智能体系统,其计算需求日益增长。

根据英伟达的公告,软件开发中的现代AI应用需要对整个代码库进行推理、维护跨文件依赖关系并理解代码库层面的结构。同样,长篇视频生成和研究应用要求跨数百万令牌保持持续的连贯性和记忆能力——这些需求正将当前的基础设施能力推向极限。

Rubin CPX处理器具有30拍次浮点运算能力(NVFP4),128 GB GDDR7显存,并硬件支持视频解码和编码。英伟达声称该芯片的注意力加速比其GB300 NVL72系统高出3倍。该处理器专为英伟达所称的AI推理“上下文处理阶段”进行了优化——这是一个计算密集型过程,用于摄取和分析大量输入数据以产生初始令牌输出。

英伟达的技术方法核心是解耦推理,将AI处理分为两个截然不同的阶段,它们对基础设施的需求根本不同。上下文处理阶段受限于计算能力,需要高吞吐量处理来分析输入数据。生成阶段受限于内存带宽,依赖快速内存传输和高速互连来维持逐令牌输出性能。英伟达认为,传统的GPU架构在同一硬件上处理这两个阶段,导致资源利用效率低下。

解耦智能架构

Rubin CPX背后的技术基础反映了对现代AI推理模式的深刻理解。传统方法强制相同的硬件处理两个根本不同的计算阶段:上下文处理阶段,分析输入数据以产生初始理解;以及生成阶段,基于该理解逐令牌产生输出。

这些阶段对基础设施提出了相互矛盾的要求。上下文处理需要大规模并行计算来摄取和分析大量输入数据——想象一下解析百万行代码库或分析数小时视频内容。相反,生成过程严重依赖于内存带宽和对键值缓存的低延迟访问,因为模型会迭代生成每一个后续令牌。

Rubin CPX通过专业化来解决这种不匹配。该处理器提供30拍次浮点运算能力(NVFP4)和128 GB GDDR7显存——这种配置针对上下文处理的并行、计算密集型特性进行了优化。值得注意的是,选择GDDR7而非更高带宽的HBM,表明英伟达专注于成本优化吞吐量,而非生成工作负载的内存密集型需求。

系统架构超越了单个处理器。英伟达的Vera Rubin NVL144 CPX机架集成了144个Rubin CPX单元、144个标准Rubin GPU和36个Vera CPU,构成了一个专用推理工厂。该配置提供8艾次浮点运算能力(NVFP4),据称比该公司GB300 NVL72系统提升7.5倍,同时还拥有100 TB高速内存和1.7 PB/s内存带宽。

经济驱动创新

审视当前市场效率低下问题时,解耦推理背后的商业逻辑变得清晰。行业分析表明,部署长语境AI应用的企业经常过度配置通用加速器,以暴力提高预填充性能,导致大量资源浪费和每次请求成本虚高。

英伟达自身的预测虽然激进,但仍能说明潜在的经济影响。该公司表示,正确配置的Vera Rubin NVL144 CPX部署可以带来30到50倍的投资回报率,可能从1亿美元的资本支出中产生50亿美元的收入。尽管此类供应商提供的指标在独立验证之前应持保留态度,但它们反映了百万令牌推理所代表的经济机遇规模。

编排层对这些经济效益同样至关重要。英伟达Dynamo作为协调系统,管理上下文和生成处理器之间复杂的请求路由、通过高速互连传输键值缓存,并在解耦基础设施中维持最佳资源利用率。

市场动态与竞争响应

Rubin CPX的推出时机与几个市场拐点吻合,这些拐点可能决定其商业轨迹。百万令牌上下文窗口已从研究新奇事物转变为主要AI平台的生产功能,为能够经济高效地处理这些工作负载的基础设施创造了即时需求。

早期采用者可能来自长语境能力提供明显竞争优势的领域:需要代码库级别代码理解的软件开发平台、处理扩展视频序列的内容创作工具,以及合成大量文档集的研究应用。

竞争格局为英伟达的方法带来了机遇和挑战。AMD的Instinct MI355X平台,基于CDNA 4架构,为推理工作负载提供了引人注目的经济效益,其拥有288 GB HBM3e显存和激进的定价。虽然AMD缺乏专用预填充处理器,但软件层面的解耦可能以更低的成本实现类似的效益。

专用推理提供商针对同一潜在问题提出了替代方法。Groq的LPU架构在单流令牌生成方面表现出色,具有卓越的延迟特性,而Cerebras的晶圆级CS-3系统则面向高吞吐量场景。两者都没有提供英伟达在预填充-解码解耦方面的集成方法,但两者都可能在特定用例中抢占市场份额。

内存池技术的出现为竞争动态增加了另一个维度。补充GPU内存的外部内存系统可能允许企业无需专用芯片即可实现长语境能力,尽管性能特征可能有所不同。

技术验证依然关键

围绕Rubin CPX的几项技术主张需要独立验证,然后其市场影响才能明朗。英伟达声称比GB300 NVL72系统“3倍注意力加速”代表着显著的性能提升,但供应商提供的基准测试很少能直接转化为实际性能提升。

Dynamo在生产条件下编排能力的有效性将特别关键。该系统必须高效管理处理器之间的键值缓存传输、在解耦组件之间保持最佳批处理大小,并处理决定整体系统性能的复杂路由决策。次优的协调可能抵消专用硬件的优势。

NVL144 CPX机架等高密度配置的功耗和散热要求也可能影响采用模式。评估这些系统的企业必须考虑设施改造和运营成本以及采购费用。

投资影响与市场定位

从投资角度来看,Rubin CPX代表了英伟达将其平台主导地位扩展到新兴推理经济领域的尝试。该公司并非仅凭原始计算性能进行竞争,而是将软硬件一体化解决方案定位为关键差异化因素。

市场分析师认为这一策略可能特别有效,因为优化解耦推理工作负载非常复杂。企业可能更倾向于集成处理器、互连和编排软件的交钥匙解决方案,而非从多个供应商组装最佳组件。

随着AI应用变得更加复杂,长语境推理的潜在市场持续扩大。处理整个代码库的编码助手、创建扩展内容的视频生成工具以及分析综合文档集的研究智能体,仅代表了需要百万令牌能力的初始应用浪潮。

然而,执行风险依然巨大。Rubin CPX的成功在很大程度上取决于软件成熟度、生态系统支持以及在实际部署中展示出对替代方案的明显经济优势的能力。

前瞻性投资考量

投资者在评估英伟达的推理策略时应关注几个关键指标,以监测Rubin CPX走向生产部署的情况。将端到端性能和经济效益与AMD的MI355X系统进行比较的独立基准测试将为声称的优势提供关键验证。

软件生态系统支持的开发是另一个关键因素。与TensorRT-LLM和vLLM等流行推理框架的无缝集成将决定开发者和云服务提供商的采用率。

市场分析师可以考虑利用英伟达集成方法进行定位的策略,同时对来自AMD、专用推理提供商以及主要云服务提供商潜在的定制芯片开发的竞争反应进行对冲。英伟达性能优势的持续性将取决于硬件、软件和系统集成方面的持续创新——这些领域该公司历史上表现出实力,但面临日益增长的竞争压力。

鉴于百万令牌推理市场尚处于萌芽阶段以及解耦架构的技术复杂性,投资者应以适当的谨慎态度对待预测,同时认识到有效解决方案可能在快速发展的AI基础设施领域抓住的巨大机遇。

非投资建议

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯

我们网站使用Cookie来启用某些功能,为您提供更相关的信息并优化您在我们网站上的体验。更多信息请参阅我们的 隐私政策 和我们的 服务条款 。强制性信息可在 法律声明