AMD在AI芯片高风险竞争中打破英伟达内存上限
硅谷对决:AMD 288GB内存策略重塑AI硬件格局
为直接挑战英伟达在人工智能计算领域长期以来的主导地位,AMD发布了迄今为止最雄心勃勃的AI硬件产品线,其中最引人注目的是在关键规格——内存容量上超越行业领导者的芯片。本周在圣何塞举行的“Advancing AI 2025”活动上,AMD展示了Instinct MI350系列,该系列配备了前所未有的288GB高带宽内存,比英伟达的旗舰Blackwell芯片多出50%,这可能重塑价值1500亿美元的AI加速器市场的竞争格局。
OpenAI首席执行官萨姆·奥特曼(Sam Altman)在活动中表示:“当你们刚开始分享这些规格时,我简直不敢相信;这听起来太疯狂了。这将是一个非凡的进步。”他强调了AMD这项技术成就的重要性。
AMD全新AI产品概览
产品名称/系列 | 关键规格与特性 | 性能亮点 | 上市时间/发布 |
---|---|---|---|
Instinct MI350 系列 (MI350X & MI355X) | • 架构: CDNA 4,台积电N3P工艺节点 • 内存: 高达288GB HBM3E • 带宽: 8TB/秒 • 散热: 风冷(每机架最多64个GPU)和液冷(每机架最多128个GPU) | • AI计算性能提升高达4倍,推理性能提升35倍(相较于上一代) • 机架配置下FP4性能高达2.6百亿亿次浮点运算 (exaFLOPS) • 在FP4推理下,每美元可处理的tokens数量比英伟达Blackwell B200多40% | 2025年第三季度(开始出货) |
MI400/450 系列(预览) | • 内存: 高达432GB HBM4 • 平台: 将作为“Helios”机架级平台的核心 • 竞争: 将与英伟达的Rubin/Vera Rubin平台竞争 | • 预期在专家混合(MoE)模型上的推理性能比MI350系列高出10倍 | 2026年 |
Helios AI 机架 | • 组件: 集成多达72个GPU、Zen 6 EPYC CPU和新型Vulcano网络芯片 • 设计: 液冷,用于超大规模AI的全机架统一计算引擎 | • 性能基于其集成组件(MI400/450系列) | 2026年 |
ROCm 7.0 软件栈 | • 旨在创建开放AI生态系统,与CUDA竞争 • 具有CUDA-thunk兼容层,可“开箱即用”地重新编译72%的开源CUDA项目 | • 推理性能比ROCm 6.0提升4倍以上,训练性能提升3倍 | 现已可用 |
开发者云 | • 一项新云服务,为开发者提供即时访问AMD最新GPU的途径 • 效仿英伟达的DGX Cloud Lepton服务 | (不适用 - 访问平台) | 现已可用 |
内存突破瞄准AI瓶颈
Instinct MI350系列基于AMD全新的CDNA 4架构和台积电先进的N3P制造工艺,是该公司首款在核心规格上明显超越英伟达的容量受限产品。MI350芯片配备288GB HBM3E内存和8TB/秒的带宽,解决了运行现代大语言模型(LLM)的主要瓶颈:内存容量。
对于AI应用,尤其是涉及数十亿参数模型的推理工作负载,这种内存优势转化为切实的性能提升。早期基准测试表明,在FP4精度下,MI350每美元可处理的tokens数量比英伟达的Blackwell B200多出约40%,这主要归功于其内存效率而非原始计算能力。
一位要求匿名的资深行业分析师表示:“这是AMD的AI战略最终明朗化的时刻。MI350的内存容量不仅仅是规格表上的胜利,它从根本上改变了LLM大规模推理的可能性。”
这些芯片将提供风冷配置(每机架支持多达64个GPU)和液冷配置(每机架支持多达128个GPU),FP4性能潜力高达2.6百亿亿次浮点运算。AMD证实MI350系列将于2025年第三季度开始出货,大约比英伟达开始出货其Blackwell架构晚九个月。
超越芯片:AMD的全栈攻势
MI350代表了AMD的近期攻势,而该公司的长期战略似乎更具雄心。AMD预览了其MI400/450系列芯片,计划于2026年发布,该系列将配备高达432GB的下一代HBM4内存,并作为该公司专为超大规模部署设计的“Helios”机架级AI平台的核心。
Helios AI机架是一个液冷系统,集成了多达72个GPU、Zen 6 EPYC CPU以及AMD新型Vulcano网络芯片,这标志着AMD有意在完整系统层面而非仅仅是芯片层面与英伟达竞争。这种机架级方法效仿了英伟达的Vera Rubin战略,并瞄准了作为AI硬件市场最大、最有利可图细分市场的超大规模数据中心。
AMD还显著增强了其软件生态系统,发布了ROCm 7.0,其推理性能比前代提升4倍以上,训练性能提升3倍。该公司还推出了一项新的开发者云服务,为AI开发者提供即时访问其最新GPU的途径,类似于英伟达的DGX Cloud Lepton服务。
战略合作验证AMD的AI推进
主要云服务提供商和AI公司已表明对AMD新硬件的支持。Oracle Cloud Infrastructure承诺部署超过13.1万颗MI355X芯片的集群,这是迄今为止公开宣布的最大订单。Meta正在将MI350用于Llama模型推理,而微软和OpenAI则