博通102.4太比特交换机开启AI网络新时代
在数据中心努力应对大规模AI训练集群的功耗和稳定性挑战之际,这家科技巨头推出了首款光电共封装以太网交换机
帕洛阿尔托 — 驱动人工智能的竞赛不仅仅关乎更快的芯片或更智能的算法。在幕后,一个更大的挑战一直潜伏着:这些芯片之间的连接。数据中心每天消耗惊人的电量,同时努力让数千个处理器相互通信,而不会因不稳定的链路而中断。这个隐蔽的瓶颈如今正威胁着AI本身的经济效益。
博通相信它找到了答案。周三,该公司宣布已开始出货Tomahawk 6 “Davisson”,一款每秒102.4太比特的以太网交换机。更重要的是,这是同类产品中首款在此规模上采用光电共封装技术的产品。此时发布此款产品正值关键时刻,超大规模云运营商正争相从有限的电力和散热资源中榨取每一分性能。
多年来,工程师们一直依靠将光收发器直接插入交换机面板。这种方法一直有效——直到AI训练工作负载爆炸式增长到数十万个互连处理器。在这一规模下,传统硬件在物理和经济上都已达到极限。
硅与光的结合
那么,这款新交换机有何不同?博通没有将光学器件作为附加组件安装,而是将其直接集成到同一芯片基板上。通过消除长的电气通路、额外的连接器和信号调理硬件,光电共封装技术省去了浪费电力并引入不稳定性的中间环节。
可以把它想象成将发动机置于车轮内部,而不是通过一根长而摇晃的传动轴连接它们。结果呢?更清洁、更快、更可靠的运动。
博通表示,与传统可插拔光学器件相比,这种设计可将互连功耗降低多达70%。将此节省量乘以数万个网络端口,你将看到巨大的节约——不仅是金钱上的,还有数据中心必须散发的热量。
稳定性也得到了显著提升。在大型AI训练集群中,即使网络中出现微小故障,也可能导致昂贵的GPU闲置,并延迟每天成本达数十万美元的训练运行。通过加强集成,博通旨在最大限度地减少这些代价高昂的中断。
800亿美元的问题
当然,这不仅仅是一项技术壮举,它也是一个商业故事。分析师预计,未来五年内,用于AI网络的以太网交换机支出将达到800亿至1000亿美元。云巨头和企业AI公司正展开一场军备竞赛,以构建能够处理日益雄心勃勃的模型训练的网络。
在这个庞大的市场中,光电共封装技术占据了一小部分但至关重要的份额。由于技术复杂且供应链尚未完全成熟,其普及速度一直较慢。但随着网络速度突破每秒1.6太比特,传统可插拔器件在功耗和散热压力下开始难以承受。这正是CPO开始大放异彩的地方。
正如一位网络架构师所说:“在这样的速度下,你不仅仅是在购买性能。你还在购买将带宽适配到现有电力和散热限制中的能力。”
Davisson平台将每光通道速度翻倍至200吉比特——是博通上一代CPO交换机性能的两倍——该公司正将自己的旗帜牢牢插在这场高风险转型之中。
竞争对手紧追不舍
博通并非孤军奋战。思科、迈威尔和英伟达都对未来AI工厂的布线方式有着自己的愿景。其中几家已经宣布了能够与博通原始容量相媲美的交换机。但博通拥有在这一规模上实际率先出货的优势。
这种领先优势可能很重要。大型云服务提供商会提前数年规划基础设施,一旦他们认证了某个供应商的产品,通常会坚持使用。率先进入市场可能为博通带来关键优势。
然而,英伟达构成了一个独特的威胁。通过将其主导的AI加速器与网络设备和软件捆绑销售,它为客户提供了“一站式”解决方案。这对于纯网络供应商来说很难抗衡。预计竞争格局将根据使用场景而异,某些场景可能偏向英伟达的垂直整合方法,而另一些则倾向于博通的芯片解决方案。
Arista Networks等系统供应商和Micas Networks等利基市场参与者也将影响CPO的普及。他们支持CPO解决方案的意愿将是该技术传播速度的早期信号。
运营商的现实考量
然而,推出光电共封装技术并非轻而易举。这项技术高效的集成特性也使其维护变得更加困难。更换封装内有故障的光学模块与插入新的可插拔收发器完全不同。
博通已通过可更换的激光模块试图缓解这些担忧,但运营商需要新的技能和流程来维护这些系统。许多人会采取保守策略,在网络关键层部署CPO,同时在其他地方继续依赖更熟悉的可插拔光学器件。
供应链的可靠性增加了另一个难题。台积电在光子引擎制造中的作用意味着,随着需求激增,产量可能会达到极限。任何生产中断都可能延迟部署。
前进之路
对于投资者和行业观察者而言,博通此举凸显了关键趋势。先行者优势至关重要,而推出实际产品——不仅仅是公布路线图——才能赢得信誉。分析师预计博通将在未来一两年内获得设计订单,尤其是在那些测试过早期版本的客户中。
然而,更大的图景是以太网在AI后端网络中日益增长的主导地位。即使CPO的普及率保持适中,由于更丰富的芯片和光学器件含量,每个机架的价值也将上升。预测场景从保守估计(线性可插拔器件承担大部分工作)到激进估计(到2027年CPO在AI端口中的普及率升至四分之一)不等。
博通已经着眼未来,计划推出支持每秒400吉比特通道速度的第四代CPO。这一路线图与超大规模数据中心的长期规划完美契合,表明这并非一次性突破,而是多年转变的开始。
投资分析概要
类别 | 总结及作者观点 |
---|---|
产品与重要性 | 首款市场化102.4 Tb/s光电共封装 (CPO) 以太网交换机。这是一个真正的里程碑,而非简单的规格升级。它直接针对AI结构痛点:功耗/散热和1.6T速度下的链路稳定性。建立在经验证的TH5/台积电COUPE基础之上。 |
关键优势 | 1. 吞吐量: 102.4T带宽,支持10k-100k+ GPU集群的1.6T端口。 2. 功耗/散热: CPO相比可插拔器件显著降低互连功耗,可实现两位数的系统级节能。 3. 稳定性: 组件更少,减少链路抖动,最大限度降低昂贵的GPU空闲时间。 4. 制造: 台积电COUPE平台支持高良率的批量生产。 |
市场机遇 | 未来5年内AI以太网交换机支出约800亿美元。CPO无需赢得所有市场;即使到2027年实现5-15%的渗透率,也代表着数十亿美元的芯片+光学器件市场机遇,主要集中在GPU骨干等高功耗领域。 |
竞争格局 | • 博通: 领导者;率先出货102.4T CPO,强大的商业生态系统。 • 英伟达: 垂直整合(GPU+网络+软件)是其优势。 • 思科: 推崇LPO作为“足够好”的替代方案,维护性权衡更少。 • 迈威尔: 快速追随者;量产上市时间是关键。 |
投资论点 (AVGO) | 支持因素: 行业领导地位,以太网潜在市场总额结构性增长,光子学/封装护城河。 风险: CPO普及率,LPO竞争力,操作/可维护性摩擦,光子学供应链。 |
普及风险与缓解措施 | 1. 可维护性: 比可插拔器件更难更换。缓解措施: 现场可更换激光模块。 2. 热密度: 局部热通量严峻。缓解措施: 需要先进的系统设计。 3. 供应链: 扩展光子学制造并非易事。缓解措施: 台积电COUPE标准平台。 4. 软件: 以太网堆栈必须成熟以匹配英伟达的端到端优化。 |
场景分析 | 基准情景(最可能): 到2027年CPO搭载率8-12%;博通占据大部分份额。 乐观情景: CPO搭载率15-25%;博通保持>60%份额,推动营收超出预期。 悲观情景: CPO搭载率<5%;LPO胜出;博通仍受益于102.4T ASIC周期但错失CPU上行空间。 |
关键追踪指标 | 1. 原始设备制造商出货102.4T CPO系统。 2. 独立的功耗/稳定性数据(瓦特/100G,链路抖动平均无故障时间)。 3. 指定超大规模数据中心的部署情况以及LPO/CPO分层策略。 4. 台积电COUPE产能/良率更新。 5. 竞争对手102.4T/CPO路线图时间。 |
最终结论 | 开创性? 是的,对于以太网CPO而言。 解决了紧迫问题? 是的,显著提升了功耗和稳定性。 市场规模? 庞大,无论CPO组合如何。 领先地位? 是的,目前已出货102.4T CPO。 |
总结: 数据中心正以旧方式失去增长空间。博通的Tomahawk 6可能无法一夜之间解决所有挑战,但它展示了行业如何重新思考AI基础设施的基础。在这场每一瓦特、每一美元、每一秒都至关重要的竞赛中,这种转变可能具有决定性意义。非投资建议。