华为CloudMatrix系统标志着中国生成式AI独立自主迈出重要一步

作者
Lang Wang
6 分钟阅读

华为发布CloudMatrix系统,赋能大规模AI模型推理

华为发布了技术文档,详细介绍了其CloudMatrix384系统。这是一个专门的计算平台,围绕384个昇腾910C神经网络处理器(NPU)构建,旨在为大型AI模型提供推理能力。该系统包含CloudMatrix-Infer服务栈,其针对DeepSeek-R1等拥有6710亿参数的超大型混合专家(Mixture-of-Experts)语言模型进行了优化。

技术架构与创新

CloudMatrix系统在其架构中实现了多项关键技术创新。其核心设计是统一总线(Unified-Bus)网格网络,该网络实现了所有NPU和CPU之间的直接通信,且延迟开销极小。根据技术报告,这种互连在节点间通信期间,带宽损耗低于3%,延迟低于1微秒。

该系统采用解耦的AI推理方法,将推理过程分为三个独立的资源池:预填充NPU、解码NPU和由DRAM支持的缓存集群。这些组件通过统一总线直接相互访问,无需局部性感知调度器,从而实现更高效的资源利用。

“这种方法有效地扁平化了内存层次结构,实现了更简单的无状态调度器和池化缓存,”技术文档解释道,并指出该设计允许系统中任何空闲的DRAM都可用于键值或模型缓存。

性能指标与对比

报告中包含的性能数据显示,CloudMatrix系统在使用4K token提示进行预填充操作时,每个NPU每秒可实现6688个token,相当于每TFLOPS每秒4.45个token。在解码操作方面,系统在批量大小为96时,每个NPU每秒提供1943个token,总处理开销时间低于50毫秒。

报告指出,这些效率指标超过了NVIDIA H100和H800硬件上运行的同类系统的已发布数据。当限制在15毫秒的更严格延迟要求下时,系统通过自动调整批量大小,仍能保持每秒538个token的吞吐量。

系统中实现的量化技术允许在适当的情况下使用INT8精度,同时为敏感操作保留BF16/FP32精度。报告表明,这种混合精度方法在大幅减少内存需求的同时保持了模型准确性,基准测试结果显示,INT8模型在英语、代码、数学和中文评估套件中,性能与FP基线模型相当或接近。

经济考量

技术文档包含了该系统的估算成本。一个完整的CloudMatrix384机架的估价约为人民币5000万元(约合690万美元),单个昇腾910C芯片的价格约为人民币15万元。根据吞吐量测量,这意味着每生成一百万个token的成本约为人民币2元。

该系统的弹性内存服务(Elastic Memory Service)提供了额外的运营效率优势,使模型切换在大约5秒内完成,而传统节点本地DRAM方法需要281秒。同时,它只需要1倍的DRAM占用空间,而传统方法需要8倍。

技术实现细节

以下几项专门技术为系统的性能特性做出了贡献:

  1. 大规模专家并行:系统实现了高达320个专家的专家并行,每个NPU芯片精确地分配一个专家,同时对密集层使用数据并行。

  2. 混合和微批次流水线:对于预填充操作,系统使用混合张量并行和专家并行,通过两微批次流水线实现多头潜在注意力(Multi-Head Latent Attention)。解码操作对每个微批次使用重叠的注意力流和MoE流。

  3. 多token预测:系统通过推测性验证每步生成两个token,根据批量大小不同,可提供6-49%的额外解码吞吐量。

  4. 昇腾原生内核:专为昇腾架构的立方体/向量/DMA引擎设计的定制INT8 GEMM实现和融合算子有助于通过所选的并行策略保持性能。

市场影响

CloudMatrix系统代表了完全国产的中国AI计算解决方案,涵盖了从NPU芯片到系统软件的全链条。技术报告指出,凭借中国的制造能力,该系统具有大规模生产的潜力。

DeepSeek模型提供开放权重供社区采用,同时为私有部署提供商业附加功能,这一策略与报告中描述的北京政策重点——侧重应用价值而非单纯参数数量——相符。

对于处理大规模AI模型的组织而言,该系统可能提供一种经济高效的推理方法,特别是对于模型蒸馏或无需大量标注操作的自训练等数据密集型任务。

未来发展

技术文档概述了未来发展的几个领域,包括更密集的[[光互连]]和更复杂的调度算法。作者认为,当前的架构可以扩展到比报告中详细介绍的384个NPU实现更大的配置。


注:本分析基于技术文档中提供的信息。潜在投资者在做出投资决策前应进行自己的研究并咨询财务顾问。

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯

我们网站使用Cookie来启用某些功能,为您提供更相关的信息并优化您在我们网站上的体验。更多信息请参阅我们的 隐私政策 和我们的 服务条款 。强制性信息可在 法律声明