AI初创公司Modular融资2.5亿美元,挑战英伟达在计算能力领域的主导地位

作者
Tomorrow Capital
15 分钟阅读

硅谷初创公司豪掷2.5亿美元,欲打破英伟达的AI主导地位

Modular获得创纪录融资,显示出在AI需求激增背景下,市场对厂商锁定日益不满

在硅谷的服务器农场里,一场巨大的变革正在悄然发生。随着AI工作负载吞噬越来越多的计算能力,一家年轻的初创公司刚刚获得了2.5亿美元的巨额资金,旨在挑战科技领域最具主导性的力量之一:英伟达对AI基础设施的垄断。

这家名为Modular的初创公司由编程语言先驱Chris Lattner共同创立,于周三宣布获得由Thomas Tull的美国创新技术基金领投的C轮融资。此次融资使Modular的估值几乎翻了三倍,达到16亿美元,并将其自2022年成立以来的总融资额推高至3.8亿美元。如今,它已站在众多挑战者的前沿,寻求重写AI计算的规则。

然而,在这番喧嚣的背后,故事的深层意味更加复杂。行业追逐的不仅仅是更快的芯片,它还在与一个令人不安的现实作斗争:计算需求正在爆炸式增长,但由于软件栈的碎片化和厂商专有性,很大一部分现有容量却处于闲置状态。


隐秘危机:算力紧缺世界中的计算浪费

AI对算力的胃口似乎永无止境。数据中心如玻璃教堂般拔地而起,但业内人士却私下谈论着显而易见的低效问题。问题不在于硬件本身,而在于围绕硬件构建的封闭生态系统。

英伟达拥有CUDA,AMD提供ROCm,苹果则守护着自己的一套框架。每一个都强迫开发者进入其专属领地,迫使他们要么忠于单一厂商,要么以惊人的成本兼顾多个代码库。一位分析师称之为“创新税”。

这笔“税”不小。训练AI模型的成本逐月攀升,即便推理成本有所下降。公司在计算上投入了创纪录的资金,但由于软件瓶颈,大部分投入未能产生预期效果。想象一下一队赛车都卡在一档——这正是许多工程师所描绘的图景。


Modular的赌注:构建AI的“操作系统”

Modular认为它找到了解决方案。该公司将自己定位为AI领域的VMware,后者曾抽象化服务器硬件,并永远改变了企业IT格局。

其平台将三大组件整合在一起。最上层是Mammoth,一个专为AI设计的Kubernetes原生编排系统。与通用编排不同,Mammoth了解大规模推理的特殊性——例如根据工作负载类型路由请求、将计算与缓存分离以实现更智能的分配,以及在相同硬件上调度多个模型。

其次是MAX,即服务层。Modular在此集成了推测性解码和算子级融合等优化功能。它还承诺提供实用性:兼容性。MAX支持PyTorch和专有模型,同时暴露与OpenAI API兼容的端点。

而基础层则是Mojo,一种新型系统语言,它融合了Python的易用性与C++的原始速度。通过拥有语言本身,Modular希望实现CUDA曾赋予英伟达的那种锁定效应——只不过这次,是跨越所有厂商。

早期基准测试结果令人鼓舞。Modular表示,其技术栈在现代硬件上的性能比vLLM和SGLang等框架高出20%至50%,延迟降低高达70%,并为合作伙伴节省了高达80%的成本。


在赢者通吃市场中结盟

Modular并非独自投入这场战斗。其融资轮次揭示了一个涵盖从云服务提供商到芯片制造商的联盟。甲骨文、AWS、Lambda Labs和Tensorwave已签约合作。硬件合作伙伴包括AMD,甚至令人玩味的是,英伟达自己也位列其中。客户范围从Inworld等初创公司到Jane Street等重量级机构。

对于云平台而言,支持Modular是明智之举。一个统一的软件层可以降低它们对任何单一芯片供应商的依赖,并可能提高利用率。对于AMD及其他竞争对手来说,这是一个通过降低采用障碍来与英伟达拉平竞争环境的机会。

投资者Thomas Tull直言不讳地指出:“战略性AI实施是当今经济中最重要的竞争因素。”其潜台词很清楚——谁控制了软件层,谁就可能不仅塑造市场,甚至能影响国家竞争力。

对于挑战者而言,时机再好不过。AMD最新的MI350芯片在许多AI工作负载中都能与英伟达的性能相媲美,而Cerebras和Groq等初创公司则推出了在特定用例中表现出色的专用架构。Modular的抽象层可以给这些替代方案提供一线生机。


英伟达的反击

当然,英伟达并未坐以待毙。其**NIM(英伟达推理微服务)**平台将基于CUDA的部署打包成简单的容器。对于那些乐于留在英伟达生态系统内的客户来说,这种“交钥匙”模式提供了无与伦比的简洁性和性能。

这让Modular陷入了经典的创新者窘境。它必须说服开发者,灵活性和跨平台自由度超过了英伟达封闭生态系统的精致与速度。与此同时,vLLM、SGLang和ONNX Runtime等开源竞争对手已经拥有了显著的开发者用户基础。

而市场力量可能和技术一样决定结果。由于GPU需求供不应求,许多组织无法选择自己最喜欢的芯片,他们只能接受可用的产品。这种动态本身就可能推动像Modular这样厂商中立解决方案的普及。


投资者为何关注

这笔2.5亿美元的投资凸显了风险资本对AI看法的转变。华丽的模型初创公司抢占头条,但基础设施提供商正日益被视为更安全、更持久的投资。他们不需要赢得AI军备竞赛,无论谁构建了最好的模型,他们都能从中获利。

Modular 16亿美元的估值表明,支持者认为它不仅仅是一家软件初创公司。他们押注它可能成为一个基础层——就像每个AI项目都必须经过的收费站。正是这种定位让云巨头或硬件厂商将其视为极具吸引力的收购目标。


前路漫漫

然而,Modular面临的挑战是巨大的。它不仅仅是构建一种语言或一个框架;它同时在攻克语言、运行时和编排系统。很少有公司能在这种艰巨的任务中存活下来。

历史既提供了希望,也带来了警示。VMware成功了,并重塑了IT格局。许多其他公司也尝试过类似的壮举,但由于性能权衡或现有巨头的阻力而失败。Modular必须在不同硬件上提供“足够好”的速度,同时提供足以证明切换合理性的操作简易性。

时间正在流逝。英伟达的生态系统日益强大,开源竞争对手也在加速前进。Modular确立地位的机会不会永远存在。

对于AI世界而言,风险极高。如果Modular成功,它可能会迎来一个硬件选择多样化、竞争激烈、价格更公平的未来。如果它失败,英伟达的主导地位可能会固化,接近永久。

有一点是肯定的:随着AI计算成本飙升和供应日益紧张,厂商无关基础设施的吸引力只会越来越强。Modular能否将这种渴望转化为持久的成功,可能不仅决定它的命运,更将决定未来几年AI基础设施的格局。

内部投资论点

方面总结
核心论点统一的AI计算层是一个真实且具有高度确信的趋势,由硬件多样化和厂商锁定疲劳驱动。然而,其成功取决于在英伟达反击(NIM, TensorRT-LLM)面前,能否证明性能对等和操作简易性。
关键信号:Modular的融资2.5亿美元,估值16亿美元。定位为“AI领域的VMware”,提供统一栈(兼容OpenAI的服务、K8s控制平面、内核DSL),以抽象化云服务商、企业和独立软件供应商(ISV)的CUDA/ROCm/ASIC。
关键信号:英伟达的反击NIM微服务TensorRT-LLM在CUDA生态系统内提供了“交钥匙式”的高性能路径,提供引人注目的“一键式”解决方案,挑战了第三方整合者的必要性。
市场驱动因素(根本原因)1. 厂商锁定疲劳: 希望获得对英伟达的议价能力。
2. 硬件多样化: 可信的替代方案(AMD MI350、Groq、Gaudi、Apple MLX)。
3. 运维复杂性: 需要开箱即用的预填充路由、量化等功能。
4. 资本流动: 新兴云/云服务商需要利用率和可移植性以提高投资资本回报率(ROIC)。
竞争格局横向整合者: Modular(全栈)、ONNX Runtime(务实)、OpenXLA/IREE(编译器中间表示)。
服务引擎: vLLM(开源默认)、SGLang(快速行动者)、NVIDIA NIM/TRT-LLM(现有厂商的便利性)、Hugging Face TGI(企业级)。
硬件垂直领域: NVIDIA(引力陷阱)、AMD(信誉渐增)、Groq(速度叙事)。
成功之路(针对Modular/整合者)1. 分发: 在云/新兴云镜像上进行OEM预装。
2. 芯片厂商协同开发: 对非英伟达硬件的零日支持和性能对等。
3. 运维成功: 默认交付高级功能(预填充路由、多租户)。
4. 开发者吸引力: Mojo语言成功或强大的PyTorch/OpenAI API互操作性。
主要风险/失败模式1. 英伟达的便利性: 如果NIM“足够好”,可移植性将失去吸引力。
2. 性能滞后: 在通用硬件上慢5-20%会阻碍迁移。
3. 过度建设风险: 语言+运行时+控制平面的范围过大。
4. 开放标准: ONNX/OpenXLA/vLLM的成熟可能使新层变得多余。
尽职调查重点(针对风投)1. 可移植性证明: B200 vs. MI350 vs. Gaudi上的生产服务水平目标(SLO)(首个Token生成时间、95分位数、每百万个Token的成本)。
2. 分发: 作为云市场中默认选项的嵌入性。
3. 运维原语: 与NIM的功能对等(路由、缓存、多模型服务)。
4. 生态系统: 模型支持、API兼容性、与vLLM/SGLang的基准比较。
5. 利润: “按任务”计费的单位经济效益。
创始机会1. LLM可观测性: Token级追踪、成本归因。
2. 量化工具链: 可证明的精度边界、自动A/B测试。
3. 多租户安全与策略: 基础设施层保障。
4. 边缘统一: 将ExecuTorch/MLX/NPU与云网桥接。
如果统一层获胜的含义1. 芯片多元化加速(AMD/Gaudi/Groq市场份额增加)。
2. 云服务商/新兴云重新获得对英伟达的议价能力;提高利用率/投资资本回报率(ROIC)。
3. 标准(ONNX、OpenXLA)变得更强大。
如果失败的含义CUDA霸权因NIM而加深;非英伟达硬件的采用放缓。
12-24个月预测1. 双栈世界: “英伟达优先”与“统一优先”栈并存。
2. 并购: 超大规模云/新兴云收购一个整合者。
3. 随着统一运行时的成熟,AMD在推理领域的份额增加。
4. 服务引擎整合;竞争转向操作性而非微小性能差异。
需跟踪的关键绩效指标(KPI)1. 成本: B200 vs. MI350上,95分位数下每百万个输出Token的成本。
2. 速度: 投入生产时间 vs. NIM。
3. 覆盖范围: 芯片/厂商支持和零日就绪。
4. 效率: 预填充路由命中率、KV缓存重用。
5. 分发: 市场镜像和OEM预捆绑。

并非投资建议

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯

我们网站使用Cookie来启用某些功能,为您提供更相关的信息并优化您在我们网站上的体验。更多信息请参阅我们的 隐私政策 和我们的 服务条款 。强制性信息可在 法律声明