当人工智能巨头遭遇挫折:Claude长达两个月的质量危机,暴露数十亿美元基础设施漏洞
Anthropic公司坦诚发布的技术事后分析报告,详细揭露了导致Claude性能在2025年8月至9月期间下降的三个相互重叠的基础设施漏洞。这份报告揭示了大规模语言模型部署中的关键脆弱性,可能重塑投资者对人工智能基础设施股票的信心。
该公司前所未有的透明度,公开了问题症结所在,以及为何耗时近两个月才彻底解决,为支撑价值2000亿美元人工智能市场的技术复杂性提供了罕见洞察。对于一个建立在承诺提供一致、可靠人工智能基础上的行业而言,Claude的这次“跌倒”揭示了支撑当今人工智能革命的脆弱基础。
从8月初到9月中旬,三个独立的基础设施漏洞间歇性地导致Claude生成质量下降的回复,包括意料之外的字符损坏、在高峰影响时段影响高达16%请求的路由错误,以及导致AI在英语回复中生成泰语或中文字符的编译器级别问题。这些故障的技术复杂性,结合Anthropic的多平台部署策略,形成了一场“完美风暴”,暴露了人工智能质量保障方面的关键缺陷。

连锁反应:当基础设施遭遇现实
这场危机始于8月5日,最初并不显眼,是一个上下文窗口路由错误,仅影响0.8%的Claude Sonnet 4请求。然而,这个轻微的路由错误却在8月29日一次例行的负载均衡变更后急剧升级,在8月31日最严重时影响了16%的请求。
路由漏洞的“粘性”特性意味着,遭遇性能下降的用户在后续交互中很可能继续遇到问题。这造成了一种分裂的用户体验:一部分用户体验到稳定的高质量服务,而另一部分则面临持续的性能下降——这种情景产生了相互矛盾的反馈,并使诊断复杂化。
8月25日至26日,又出现了两个额外的漏洞,在Anthropic的基础设施中造成了重叠的质量问题。一个由TPU服务器配置错误导致的输出损坏漏洞,导致了随机字符生成;而一个近似的top-k XLA:TPU编译器漏洞则影响了文本生成过程中的token选择。这三个问题的结合产生了因平台、请求类型乃至调试条件而异的症状。
多平台复杂性:规模化的双刃剑
Anthropic将服务部署在AWS Trainium、NVIDIA GPU和Google TPU上,旨在提供全球容量和冗余,但在危机期间反而成为一种负担。每个平台都表现出不同的症状,需要单独的修复,且解决时间在不同提供商之间差异显著。
Amazon Bedrock上,路由错误流量最高达到所有Sonnet 4请求的0.18%;而Google Cloud的Vertex AI受到的影响极小,低于0.0004%的请求。该公司自己的API首当其冲,承受了大部分问题,在高峰影响期间,约有30%的Claude Code用户至少经历了一次性能下降的消息。
这种平台间的差异性,揭示了人工智能基础设施提供商面临的一个根本性挑战:在异构硬件上保持质量一致性,同时扩展服务全球数百万用户。确保在不同芯片架构、编译器和云环境中产生等效输出的技术复杂性,代表着投资者在很大程度上忽视的隐藏运营风险。
监测盲点:为什么传统监控失效了
对人工智能行业而言,最令人担忧的或许是这些质量问题如何数周都未被检测出来。Anthropic传统的监控系统——侧重于延迟、错误率和吞吐量——在整个危机期间都显示“正常”。该公司的基准测试和安全评估未能捕捉到用户正在经历的细微但显著的性能下降。
这些漏洞产生了工程师所称的“静默故障”——即看起来合理但包含关键缺陷的输出。Claude在回复中自我纠正的能力掩盖了粗略评估中检测到的单步错误。传统可靠性指标在衡量AI质量方面显得不足,暴露了行业监控实践中的一个重大缺陷。
隐私控制在保护用户数据方面,也通过限制工程师访问重现错误所需的特定故障交互,从而阻碍了快速诊断。这造成了一个令人不安的悖论:正是那些建立用户信任的隐私保护措施,也阻碍了质量问题的迅速解决。
编译器关联:人工智能技术栈中的隐藏依赖
技术上最复杂的问题涉及XLA:TPU编译器,其中混合精度算术和优化标志导致了意想不到的token选择行为。2024年12月的一个临时解决方案无意中掩盖了一个更深层次的近似top-k操作漏洞。当工程师在8月移除这个临时解决方案时,认为已经解决了根本原因,却暴露了潜在的编译器问题。
这一事件凸显了人工智能系统对深层软件堆栈的依赖性,涉及编译器、精度库和硬件特定的优化。这些依赖关系,对终端用户和投资者来说大部分是不可见的,可能会导致难以预测和诊断的级联故障。
理解和修复此类问题所需的技术深度,对成熟的人工智能公司而言,构成了一道重要的护城河,但也带来了系统性风险。很少有组织具备大规模调试影响神经网络推理的编译器级别问题的专业知识。
恢复迹象与竞争定位
我们CTOL.digital的工程团队观察到,在基础设施修复后,Claude的性能已经稳定下来。一些严重依赖AI编码辅助的工程团队报告称,过去一天内回复质量有显著改善,许多人表示“那个好用的Claude又回来了”。这一恢复发生在一个关键时刻,正值OpenAI的GPT Codex在功能上迅速与Claude Code达到同等水平,加剧了人工智能开发工具市场的竞争。
尽管功能竞争日趋激烈,技术观察家认为,平台之间仍存在根本性的模型质量差异。行业内部人士表示,Anthropic预计在年底前发布的Claude 4.5版本,对其保持竞争地位至关重要,鉴于两家公司都在竞相争夺利润丰厚的开发者工具市场。
投资视角:重新评估人工智能基础设施风险
对投资者而言,Claude的技术事后分析报告揭示了几个令人担忧的模式,这些模式可能影响人工智能基础设施的估值。跨平台维持质量的复杂性、传统监控对人工智能服务的不适用性,以及诊断问题所需的深厚技术专业知识,都表明运营风险比之前所理解的更高。
然而,Anthropic的透明回应和全面的技术修复措施,可能预示着其运营成熟度,使其区别于竞争对手。该公司实施的增强型评估、质量特定监控和隐私保护调试工具,有望建立新的行业标准。
分析师建议投资者应根据基础设施的韧性,而不仅仅是模型性能来评估人工智能公司。展现出强大的多平台部署能力、精密的质量监控和快速问题解决能力的公司,随着行业成熟,可能会获得更高的估值。
展望未来:Claude 4.5的成败关键
随着Claude 4.5预计在年底前发布,Anthropic面临压力,需要证明其基础设施改进能够防止类似的质量危机。该公司坦诚的事后分析报告和全面的补救计划表明其对其技术能力的信心,但执行力将是关键。
整个AI行业应将Claude的基础设施挑战视为一次警钟。随着AI系统对商业运营变得越来越关键,基础设施的可靠性将越来越成为市场领导者与追随者之间的区别。投资于强大基础设施监控、多平台一致性和快速问题解决能力的公司,可能会在长期成功中占据更有利的位置。
Claude基础设施危机中的技术教训不仅限于Anthropic。每家大规模部署人工智能的公司都面临着异构硬件、编译器依赖和质量监控方面的类似挑战。行业如何应对这些暴露出的脆弱性,可能决定哪些公司能在从AI实验阶段到全球规模生产部署的转型中存活下来。
非投资建议
