生成式AI不只会“吃掉”软件工作,它也正向公共云发起冲击
十年来,这个说法似乎是不可阻挡的:拥抱公共云,否则就等着被竞争对手甩在身后。托管服务承诺无限扩展和全球覆盖。何必与地心引力抗争呢?然而,生成式AI的到来,以一种出乎所有人意料的方式,彻底改变了局面。这种曾让所有人担心会取代软件工程师的技术,现在正悄然瓦解超大规模云服务赖以生存的运营护城河。
可以将其视为一场巨大的再平衡。代理式SRE系统自动编写操作手册。自动修复在人类察觉问题之前就将其解决。Copilot能在几分钟而非几天内生成Terraform配置和Kubernetes清单。一旦运营负担减轻,经济效益将发生翻天覆地的变化。许多大型企业运行着可预测的工作负载。对它们而言,自建容量或使用廉价的全球VPS(虚拟专用服务器)突然又变得具有经济意义了。
(本文聚焦于非AI的公共云工作负载,不包括生成式AI工作负载)

旧有的模式正在走向终结
公共云从来不只是意味着“别人来处理服务器”。企业为速度、安全性、扩展性支付溢价,而无需组建庞大的平台团队。然而,AI正在以超乎大多数人想象的速度弥合这一差距。
代理式运营完全消除了繁琐的重复性工作。大型语言模型可以按需生成基础设施代码。它们在事故发生时提出安全的版本回滚建议。它们总结复杂问题,并在策略范围内执行标准操作手册。过去需要平台团队花费整个下午才能完成的任务,现在几分钟内就能搞定。更棒的是,文档保持一致,审计追踪完整无缺。
开源工具已经变得“足够可管理”,可用于严肃的生产环境。Postgres Operator、向量数据库、模型服务器、特征存储和可观测性堆栈曾一度被认为自托管风险过高。现在,代理通过策略即代码框架将它们组合起来。定制化永远胜过供应商锁定。AI可以防止粘合代码随着时间推移而退化。
可预测的工作负载在经济上优于弹性工作负载。大多数成熟企业流量模式稳定,利用率超过80%。自建基础设施或VPS上的高利用率,可以碾压按小时计费的模式。出口流量费用显著放大了这一优势。
关键的一点是:全行业的运营溢价正在崩溃。单位经济效益成为唯一重要的衡量标准——每千次推理的成本、每千个token的成本、每千兆字节处理的成本。在这种严峻的审视下,云服务的便利性溢价无所遁形。
突发流量仍需云服务——只需其总量的10%到20%
云倡导者会立刻提到突发性工作负载。市场活动会导致流量激增。模型评估农场会临时启动。对于这些场景,他们绝对是正确的。为不可预测的突发流量租用容量是完全合理的。但这并不能成为你永远将所有基础设施都放在超大规模数据中心的理由。
一种更智能的模式正在业界浮现。将你的基线负载运行在自建基础设施或VPS上。将其规模设置为70%到85%的利用率。在云端或与次级裸金属服务商合作,创建突发流量通道。用于实验、流量高峰和灾难恢复演练。在所有地方保持相同的控制平面和策略。部署位置变成了调度决策,而非痛苦的迁移项目。
云服务不会从这个图景中消失。它正成为溢流阀,而非所有东西的默认归宿。
垂死挣扎的论点正在失去说服力
过去,有三种论点能够立即终结这场争论。如今,它们不过是通往混合基础设施之路上的减速带。
全球故障转移听起来至关重要,直到你仔细审视它。可靠性源于系统设计,而非高级SKU(商品编号)。代理式运营可自动化区域健康监控、DNS路由、跨区域快照和灾难恢复测试。真正的颠覆性因素是即时证据生成。代理将恢复时间目标、备份日志和变更批准编译成可供审计的软件包。纪律仍然很重要。但你不需要超大规模服务商也能实现它。
企业身份管理和防护栏现在都有了开源替代方案。Keycloak、Ory、SPIFFE、SPIRE、OpenFGA、Cedar、Vault、OPA和Gatekeeper提供了强大的身份、策略和秘密管理。代理将这些控制端到端地连接起来。它们使策略文档与实际基础设施保持同步。公共云提供的组织整合很方便。但它不再是不可替代的了。
像NVLink或InfiniBand这样的专用网络结构对于特定工作负载至关重要。在数百个GPU上训练模型需要特殊的互连技术。超低延迟推理需要仔细的拓扑规划。但这属于工作负载分类,而非普遍适用的王牌。大多数推理管道、数据处理作业和应用程序后端在标准网络上运行良好。将专用工作负载放在适当的硬件上。将其他一切都从昂贵的超大规模平台上移开。
小团队刚刚获得了平台红利
小型公司历来选择云服务以避免认知负担过重。现在,代理极大地减轻了这一负担。
你可以在大约一周内启动一个完整的平台。Terraform自动配置基础设施。Talos或K3s提供轻量级Kubernetes。Argo CD处理部署。Vault管理秘密。SPIRE处理服务身份。Keycloak提供身份验证。Cilium安全地连接一切。Postgres Operator运行数据库。MinIO提供对象存储。Prometheus、Loki和Grafana监控整个堆栈。AI为所有这些编写配置。
之后,运营工作将自动运行。操作手册代理自动执行安全修复。合规代理汇总访问审查、备份验证和灾难恢复指标。成本代理报告每千次请求的开销,并标记突然的增长。
当基础设施工作简化为编写提示和点击批准时,对于大多数小型企业工作负载来说,VPS的经济效益将碾压按需定价。托管服务仍然有助于真正的分钟级突发流量或严格的合规要求。它们现在是可选的,而非强制性的。
新公式:以产出论价,而非以实例论价
这种转变并非意识形态上的姿态。而是基本算术主导了决策过程。停止比较虚拟机规格。开始追踪对你业务真正重要的指标。
计算跨环境的每项产出成本。衡量每千次推理的成本、每千个token的成本、每千兆字节处理的成本。容量就绪时间展示了敏捷性——配置GPU或将服务层级翻倍需要几分钟还是几天。可靠性证明包括成功恢复的时间戳,以及最近演练中验证的恢复目标。变更速度追踪问题通过代理生成的拉取请求转化为生产部署的速度。运营负担统计每周的告警次数和平均修复时间。
将这些指标放到统一的仪表板上。你将发现你真正需要的云容量到底有多少。它很少再是“全部”了。
生成式AI会吞噬公共云吗?
不是通过直接竞争或恶意收购。而是通过缓慢的蚕食。
代理式编程和AI驱动的运营正在迅速成熟。你曾经为完全托管基础设施支付的溢价,正随着每个季度的过去而变得越来越难以证明其合理性。基线工作负载迁移到自建容量或低成本VPS提供商。突发情况和边缘案例仍会短暂租用超大规模容量。云账单将从“基础平台”缩小到“压力释放阀”。
生成式AI已经为开发人员编写应用程序代码。现在,它正在编写运营手册、安全策略和合规证据,从而使企业能够自信地进行自托管。软件工程工作不会一夜之间消失。但其本质正在发生变化。公共云也不会消亡。它将收缩到其最容易防守的阵地——真正的突发容量、特殊网络结构,以及你无法或不愿自建的合规自动化。
其他一切都将移至他处。具有成熟模式和成本敏感性的稳定工作负载将被一个新的“三驾马车”所“吞噬”。AI驱动的运营、成熟的开源工具和廉价的全球VPS容量正在重塑基础设施的经济模式。云时代并未终结。它只是正在“瘦身”。
