阿里巴巴发布万亿参数Qwen3-Max AI模型,证明越大确实仍然越好

作者
CTOL Editors - Ken
9 分钟阅读

万亿参数的豪赌:阿里巴巴通义千问3-Max如何证明AI缩放定律仍是王道

独家分析揭示,这家中国科技巨头的巨型模型挑战了关于人工智能极限的传统观念。

最近,一个根本性的问题一直困扰着全球硅谷的董事会和研究实验室:我们是否已经触及了天花板?在训练成本飙升至数亿美元、怀疑论者警告收益递减之际,阿里巴巴通过发布通义千问3-Max给出了一个响亮的答案,其影响远远超出了中国国界。

该模型于2025年9月24日的云栖大会上发布,拥有超过一万亿参数,并用36万亿个令牌(tokens)进行训练——这样的规模在几年前是难以想象的。但除了这些令人瞠目结舌的数字之外,还有一个更深层次的故事:CTOL.digital工程团队的独家测试显示,人工智能备受争议的“缩放定律”——即模型越大性能越好的原则——仍然顽固而令人惊讶地保持不变。

突破天花板

“大是好的。大依然有效。”我们的内部分析如此总结道。这项分析基于大量内部测试,涵盖编程、物理模拟和复杂推理任务,对通义千问3-Max进行了全面检验。这一结论挑战了越来越多批评者的观点,他们认为人工智能已经触及了根本性极限。

证据令人震惊。在一对一比较中,通义千问3-Max解决了一个“难倒GPT-4”的数学难题,并正确地给出了答案。当被要求构建一个模拟球在四维超立方体中弹跳的网页应用程序时,该模型提供了功能性代码,这对于早期版本来说是不可能实现的。

最能说明问题的是,该模型展示了研究人员所称的“一次性可运行项目”——即生成完整、可执行的软件应用程序,而不仅仅是代码片段,这一能力代表着一次质的飞跃。

合成数据革命

通义千问3-Max的性能背后,是训练方法论上的一场静悄悄的革命。随着自然网络数据日益“枯竭”,阿里巴巴转向了合成数据生成和复杂的训练技术,以达到36万亿令牌的里程碑——这比其前代多出约80%的训练数据。

“我们正在见证缩放定律的下一代。”CTOL.digital的分析指出。“从‘野蛮扩展’转向‘智能扩展’”——强调数据质量、合成生成,以及研究人员所称的“测试时计算”,即模型可以进行多次解决方案尝试并选择最佳结果。

这种方法取得了显著的成果。在AIME 25和HMMT数学基准测试中,通义千问3-Max的“思考”变体获得了100/100的满分——这是中国开发模型的首次突破,也是只有OpenAI和谷歌最先进系统才能匹敌的成就。

实际影响

这些理论成就转化为实际能力,可能重塑软件开发和自动化领域。CTOL.digital的内部测试显示,通义千问3-Max在生成一个复杂游戏(我们之前为客户构建的)方面表现出色,该游戏具有规范的语义HTML、ARIA可访问性标准和复杂的模态交互——这些技术要求是较弱的模型常常忽视或错误实现的地方。

在编码基准测试中,该模型在使用真实世界软件漏洞的SWE-Bench Verified测试中获得了69.6分,使其位列全球表现最佳的系统之列。在衡量工具调用和工作流自动化的Tau2-Bench上,通义千问3-Max取得了74.8分,超越了Claude 4 Opus和DeepSeek V3.1。

也许最重要的是,该模型展示了研究人员所称的“智能体能力”——即能够使用外部工具、执行代码并处理模仿真实软件开发实践的复杂多步工作流。

万亿美元的问题

通义千问3-Max的成功对AI产业的未来具有深远影响。尽管该模型证明缩放定律持续带来能力提升,但它也凸显了尖端AI开发领域日益增长的进入壁垒。

“万亿参数训练需要庞大的算力加上工程成熟度。”我们的内部分析指出。“大多数参与者应该在此类基础模型之上进行构建,而不是试图在基础层面上竞争。”

这种动态已经重塑了竞争格局。该模型采用了混合专家(Mixture of Experts)架构,在推理过程中只有部分参数被激活,使得万亿参数模型在保持性能优势的同时,也具备了经济可行性。

阿里巴巴报告称,与前几代相比,训练效率提高了30%,新的并行化技术使长上下文训练的吞吐量提升了三倍。该公司通过自动化监控和恢复系统,将硬件故障停机时间降至以前的五分之一。

全球影响

通义千问3-Max的成功不仅仅是一个技术里程碑——它标志着中国在全球AI竞赛中崛起成为真正的同行者。该模型在国际基准测试中的表现,加上其融合的先进推理能力,挑战了关于美国和欧洲技术主导地位的假设。

“这是中国模型的一个里程碑。”一项分析指出,这凸显了日益成为AI发展特征的民族主义色彩。该模型在擅长编程和科学推理的同时,处理多语言任务的能力,展示了超越区域市场的能力。

然而,关于更广泛的可访问性和开放性仍存在疑问。与许多西方同行不同,通义千问3-Max并非开源,而是通过阿里云的模型服务(Model Studio)提供,并支持兼容OpenAI的API。这种做法反映了AI开发中商业利益与科学合作之间更广泛的张力。

前进之路

随着AI产业努力应对通义千问3-Max的影响,一个结论似乎不可避免:关于缩放定律已死的报道被大大夸大了。该模型的成功表明,通往通用人工智能的道路依然开放,尽管成本日益高昂且技术要求越来越高。

“缩放定律是一条经验法则,而非自然法则。”我们的工程团队提醒道,“它可能会随着新架构或数据和能源的硬性限制而发生改变。”但就目前而言,证据表明更大的模型、更智能的训练和更复杂的推理技术将带来持续的收益。

竞争对手面临的问题不再是缩放是否有效,而是他们是否拥有有效缩放所需的资源和专业知识。在一个进入门槛不断提高的领域,通义千问3-Max可能既代表着一项突破,也代表着一个警告:在争夺AI霸权的竞赛中,入场券的价格已达到前所未有的高度。

正如一位分析师直言不讳地指出:“大依然能带来收益。”现在的挑战在于,谁能承担得起保持庞大规模的成本,以及谁将被迫在这场本世纪最重要的技术竞赛中旁观。

非投资建议

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯

我们网站使用Cookie来启用某些功能,为您提供更相关的信息并优化您在我们网站上的体验。更多信息请参阅我们的 隐私政策 和我们的 服务条款 。强制性信息可在 法律声明