阿里巴巴携Qwen3-Max-Preview加入万亿参数竞赛,挑战AI巨头
阿里巴巴已正式发布Qwen3-Max-Preview(通义千问3-Max-Preview),这款大规模语言模型参数量超过万亿,标志着这家中国科技巨头正式加入了万亿参数模型俱乐部。阿里巴巴声称其性能超越了包括Claude Opus 4和DeepSeek-V3.1在内的主要竞争对手。这一发布标志着中国在大规模人工智能开发领域的积极推进,尽管早期测试显示其既有令人印象深刻的能力,也存在明显的局限性。
AI领域的新重量级选手
Qwen3-Max-Preview(通义千问3-Max-Preview)标志着阿里巴巴从其先前的旗舰模型Qwen3-235B迈出了重要一步,其参数量超过万亿。与同级别其他顶尖模型一样,Qwen3-Max采用了专家混合(Mixture of Experts, MoE)架构——这种设计存储了巨大的总参数量,但在每次推理时仅激活其中一部分,从而有效控制了成本和延迟。
该模型可通过通义千问App和阿里云API获取,它提供256,000个token的上下文窗口,最大输出约为32,800个token。尽管这已相当可观,但仍低于DeepSeek V3.1和Gemini 2.5 Pro等竞争对手,这两者均支持一百万个输入token。
性能宣称与现实检验
我们的内部测试表明,Qwen3-Max-Preview在多个领域均实现了显著提升。该模型在通用知识、数学、编码基准测试和指令遵循任务方面表现出尤其强大的能力。模型已在很大程度上弥补了早期版本的知识空白,并能生成更丰富、更复杂的文本。
然而,尽管该模型在广度上表现出色,并在UI-to-code(用户界面到代码)转换等复杂任务中展现出令人印象深刻的一次性编码能力,但它在持续推理方面却力不从心。我们注意到它有“发散、漫无目的的问题解决”倾向,模型会尝试多种方法,但中途又放弃。
万亿参数之问:规模真的重要吗?
Qwen3-Max-Preview与Kimi K2等其他万亿参数模型的出现,引发了关于模型规模与性能之间关系的基本问题。万亿参数的里程碑听起来令人印象深刻,但实际情况更为复杂。
在MoE(专家混合)架构中,所谓的“万亿参数”代表的是总容量,而非每次查询时实际激活的计算量。举例来说,谷歌的GLaM模型包含1.2万亿个总参数,但每个token仅激活约970亿个,大约是其总容量的8%。这种设计让公司能够宣称大规模,同时保持推理成本的合理性。
更大模型的好处是真实存在的,但也伴随着重要的注意事项。更大的模型通常提供更广泛的知识覆盖、更好的少样本推理能力和更可靠的工具使用。它们对于复杂、多步骤的任务以及需要深厚跨领域知识的场景尤其有价值。
然而,仅仅依靠规模并不能保证卓越的性能。数据质量、训练方法和训练后的对齐优化往往比原始参数数量更重要。Qwen3-Max-Preview完美地印证了这一点——尽管其规模庞大,但用户反映其指令遵循能力对于一个万亿参数模型来说显得“不够成熟”,有时甚至在被错误信息探测时会不恰当地使用表情符号。
定价与实际考量
阿里巴巴Qwen3-Max-Preview的定价结构反映了该模型的高端定位。对于较短上下文的输入,每百万token的成本约为6元人民币;对于最长支持的输入,成本为15元人民币,而输出token的定价则显著更高。这使得该模型与DeepSeek V3.1和GLM-4.5等国内竞争对手相比处于溢价地位,导致一些用户对其成本效益提出质疑。
早期用户报告在实际应用中的体验褒贬不一。尽管有人赞扬该模型在处理复杂编码任务和抽象模拟方面能提供“一次性、高保真结果”,但也有人发现它在法律和金融查询等专业知识领域虽然冗长,却不够精确。
更广泛的AI军备竞赛
Qwen3-Max-Preview的发布标志着中国决心在人工智能开发的最高水平上展开竞争。中国的大语言模型(LLM)格局已迅速演变,多家公司现在声称具备万亿参数能力。这场规模竞赛反映了中西方AI开发者之间更广泛的地缘政治紧张和技术竞争。
然而,行业专家警告不要只关注参数数量。最成功的部署通常结合多种方法:使用大型模型进行复杂推理,同时依靠更小、更专业的模型处理常规任务。许多组织正在通过“回退”架构取得成功,即昂贵的万亿参数模型仅处理较小模型无法解决的最具挑战性的问题。
展望未来
随着万亿参数俱乐部不断壮大,关键问题并非更大的模型是否更好,而是它们的能力何时能与成本相匹配。Qwen3-Max-Preview代表了一项令人印象深刻的技术成就,但其商业成功将取决于是否能比更便宜的替代方案提供更明确的价值。
对于考虑万亿参数模型的组织来说,决策应侧重于具体的应用场景,而不是表面的参数规格。需要广泛多语言知识、复杂工具编排或强大的零样本推理能力的任务,可能值得支付溢价。而常规应用——如编码、文档处理或特定领域查询——通常使用更小、更具成本效益的替代方案也能表现得同样出色。
人工智能行业的规模化雄心没有减弱的迹象,有传言称主要参与者正在开发更大的模型。但正如Qwen3-Max-Preview所展示的,真正的挑战并非构建更大的模型——而是如何让它们可靠、具有成本效益,并能真正应用于实际世界。