阿里巴巴推出六款全新人工智能系统，在关键性能测试中媲美谷歌顶尖模型

阿里巴巴强势推出AI产品，回击美国科技巨头

阿里巴巴刚刚发出了挑战。在一项令硅谷措手不及的声明中，这家中国科技巨头发布了六款人工智能系统。此次发布标志着中国企业在挑战美国在该领域主导地位方面，迄今为止最雄心勃勃的举措之一。

本次展示的核心是Qwen3-Max，这是一个拥有超过万亿参数的巨型模型。在以难度著称的SWE-Bench Verified编程测试中，它取得了69.6分，这是一个连西方领先系统也常常折戟的基准。初步比较表明，该模型与谷歌的Gemini 2.5 Pro相媲美，在某些情况下甚至超越了后者。

“这不仅仅是又一次模型发布，”一位熟悉此次发布情况的研究人员解释说，“通义千问（Qwen）正在成为开源标准。他们正以一种与谷歌非常相似的节奏前进，但有着自己的打法。”

亮点之一是Qwen3-VL，一个以惊人精度处理图像和视频的多模态视觉语言模型。它可以处理256,000个token，足以分析两小时的完整视频片段，同时保持近乎完美的准确性。即使在更长的上下文环境中，它也能稳定保持约99.5%的准确率。

其秘密在于其“DeepStack”架构。该模型并非以简单粗暴的方式将视觉信息与语言绑定，而是将视觉细节直接融入其系统内的多个层级，使其在推理时不会丢失细粒度细节。

在CTOL.digital的内部测试中，Qwen3-VL完成了一些令旧模型束手无策的任务。它能够正确识别色盲测试图，将混乱的表格解析为整洁的HTML代码，并直接从图像中解决数学问题。然而，当被要求重新创建完整的网页设计时，它仍然会遇到困难，经常生成缺乏吸引力、与其他领先模型相比达不到预期的布局。

也许最大胆的举措是Qwen3Guard，这是一个实时审核内容的新型安全系统。它不是等到文本完全生成才进行审核，而是在每个token生成时进行检查。这意味着当对话偏向有害或不安全的领域时，它能立即介入。

该系统支持119种语言，将内容分为三类：安全、有争议和不安全。它涵盖九个敏感领域，包括暴力、自残以及试图“越狱”人工智能防护栏。

这种方法与许多西方系统形成鲜明对比，后者依赖事后过滤器，可能缓慢或不完整。对于担心大规模部署人工智能的公司来说，实时检查可能成为颠覆性因素。

最大的问题是美国公司能否在这种新阶段保持其优势。如果阿里巴巴的通义千问3系列发布是一个信号，那么这场竞赛已经白热化，旧的权力平衡可能不会持续太久。