阿里巴巴推出通义千问3-Omni,中国对闭源多模态大语言模型的有力回应

作者
CTOL Editors - Lang Wang
9 分钟阅读

阿里巴巴发布通义千问3-Omni,中国对闭源多模态大模型的有力回应

中国杭州 — 阿里巴巴在全球人工智能竞赛中打响了重要一枪。该公司近日推出了通义千问3-Omni,这是一个能够同时处理文本、图像、音频和视频的多模态人工智能系统——它是中国首个真正意义上可与OpenAI的GPT-4o和谷歌的Gemini 2.5 Flash抗衡的开源竞争对手。

与许多华而不实但受限的人工智能发布不同,通义千问3-Omni是向公众开放的。仅此一举,便震撼了整个行业,因为西方公司一直以来都倾向于将其技术深锁在闭源壁垒之后。

Qwen3-Omni
Qwen3-Omni

实时人工智能的巨大飞跃

通义千问3-Omni不仅仅是又一个花哨的聊天机器人。它的核心是一个巧妙的“思考者-发言者”(Thinker-Talker)设计。其中,“思考者”负责处理和分析输入,而“发言者”则能立即以自然语音回复。阿里巴巴并没有将不同的模型拼凑在一起,而是构建了一个端到端的系统,该系统可以跨多种格式进行对话,而不会出现大多数AI系统所面临的尴尬停顿。

测试结果令人瞩目。在阿里巴巴自己的测试中,通义千问3-Omni在36个音视频基准测试中,有32个表现突出。它仅需234毫秒即可对语音输入做出响应——快到足以让人感觉像真实对话——并且能够转录半小时的连续语音而不会遗漏。这种速度和续航能力使其能够与西方巨头一较高下。

该模型支持119种书面语言,识别19种口语,并以10种语言进行语音回复。在幕后,它采用专家混合方法(mixture-of-experts approach),每次仅激活其300亿参数中的约30亿。这种效率意味着它能够发挥远超其自身体量的能力。

为开发者而非仅为展示而生的工具

阿里巴巴没有仅仅推出一个强大的系统,却让开发者自行解决棘手问题,而是将通义千问3-Omni与实用工具捆绑在一起。例如,即用型notebooks、完整的集成指南以及对vLLM部署的支持。对于程序员来说,这意味着可以省去数周的烦恼,直接投入开发。

除了基础模型,阿里巴巴还发布了三个定制版本:

  • 通义千问3-Omni-Instruct,一个可以文本和语音对话的多模态助手。
  • 通义千问3-Omni-Thinking,专为复杂的推理任务设计。
  • 通义千问3-Omni-Captioner,用于深入分析音频内容。

这提供了多种选择,而非“一刀切”的解决方案——这正是开发者一直以来所期待的。

我们的内部测试结果

我们CTOL.digital的工程团队对通义千问3-Omni印象深刻,尤其是其务实的倾向。大家的赞誉集中于一点:阿里巴巴不仅是将模型权重扔到网上,更是为开发者提供了真正的开发指南、示例和可运行的代码,供他们集成到自己的项目中。对于许多人来说,这大幅降低了开发多模态应用的门槛。通义千问3-Omni凭借更好的世界知识,其事实准确性也令人惊喜,这是许多开源竞争对手所不具备的。

然而,Omni并非完美无缺。与阿里巴巴更“重”的通义千问3-Max相比,Omni牺牲了原始深度以换取速度和可用性。它在光学字符识别(OCR)等识别任务中表现出色,但在数学问题上表现不佳,有时会编造答案。在细粒度视觉方面,Max在读取微小文本或整合跨图像区域的上下文方面表现更优。但Max也有其自身特点——过多的表情符号、过度修饰的Markdown格式以及测试人员认为的机械式语气。尽管Omni有其局限性,但感觉更自然。

更广泛的研究推动

此次发布并非孤立事件。阿里巴巴与复旦大学共同,最近推出了“世界偏好建模”(World Preference Modeling)——一个用于在大规模、真实世界人类偏好数据上训练AI的框架。WorldPM并非仅仅依赖小型、人工标注的数据集,而是利用了Reddit、Quora和StackExchange等论坛的数据。

他们的发现很重要:对于编码或数学等事实性和客观性任务,更大的模型在规模扩展时表现出明显的“涌现”增益。而对于主观风格——例如,语气或写作风格——益处则不那么明确,因为人类偏好相互冲突,且噪音会悄然混入。这是向着使AI与真实人类价值观的复杂多样性保持一致迈出的重要一步。

对西方闭源主导地位的挑战

此次发布时机并非偶然。随着中西方紧张关系日益加剧,中国科技公司希望减少对外国AI的依赖。阿里巴巴决定开源通义千问3-Omni与OpenAI和谷歌日益闭源的做法形成鲜明对比。

基准测试结果表明阿里巴巴并非虚张声势。该模型甚至在事实准确性方面超越了竞争对手,捕捉到了其他模型遗漏的细微历史典故。即便如此,它在高级数学和细粒度视觉分析等领域仍有不足。有趣的是,阿里巴巴自家的通义千问3-Max在这些任务上表现更好。但在实时对话或从图像中读取文本等日常应用中,通义千问3-Omni表现出色。

放眼全球

阿里巴巴显然将目光投向了全球受众。该公司推出了英文资料,并展示了面向国际用户的演示。一个引人注目的例子是:通过可穿戴设备进行实时翻译,这暗示着与西方消费级AI产品的直接竞争。

在国内,通义千问3-Omni发布之际,阿里巴巴的夸克聊天机器人登上了中国应用排行榜,其夸克AI眼镜也已上市。这与其说是一次孤立的发布,不如说是阿里巴巴进军AI驱动消费科技领域协同推进的重中之重。

这对行业意味着什么

通过开源通义千问3-Omni,阿里巴巴降低了任何想要构建先进多模态AI的开发者的门槛。过去需要巨大资源才能竞争的开发者,现在拥有了一个坚实的基础模型。这可能激发新一轮创新浪潮,迫使大型企业重新思考他们如何严密保护自己的技术。

一位行业分析师指出:“阿里巴巴基本上提供了一个用于构建强大多模态应用的完整工具包。这改变了各地开发者的游戏规则。”

您已经可以通过通义千问(Qwen Chat)、Hugging Face演示以及阿里巴巴自己的API平台来测试通义千问3-Omni。随附的文档使集成过程比通常的反复试验要顺畅得多。

通过此番大胆举动,中国已坚定地迈入了AI开发的最高层级。而通过保持通义千问3-Omni开源,阿里巴巴确保了在西方日益闭源的生态系统之外,提供了一个真正的替代方案。

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯

我们网站使用Cookie来启用某些功能,为您提供更相关的信息并优化您在我们网站上的体验。更多信息请参阅我们的 隐私政策 和我们的 服务条款 。强制性信息可在 法律声明