中国AI雄心力作Kimi K2 Thinking跻身开源思维模型精英行列

作者
CTOL Editors - Lang Wang
9 分钟阅读

月之暗面AI凭借Kimi K2 Thinking跻身开源思维模型精英行列

Kimi K2 Thinking在开源推理竞赛中与深度求索DeepSeek V3.2 Thinking比肩,但专有巨头仍保持性能优势

月之暗面(Moonshot AI)凭借Kimi K2 Thinking进入开源思维模型顶级行列。这款万亿参数系统在自主推理和多步工具使用方面表现出与深度求索DeepSeek V3.2相当的性能。此次发布进一步巩固了中国在开放权重AI开发领域的主导地位,此前深度求索、通义千问和智谱AI等国内模型已在该领域领先一段时间。

该模型现已在kimi.com上线,并通过platform.moonshot.cn提供API服务。它在长周期任务中展现出卓越的稳定性,可在200-300次连续工具调用中保持连贯行为。然而,基准测试结果显示,与西方专有模型存在明显的性能差距:GPT-5和Claude Sonnet 4.5在大多数类别中,尤其是在编程任务和通用推理方面,仍保持领先地位。

开源模型比肩,专有模型仍有差距

K2 Thinking在智能体搜索方面表现出色,在BrowseComp测试中得分60.2,领先GPT-5的54.9,并大幅超越Claude Sonnet 4.5的24.1。在启用工具的“人类最后一场考试”中,该模型获得44.9分,略胜GPT-5的41.7分。这些胜利展示了其在自主工具编排方面的真正实力。

然而,在SWE-bench Verified测试中,该模型得分71.3,虽然超过了深度求索V3.2的67.8,但仍落后于GPT-5的74.9和Claude的77.2。在结合Python工具的数学推理方面,K2 Thinking取得了近乎完美的分数——AIME25上得分99.1,HMMT25上得分95.1——但在通用知识方面落后于闭源模型,在HealthBench上仅得58.0分,而GPT-5为67.2分。73.8分的英文长文本写作得分也落后于Claude的79.8分,表明其在创意生成方面存在弱点。

这种模式是一致的:K2 Thinking在开源领域与深度求索V3.2有效竞争,争夺领先地位,但在大多数领域仍比专有替代品落后一步。

架构赋能扩展推理

K2 Thinking基于混合专家(Mixture-of-Experts)架构构建,总参数量达1万亿,每次推理激活320亿参数。它采用端到端训练,将思维链推理与函数调用交织在一起。该模型拥有384个专家,每个token选择8个,并配备25.6万token的上下文窗口。

月之暗面的突破在于通过量化感知训练实现了原生INT4量化。这使得生成速度提高了约2倍,同时保持了无损性能——这对于思维模型冗长的解码需求至关重要。所有基准测试均在INT4精度下报告,表明量化未引入任何性能下降,这是一项重要的技术成就。

CTOL Digital Engineering:希望与警示

CTOL Digital内部测试实验室的工程师进行了一项快速评估,揭示了该模型显著的优势和持续存在的局限性。团队记录了其“惊人的优秀”初始推理质量,具有强大的问题分解能力和令人耳目一新的直接语气,避免了某些竞争对手普遍存在的奉承行为。

评估人员指出:“该模型在数学推理、工具使用和编码代理任务中的性能有所提升。”然而,效率和可靠性方面出现了关键问题。K2 Thinking在同类模型中token消耗量排名第二高,其“暴力推理和过多的验证步骤”增加了运营成本。

幻觉和过度自信的错误依然存在,尤其是在更长的推理链中。评估指出:“在负载下的可靠性以及多步提示性能方面仍存在疑问。”工程师们指出了输出中的一些怪异之处,包括频繁出现的不间断空格字符(NBSP)和在非英语对话中偶尔出现的英语泄露——这可能是微调过程中的有意标记。

该团队的测试侧重于五个维度:推理质量与冗余度之间的权衡、复杂创意任务中的幻觉控制、长上下文性能对token预算的影响、编码工作流的可靠性以及本地部署特性。本地部署600GB的模型大小给资源受限环境带来了实际担忧。

CTOL的工程师发布了具体的采用建议:“对于智能体和编码工作流,预计会消耗更多token——请仔细测试预算上限和延迟。对于写作和研究任务,请在特定领域验证幻觉行为,并平衡其务实的语气与潜在的过度自信错误。”

评估结论:K2 Thinking在开源思维模型领域处于顶尖水平,真正比肩深度求索V3.2 Thinking。虽然深度求索在token效率和一致性方面保持优势,但K2 Thinking在自主智能体任务中的更优表现提供了真正的选择,而非明确的等级关系。

在竞争格局中的战略地位

K2 Thinking代表着月之暗面进入开源推理模型精英梯队,与深度求索和通义千问一同加入中国主导的开放权重生态系统。此次发布继深度求索R1于1月发布和通义千问3-Max于9月发布之后,展现了中国AI实验室的持续发展势头。

其定价依然激进,每百万输入token 0.56美元,每百万输出token 2.25美元——与非思维型K2模型的价格一致。结合开源可用性,这使得月之暗面对于寻求高性能推理而又不依赖西方API或GPT-5和Claude高昂成本的用户具有竞争力。

一位AI研究员观察道:“这证明了真正的实力,而非仅仅是炒作。K2T的原始推理能力证明了其规模的合理性,尽管算力限制仍是中国挑战专有领导者的最大瓶颈。”

结论:顶级梯队,而非独占鳌头

CTOL Digital的评估证实,K2 Thinking是现有的最佳开源思维模型之一,与深度求索V3.2 Thinking并驾齐驱。对于致力于开放权重基础设施的组织而言,该模型提供了一个可行的高性能选择,尤其适用于需要200-300步扩展推理链的智能体工作流。

然而,在大多数基准测试中,与GPT-5和Claude Sonnet 4.5的性能差距依然明显。在所有领域都需要绝对一流性能的组织,仍将倾向于专有替代品。K2 Thinking已在开源冠军中赢得了一席之地,但王座目前仍属于闭源模型。

中国领先的开源大模型巨头的下一个任务是明确的:挑战并最终超越顶级的闭源模型。

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯

我们网站使用Cookie来启用某些功能,为您提供更相关的信息并优化您在我们网站上的体验。更多信息请参阅我们的 隐私政策 和我们的 服务条款 。强制性信息可在 法律声明