谷歌的 Gemini 2.5 Pro 06-05 在六月更新中表现退步,秘密的 Kingfall 模型意外泄露

作者
CTOL Editors - Ken
2 分钟阅读

谷歌AI遭遇挫折:Gemini 2.5 Pro 06-05引爆反弹,神秘“Kingfall”模型浮出水面

谷歌人工智能部门正面临困境,其最新发布的Gemini 2.5 Pro 06-05因性能远逊于前代模型而引发了开发者的普遍批评,与此同时,一个代号为“Kingfall”的神秘泄露模型浮出水面,有可能成为改变游戏规则的力量,重塑谷歌的AI战略。

Gemini 2.5 Pro Preview 06-05于2025年6月5日发布,招致了开发者社区的尖锐批评。综合基准测试数据显示,与它所取代的5月6日模型相比,其在多个关键指标上出现了显著的性能退步。根据LiveBench.ai的评估,新模型的全球平均得分从71.99下降到69.39,这标志着其整体能力令人担忧的下降。

你知道吗?根据谷歌的公关发布,谷歌的Gemini 2.5 Pro Preview(2025年6月5日发布)在顶级行业基准测试中表现出最先进的性能,在LMArena(1470 Elo)和Aider Polyglot(86.2%)上取得了突出成果。它被誉为谷歌迄今为止最智能的模型,为开发者提供了“思考预算”等创新功能。然而,尽管有这些令人印象深刻的指标,许多用户(包括我们)发现该模型在实际使用中表现不佳——存在编码可靠性、上下文保留和响应质量等问题。这凸显了人工智能领域一个反复出现的矛盾:领先的基准测试分数并不总是能转化为令人满意的用户体验。此外,这也让我们深入了解了哪些基准测试已失去效力。

Gemini 2.5 Pro 06-05 (ytimg.com)
Gemini 2.5 Pro 06-05 (ytimg.com)

当升级变成降级:数据揭示严峻现实

性能下降波及到企业用户和开发者最关心的几个关键领域。最引人注目的是,代理式编码能力从30.00骤降至仅13.33——这是一个灾难性的56%下降,导致许多自动化编码工作流程中断。数学能力也从88.63下降到83.33,而作为实际AI部署基石的指令遵循能力则从8

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯

我们网站使用Cookie来启用某些功能,为您提供更相关的信息并优化您在我们网站上的体验。更多信息请参阅我们的 隐私政策 和我们的 服务条款 。强制性信息可在 法律声明