谷歌AI遭遇挫折:Gemini 2.5 Pro 06-05引爆反弹,神秘“Kingfall”模型浮出水面
谷歌人工智能部门正面临困境,其最新发布的Gemini 2.5 Pro 06-05因性能远逊于前代模型而引发了开发者的普遍批评,与此同时,一个代号为“Kingfall”的神秘泄露模型浮出水面,有可能成为改变游戏规则的力量,重塑谷歌的AI战略。
Gemini 2.5 Pro Preview 06-05于2025年6月5日发布,招致了开发者社区的尖锐批评。综合基准测试数据显示,与它所取代的5月6日模型相比,其在多个关键指标上出现了显著的性能退步。根据LiveBench.ai的评估,新模型的全球平均得分从71.99下降到69.39,这标志着其整体能力令人担忧的下降。
你知道吗?根据谷歌的公关发布,谷歌的Gemini 2.5 Pro Preview(2025年6月5日发布)在顶级行业基准测试中表现出最先进的性能,在LMArena(1470 Elo)和Aider Polyglot(86.2%)上取得了突出成果。它被誉为谷歌迄今为止最智能的模型,为开发者提供了“思考预算”等创新功能。然而,尽管有这些令人印象深刻的指标,许多用户(包括我们)发现该模型在实际使用中表现不佳——存在编码可靠性、上下文保留和响应质量等问题。这凸显了人工智能领域一个反复出现的矛盾:领先的基准测试分数并不总是能转化为令人满意的用户体验。此外,这也让我们深入了解了哪些基准测试已失去效力。
当升级变成降级:数据揭示严峻现实
性能下降波及到企业用户和开发者最关心的几个关键领域。最引人注目的是,代理式编码能力从30.00骤降至仅13.33——这是一个灾难性的56%下降,导致许多自动化编码工作流程中断。数学能力也从88.63下降到83.33,而作为实际AI部署基石的指令遵循能力则从8