“变慢了,只是‘好像’更聪明?”:Gemini 2.5 Pro 因精度和性能下降遭遇高级用户强烈反对
曾是开发者和数据科学家的宠儿,谷歌最新旗舰 AI 在技术社区引发不满
在高风险的AI开发领域,毫秒必争,精确度不可或缺。谷歌备受期待的旗舰模型升级版 Gemini 2.5 Pro 于5月6日发布,却在最挑剔的用户群体——专业程序员、数据分析师和技术研究人员中,引发了强烈反响,像是重重摔在了地上。
发布仅仅24小时后,各大论坛和开发者频道就充斥着不满的声音。从“严重的延迟”到“指令遗忘”,早期使用者纷纷发出警告,他们认为这是一款“显著的退步”之作,而表面上的客气和处理动画只是掩盖了这一事实。
Gemini 2.5 Pro 05-06 情况说明书
特性 | 详情 |
---|---|
模型名称 | Gemini 2.5 Pro Preview 05-06 |
模型 ID | gemini-2.5-pro-preview-05-06 |
定价(每百万 Tokens) | |
输入 (≤200K Tokens) | 1.25 美元 |
输入 (>200K Tokens) | 2.50 美元 |
输出 (≤200K Tokens) | 10.00 美元 |
输出 (>200K Tokens) | 15.00 美元 |
最适合用于 | 编码、推理、多模态理解 |
用例 | - 解决复杂问题 - 处理困难的编码、数学和 STEM 问题 - 分析大型数据集/代码库/文档 |
知识截止日期 | 2025年1月 |
速率限制 | - 150 RPM (付费用户) - 5 RPM / 每天 25 个请求 (免费用户) |
“想得更多,说得更少”:令人沮丧的交互模式转变
用户反馈中最一致、也最令人不快的变化之一,是延迟显著增加。多位专业人士表示,Gemini 2.5 Pro 现在会大幅延长“思考”时间,通常是之前版本的 2-4 倍。更糟的是,这种延迟还伴随着一种新模式:模型会间歇性地显示诸如 “思考了13秒” 之类的消息,似乎是在为自己的慢速辩解。
然而,漫长的等待之后,输出的内容反而“不够深刻”,这非常矛盾。
一位要求匿名的金融建模公司技术负责人表示:“感觉它在‘缓冲自信’。你等得更久,得到的东西却更浅显。分析深度出现了令人不安的下降,尤其是在处理多层复杂问题时。”
对于依赖AI进行嵌套逻辑流、统计建模或精确代码审查等工作的高级用户来说,这种转变尤其令人担忧——在这些领域,速度和严谨性密不可分。
指令理解能力下降:遵循指令成了问题
另一个饱受批评的焦点是 Gemini 2.5 Pro 在多轮对话中遵循指令的能力显著下降——这是专业工作流程的核心能力。
多位用户注意到,模型在对话进行中会“忘记指令”,甚至无法将简单的参数从一个回复带到下一个回复。还有用户观察到,它会“搞砸基本指令”,甚至完全忽略它们。
一位企业级AI工程师回忆道:“有一次,我给了它五条指令,它只响应了两条,剩下的三条完全丢了。以前,它能无缝地整合这些要求。现在就像在和一个第一天上班的实习生打交道。”
对开发者来说,沮丧情绪进一步升级。据称,Gemini 会遗漏代码文件的关键部分,尤其是在长篇输出时。这导致了构建失败和流水线中断——这些结果在生产环境中不仅仅是不便,更可能代价高昂。
“现在它把代码搞得一团糟”:退步原因分析
最严重的问题可能在于代码质量——从数据上看,Gemini 2.5 Pro 在这方面表现不如 OpenAI 的同类模型。
根据 LiveBench 指标,Gemini 在编码方面的得分是 72.87,而 OpenAI 的 o3 中高版本则表现明显更好。虽然其数学得分和推理能力仍具竞争力,但这些优势不足以弥补其在技术领域的不稳定执行。
一位开发者描述了模型如何“破坏”现有代码,进行大范围的破坏性修改,而不是像要求的那样进行精确、外科手术般的调整。另一位用户指出,Gemini 在一个嵌套 if-else 测试的八项基本检查中只通过了三项,遗漏了之前版本能胜任的明显逻辑路径。
这不是轻微的退步——正如一位评论者所说,在他看来,“这至少比之前的版本差了 50%”。
“过于客气,危险地含糊不清”:形式大于实质的问题?
许多人指出了 Gemini 2.5 Pro 输出语气上的一个明显变化。据多位评论者称,它现在“更客气、更啰嗦、也更含糊”。批评的重点不是语气本身——而是这种语气掩盖了什么。
一位来自柏林的软件架构师说:“之前的版本简短但有见地。这个版本感觉像是被公关部门润色过。你要求进行风险分析,结果得到一篇外交辞令式的文章。它含糊、谨慎——当你需要明确结论时,基本上不可用。”
在一个看重直接和清晰诊断的行业,Gemini 软化的输出风格感觉像是一个不受欢迎的编辑选择——以牺牲实用性为代价。
硬件负担和上传错误:技术限制显现
除了软件性能问题,用户还报告了硬件效率低下,Gemini 的本地 GPU 使用率停滞在 30% 左右,远低于预期利用率。这个瓶颈加剧了本已缓慢的响应时间,尤其是在进行复杂计算或处理多个文件任务时。
几位用户还报告了长时间使用后出现上传失败——这个问题可能指向新版本中的内存泄漏或会话处理不稳定。
数字不说谎,但也不代表全部情况
从数据上看,Gemini 2.5 Pro 并非彻底失败。其 LiveBench 全球平均得分 78.99 分,使其成为一个强大的通用模型,仅次于 OpenAI 的 o3 系列。
其数学和推理优势使其适用于定量领域,并且从统计上看,在遵循指令方面表现尚可。
但在实际的、高精确度的工件流中——尤其是在软件工程和数据分析领域,那里容不得丝毫含糊——这些数字就没那么令人放心了。
一位数据工程师评论道:“这个模型感觉是为那些只进行浅层任务的用户调整的。对于像我这样的人来说,这不仅仅是令人沮丧——这很危险。”
怀念与需求的碰撞:用户会要求回滚吗?
最能说明用户幻想破灭的迹象,是对之前 Gemini 版本的突然怀念,许多人呼吁提供回滚选项。
一家云基础设施公司的开发者说:“这是我第一次有同事说‘我们能用回之前的版本吗?’ 这应该让谷歌感到担忧。”
的确,如果 Gemini 2.5 Pro 继续沿着这条轨迹发展,谷歌可能面临一个艰难的决定:优先考虑专业用户的性能需求,还是专注于提升面向普通用户的易用性。
下一步怎么办?Gemini 面临十字路口
Gemini 2.5 Pro 五月发布版本引发的不满不仅仅是一个技术失误——它凸显了AI开发中一个更深层次的矛盾:如何平衡更广泛的用户安全和语气优化,与需要清晰、一致和可控性的高级用户的需求。
随着竞争对手快速迭代,用户期望提高,谷歌可能别无选择,只能重新校准模型的基础——否则将面临失去市场份额的风险,被更灵活、更强大的挑战者超越。
目前,那些处于代码和计算前沿的用户正密切关注,等待一个修复版本——一个不只是思考时间更长,而是能**“思考得更好”**的版本。