谷歌Gemini 3：顶尖AI模型受实施缺陷拖累

谷歌Gemini 3：顶级AI模型，却因实施缺陷受拖累

内部工程评估揭示：性能卓越但工具调用失败和限制性安全过滤器拖累其表现

ctol.digital工程团队的一项内部评估显示，谷歌Gemini 3在基准测试中可能优于GPT-5.1，但同时指出其存在严重的可用性问题，限制了其实际部署。

这项在Gemini 3于2025年11月中旬发布后进行的评估得出结论，该模型代表着“向AGI（通用人工智能）更近一步”，并具备一级系统的资格。然而，同一份报告指出了根本性问题，使其在某些生产工作流程中“完全无法使用”。

Gemini 3在LMArena和ARC-AGI基准测试中取得了新的最先进成果，在数学、逻辑、多模态理解和编码任务上与GPT-5.1和Claude Sonnet 4.5持平或超越。该模型展现了评估人员所称的卓越“世界知识”，且幻觉率低于竞争对手。

该系统的多模态能力——尤其在视频、UI和屏幕理解方面——代表着重大进步。其100万令牌的上下文窗口在保持更高智能的同时，比Gemini 2.5 Pro提供了更好的令牌效率，尽管其每令牌定价高于GPT-5，但对于长上下文应用而言，它更具成本效益。

评估人员强调了其真正的空间推理能力，以及“类似人类直觉”的问题解决能力，与竞争模型相比，这需要更少的令牌。在Vending-Bench 2测试中，Gemini 3通过代理工作流成功模拟了一整年的业务运营。

评估报告记录了反复出现的工具调用失败，这些失败会产生UNEXPECTED TOOL CALL错误并违反API限制。该模型缺乏优雅的错误恢复和重新规划机制，使其“在API工具执行方面不可靠”——而这正是生产系统的基本要求。

安全过滤器已大幅收紧，使该模型比前代产品“严格得多”，并限制了使用场景。评估人员报告称，这些过滤器使某些合法的请求“完全无法使用”。

性能问题包括风格错误——措辞笨拙和不恰当的类比——这些错误比事实性幻觉更频繁地出现。该模型在计算精度方面不及GPT-5，经常丢失小数精度或产生不正确的数学结果。长文本关键数据提取的成功率仅为70%。

速度是另一个权衡。用户必须在快速响应（Gemini Flash）和深度推理（Gemini Pro）之间做出选择，而对于标准聊天交互，Pro版本被认为比Gemini 2.5 Pro更慢。