谷歌Gemini 3:顶尖AI模型受实施缺陷拖累

作者
CTOL Editors - Yasmine
5 分钟阅读

谷歌Gemini 3:顶级AI模型,却因实施缺陷受拖累

内部工程评估揭示:性能卓越但工具调用失败和限制性安全过滤器拖累其表现

ctol.digital工程团队的一项内部评估显示,谷歌Gemini 3在基准测试中可能优于GPT-5.1,但同时指出其存在严重的可用性问题,限制了其实际部署。

这项在Gemini 3于2025年11月中旬发布后进行的评估得出结论,该模型代表着“向AGI(通用人工智能)更近一步”,并具备一级系统的资格。然而,同一份报告指出了根本性问题,使其在某些生产工作流程中“完全无法使用”。

基准测试优势

Gemini 3在LMArena和ARC-AGI基准测试中取得了新的最先进成果,在数学、逻辑、多模态理解和编码任务上与GPT-5.1和Claude Sonnet 4.5持平或超越。该模型展现了评估人员所称的卓越“世界知识”,且幻觉率低于竞争对手。

该系统的多模态能力——尤其在视频、UI和屏幕理解方面——代表着重大进步。其100万令牌的上下文窗口在保持更高智能的同时,比Gemini 2.5 Pro提供了更好的令牌效率,尽管其每令牌定价高于GPT-5,但对于长上下文应用而言,它更具成本效益。

评估人员强调了其真正的空间推理能力,以及“类似人类直觉”的问题解决能力,与竞争模型相比,这需要更少的令牌。在Vending-Bench 2测试中,Gemini 3通过代理工作流成功模拟了一整年的业务运营。

关键实施缺陷

评估报告记录了反复出现的工具调用失败,这些失败会产生UNEXPECTED TOOL CALL错误并违反API限制。该模型缺乏优雅的错误恢复和重新规划机制,使其“在API工具执行方面不可靠”——而这正是生产系统的基本要求。

安全过滤器已大幅收紧,使该模型比前代产品“严格得多”,并限制了使用场景。评估人员报告称,这些过滤器使某些合法的请求“完全无法使用”。

性能问题包括风格错误——措辞笨拙和不恰当的类比——这些错误比事实性幻觉更频繁地出现。该模型在计算精度方面不及GPT-5,经常丢失小数精度或产生不正确的数学结果。长文本关键数据提取的成功率仅为70%。

速度是另一个权衡。用户必须在快速响应(Gemini Flash)和深度推理(Gemini Pro)之间做出选择,而对于标准聊天交互,Pro版本被认为比Gemini 2.5 Pro更慢。

生态系统弱点

评估批评谷歌的开发工具——包括Gemini应用程序、AI Studio和命令行界面(CLI)——不如OpenAI和Anthropic的产品。缺失的功能包括项目级管理和桌面客户端。

评估人员指出一个“实际集成”瓶颈:AI应用的限制在于基础设施和生态系统成熟度,而非原始模型能力。过度依赖谷歌的基础设施引发了对供应商锁定的担忧。

开发者指南与访问

谷歌建议Gemini 3保持默认温度1.0,并警告称较低的值会降低复杂推理任务的性能——这与标准做法不同。该公司建议在大型数据块之后放置问题,并附带明确的引用。

该模型可通过多种途径获取:消费者可通过Gemini应用,开发者可通过Gemini API和AI Studio,企业可通过Vertex AI。“深度思考”(Deep Think)增强推理模式仍需通过安全审查和Google AI Ultra订阅才能使用。

市场影响

ctol.digital团队的最终评估——“谷歌在Gemini 3的发布上取得了相当大的成功”——但伴随着一些警告,即在该模型真正能力稳定展现之前,需要一个“稳定期”。

这项评估强调了AI发展中日益扩大的鸿沟:基准测试性能与实际效用日益脱节。尽管Gemini 3在标准化测试中取得了技术优势,但其生产准备度仍因影响日常开发工作流程的实施问题而受到损害。

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯

我们网站使用Cookie来启用某些功能,为您提供更相关的信息并优化您在我们网站上的体验。更多信息请参阅我们的 隐私政策 和我们的 服务条款 。强制性信息可在 法律声明