谷歌推出可像人类一样浏览网页的 AI——但真正的工作才刚刚开始
Gemini 2.5 计算机使用模型旨在接管数字杂务,但早期用户应做好应对“小插曲”的准备。
谷歌 DeepMind 已经推出了 Gemini 2.5 计算机使用模型,这是一个能像人类一样点击、打字和滚动浏览网站及应用程序的人工智能系统。该模型目前已通过 Gemini API 提供预览,标志着 AI 迈向实用助手的一大步,能够处理我们许多人感到头疼的重复性数字任务。
它的工作原理如下:AI 查看屏幕截图,理解用户意图,检查其之前的操作,然后决定下一步做什么——点击按钮、填写表格或向下滚动。每次操作之后,它会获得另一张屏幕截图,这个循环持续进行,直到任务完成或模型卡住。
谷歌表示,Gemini 2.5 的准确率超过 70%,平均任务耗时约为 225 秒。在 Online-Mind2Web、WebVoyager 和 AndroidWorld 等标准基准测试中,它超越了竞争对手。在谷歌内部,团队已经将其用于用户界面测试、Project Mariner 项目以及搜索(Search)的 AI 模式中的新功能。
一些早期测试者对此印象深刻。谷歌试点项目中的 AI 助手服务 Poke.com 表示:“Gemini 2.5 计算机使用模型遥遥领先于我们尝试过的任何其他产品——比竞争工具快 50%,准确率也更高。”
然而,并非所有人都准备好庆祝。我们 CTOL.digital 的工程师发现该系统“在浏览器自动化和测试方面前景广阔”,但同时“尚处于早期阶段、以网页为中心,并且在任务复杂时表现不稳定”。他们的结论是:它现在很有用,但在真正实现变革性之前,需要在速度和可靠性方面进行重大改进。
设计即安全——还是仅仅表面功夫?
谷歌模型与众不同的一点在于其处理安全的方式。每次操作在执行前都会经过安全服务审查,这有助于防范三大主要风险:用户滥用、模型自身意外行为,或网站中隐藏的恶意提示。
开发者甚至可以在购买、绕过验证码(CAPTCHA)或控制敏感系统等风险步骤之前,要求用户确认。与那些事后附加过滤功能的竞争对手不同,谷歌将这些安全措施融入了模型本身。
这可能会成为一个巨大的优势。我们的分析师指出:“逐个操作的审查和系统级策略是正确的默认设置。这虽然不能完全阻止所有提示注入,但它能极大地简化企业采纳,尤其是在受监管行业。”
如果谷歌将这个审查器转变为一个独立的、可定制的服务——允许公司接入自己的规则和审批流程——这可能会为这家科技巨头带来真正的市场优势。
它的能力范围——以及力所不能及之处
目前,Gemini 2.5 在网页浏览器中表现出色。它在移动应用程序方面也显示出潜力,但桌面级操作系统控制仍遥不可及。这可能是有意为之。
我们的团队观察到:“大多数有价值的自动化都存在于网页登录之后——例如表格、管理控制台和 SaaS 工具。对于大多数企业工作流而言,更快、更紧密的网络循环优于笨重的操作系统控制。”
其“甜蜜点”似乎是基于浏览器的自动化、UI 测试、结构化网站导航和数据录入。事实上,谷歌的支付团队表示,使用 Gemini 2.5 作为脆弱的端到端测试的备份,将手动恢复时间缩短了数天。
但其局限性也很明显。任务仍需数分钟而非数秒才能完成,这排除了大批量客户支持。在开放式问题或谜题式挑战上,性能会下降。在日常使用中,预览版的表现也足够不稳定,以至于开发者需要反复尝试并进行人工监督。
业务影响与更广阔的图景
我们的分析表明,真正的赢家不会是那些“AI 驱动浏览器”的初创公司。这些公司看起来更像是提供特定功能,而非成熟的企业。更大的机会在于构建垂直解决方案——为受监管行业提供专用副驾驶(助手)、弹性测试基础设施、安全工具和性能监控平台。
我们的团队解释说:“有韧性的公司将结合原生 API、以 UI 驱动作为备用方案、结构化工作流、内置安全检查以及人工友好的审查工具。护城河不仅仅在于代理本身——还在于流程知识、集成和数据。”
竞争并未停滞。Anthropic 正在通过 Claude 推动更广泛的桌面自动化。开源项目也在不断涌现,为开发者提供了大量替代方案。聪明的企业将设计足够灵活的系统,以便在技术成熟时更换提供商,而不是只押注一家。
核心要点
Gemini 2.5 计算机使用模型是进步,而非魔法。它为 AI 如何驾驭数字世界设定了更高的标准,拥有更强的安全功能和有竞争力的基准。但它仍然是基础设施——适用于自动化日常工作,而不是一个能够处理任何你抛给它的任务的科幻代理。
目前,企业应将其应用于明确定义、高价值的工作流,并配备清晰的成功指标和备用计划。随着时间的推移,这项技术将变得更快、更智能。真正的决定是选择早期采纳并忍受当前的不足之处,还是等待谷歌及其竞争对手推动前沿发展,迎来更顺畅的体验。
非投资建议