OpenAI 发布 BrowseComp 基准，以测试 AI 代理在难找的 Web 信息上的能力

BrowseComp：揭示 AI 智能体仍然无法做什么以及为什么这很重要

引言：为什么浏览是下一个 AI 前沿

当 OpenAI 悄悄地发布 BrowseComp 时，这是一个旨在测试 AI 智能体在线查找困难信息的能力的开源基准，它不仅仅是发布了另一个排行榜竞赛，而是向整个 AI 领域发出了挑战。

尽管在多模态推理、自主智能体和检索增强生成 (RAG) 方面取得了快速进展，但大多数大型语言模型 (LLM) 在面对一项看似简单的任务时仍然会崩溃：快速而可靠地在互联网上找到一个晦涩但可验证的事实。

检索增强生成 (RAG) 是一种旨在增强大型语言模型 (LLM) 输出的 AI 技术。它的工作原理是首先从外部数据源检索相关信息，然后将此信息提供给 LLM，以生成更准确、更贴近上下文的响应。

BrowseComp 的设计初衷就是为了揭示这个弱点——而且它确实做到了，而且是非常明确的。不仅仅是对于开放领域的聊天机器人，甚至是对于专业的浏览智能体也是如此。

在幕后，其影响甚至更大。如果您的 AI 模型无法解决 BrowseComp 问题，它可能无法在一个持久、上下文丰富、多跳信息收集成为常态的世界中生存——从自动化市场研究到取代竞争情报工作流程中的分析师。

BrowseComp 实际测试的内容以及它为何与众不同

让我们首先澄清 BrowseComp 不是什么。

它不是一个冷知识测试。
它不是关于复述维基百科的事实。
它不是衡量会话技巧或开放式生成能力。

相反，BrowseComp 提出了 1,266 个精心设计、难度极高的研究任务，每个任务都有一个简短的事实性答案，这个答案容易验证但难以找到。这种不对称性是故意的。OpenAI 称之为“验证不对称性”——它是严格评分和真实世界模拟的关键。

您是否知道有一个名为“验证不对称性”的有趣概念？它描述了这样一种情况：找到答案或解决方案非常具有挑战性，需要大量的努力和创造力，但验证其正确性却出奇地容易。这种现象在各个领域都有观察到，从密码学（生成密钥很难，但验证密钥很快），到科学理论（证明一个普遍的主张很难，但证伪它可能很简单）。验证不对称性突出了发现和验证之间有趣的差距，影响着人工智能开发、经济学，甚至解谜等领域。

示例： “确定一篇在 2023 年 6 月之前发表的，讨论文化传统、科学过程和烹饪创新的研究论文。它由一位曾在西孟加拉邦担任助理教授的人和另一位拥有博士学位的人共同撰写。” 答案： 面包制作的基础知识：面包的科学。

尝试在 10 分钟内在 Google 上找到它。

AI 基准是旨在评估和比较不同人工智能模型性能的标准测试。它们通过提供一致的任务、数据集和指标来客观地衡量 AI 能力并跟踪该领域的进展，从而发挥着至关重要的作用。

方法论：通过设计反向难度

与从自然用户查询或随机样本构建的典型基准不同，BrowseComp 的问题是逆向工程的。以下是它的工作原理：

确定一个事实——培训师从一个已知的信息开始（一个人、事件、论文等）。
设计一个反向问题——他们将答案隐藏在多层细节之后：传记提示、事件时间线、学术隶属关系。
测试不可约性——培训师检查：
- 在前五个搜索结果中找不到答案。
- GPT-4o（无论是否浏览）、OpenAI o1 和早期智能体模型都无法解决它。
- 人类专家需要超过 10 分钟的时间——而且通常超过 2 小时——才能破解它。

通过控制难度和可验证性，OpenAI 构建了一个不仅具有挑战性，而且衡量战略搜索、推理和持久性的基准——这是任何部署在商业、研究或关键系统中的严肃 AI 智能体所需要的技能。

人工基准测试：证明这些问题确实很难

为了验证难度，OpenAI 求助于其人类培训师——创建问题的人，但被禁止解决他们自己创建的问题。没有 ChatGPT。没有 Claude。没有 Gemini。只有开放的网络。

来自 1,255 个任务的结果：

只有 29.2% 的问题在两小时内被人类成功解决。
888 个问题（70.8%） 在该窗口期内被标记为“无法解决”。
在已解决的 367 个问题中，86.4% 与参考答案相符。

这很重要。为什么？

因为它表明 BrowseComp 不仅仅衡量记忆或蛮力搜索——它探究了一种类似人类的调查推理形式，而今天的模型还远未掌握这种能力。

性能细分：仅靠浏览工具是不够的

那么，顶级 AI 智能体的表现如何呢？

模型	浏览能力	准确率 (%)
GPT‑4o	❌	0.6%
GPT‑4o + 浏览	✅	1.9%
GPT‑4.5	❌	0.9%
OpenAI o1	❌	9.9%
Deep Research	✅ (微调)	51.5%

AI 投资者和开发人员的关键要点：

如果模型缺乏搜索策略和推理能力，浏览访问权限的好处非常有限。
o1（没有浏览，强大的推理能力）优于带有浏览功能的 GPT-4o。推理胜过原始检索。
Deep Research 占据主导地位——但它专门接受了与 BrowseComp 类似的任务的培训。它的表现是一个上限，而不是一个基线。

如果您的产品或智能体使用浏览功能，那么这个基准应该是一个警钟。如今，大多数支持浏览的模型根本不具备在没有蛮力的情况下处理复杂查询所需的战略智能。

计算能力很重要：扩展尝试会产生更好的结果

BrowseComp 问题通常可以通过足够的计算能力来解决——但前提是模型知道何时是正确的。OpenAI 测试了 Deep Research 在允许每个问题提交多个答案时的表现如何。

每个问题 64 个样本
聚合方法：
- Best-of-N（基于置信度分数）
- 加权投票
- 多数投票

计算能力扩展对研究准确性的影响

策略	任务	影响	来源
测试时计算	BrowseComp	性能随浏览工作量而扩展	OpenAI
Best-of-N	BrowseComp	比单次尝试提高 15-25%	OpenAI
Best-of-N	通用 LLM 任务	显着提升，有时优于 RL	OpenAI
逐步思考	复杂推理	准确率 71%（从 15.6% 提升），多数投票时为 86.7%	Hugging Face
成对 RM + 淘汰	MATH-500, Olympiad	在最难的问题上提高 40-60%	Hugging Face/ArXiv
预训练计算	GPQA Diamond	每次计算量增加 10 倍，提高约 12 个百分点	Epoch AI
合成数据	通用 ML	提高不平衡数据集的性能	Various

Best-of-N 胜出，比单次尝试的准确率提高 15%–25%。这表明 Deep Research 通常知道何时得到正确的答案——它只是需要时间和计算能力才能达到那里。

从企业和产品战略的角度来看，这支持转向：

具有置信度意识的智能体：他们可以自我评估其输出
测试时计算扩展：性能随资源而增长

这为首席技术官和 AI 产品负责人提出了重要问题：您的智能体是否具有计算效率？它们可以自我评分吗？当置信度较低时，它们应该重试吗？

市场信号：这对 Agentic AI 的未来意味着什么

BrowseComp 不仅仅是一个基准。它是 AI 如何从静态工具过渡到动态智能体的透镜。在这样做的过程中，它为投资者和构建者发出了几个宏观趋势信号。

总结 Agentic AI 关键方面的表格，包括其特征、工作原理、应用、优势和伦理考量。

方面	描述
定义	旨在自主行动、做出决策并在最少监督下实现目标的人工智能系统。
主要特征	自主性、适应性、目标导向性和上下文理解能力。
工作原理	使用机器学习、自然语言处理和推理来解决复杂问题。
应用	个人助理、自动驾驶汽车、医疗保健和业务自动化。
优势	在非结构化环境中运行；适应动态场景；扩展生成式人工智能的效用。
伦理考量	引起对问责制和透明度的担忧；需要道德准则来确保安全使用。