科学家发现,强化学习在提高测试分数的同时,反而让AI模型变得愚蠢

作者
CTOL Editors - Lang Wang
8 分钟阅读

机器智能的幻象:AI的“推理突破”可能只是海市蜃楼

一项颠覆性研究挑战了人工智能正在“自学思考”这一论断的基础

过去一年,人工智能行业一直在庆祝一个看似具有里程碑意义的时刻:AI系统似乎能够自我学习推理,发现新颖的问题解决策略,这很像人类学生通过练习和反馈来掌握数学知识。

然而,一项新的研究论文却可能彻底颠覆这一说法,暗示行业所称的自主学习可能只是一种精巧的优化技巧——这种技巧使AI系统更快、更可靠,但同时却使其整体能力下降。

这些影响远超学术实验室。如果这些发现成立,它们表明通往真正智能机器的道路,可能与行业目前竞相追逐的道路截然不同,数十亿美元的投资可能只是在“打磨”现有能力,而非扩展它们。

改变一切的实验

该研究围绕一个看似简单的问题展开:当一个AI模型在训练后解决问题的能力提高时,它是在真正学习新技能,还是仅仅使其已有的技能变得更高效?

为了回答这个问题,研究人员开发了一种新颖的测试方法。与标准方法——通过AI系统对问题的第一个答案来判断不同,他们让模型对每个问题尝试100次。这种“pass@100”指标揭示了一个惊人的事实:原始的、未经训练的基础模型实际上能解决更广泛的问题,比它们那些据称更优越的、经过强化学习训练的模型表现更佳。

这种模式适用于多种AI模型家族,跨越数学和编码挑战,以及不同的训练算法。经过训练的模型在第一次尝试时确实更快、更准确。但它们的总体知识范围却变窄了。它们成了寻找常见解决方案的专家,同时失去了解决只有其基础版本才能处理的非常规问题的能力。

丢失图书的图书馆

这一发现颠覆了人工智能发展中的一个核心假设。普遍的理论认为,强化学习——通过正确答案的奖励来训练AI——会像DeepMind的游戏系统那样发挥作用,后者曾发现了人类从未设想过的全新策略。

相反,研究人员发现了一个更像是细致但思想狭隘的图书管理员的现象。训练过程将有效的答案移至容易取用的前排书架,而其他解决方案——其中一些是解决难题的唯一正确方法——则被有效地遗忘,迷失在模型知识的“后排书架”中。

基础模型,尽管混乱且效率不高,但保留了对其整个“图书馆”的访问权限。经过训练的模型有更好的“书架组织”,但书却少了。

研究人员称之为“分布锐化”,这解释了为什么AI系统在衡量首次尝试准确性的基准测试中表现得如此出色,即使它们的根本能力停滞不前或下降。行业一直在衡量效率,并将其误认为是智能。

我们以为的发现,实际上是检索

研究团队进一步深入,分析了经过训练的模型用来解决问题的实际推理路径。他们发现,强化学习训练模型生成的“正确”解决方案,实际上已经存在于基础模型中的高概率路径——相当于在可能答案的“森林”中被踩踏出的老旧小径。

训练并没有教会模型开辟新路径。它只是训练它们更一致地遵循熟悉的路径。

这一发现与知识蒸馏形成鲜明对比,知识蒸馏中,一个较小的“学生”模型从一个更强大的“老师”模型中学习。研究人员表明,蒸馏确实可以真正扩展模型的推理边界,因为学生正在学习它从未拥有的能力。但当一个模型试图通过强化学习来提升自己时,它似乎受到自身先验知识边界的限制。

前方的清算

对于人工智能行业而言,其影响是深远且令人不安的。公司大量投资于强化学习代表着通往更强大系统的道路这一前提。该研究表明,这些投资在最重要的维度——基础能力上,正在产生递减的回报。

这项研究并没有完全否定强化学习。对于构建可靠的、针对特定任务的系统——例如一个持续生成可用代码的编程助手,或者一个可靠解决标准问题的数学导师——当前的训练方法仍然是强大的工具。它们擅长让优秀的系统在特定任务上表现出色。

但对于吸引了公众想象的更宏伟的抱负——即能够解决以前无法解决的问题并做出真正发现的通用人工智能——这项研究表明,行业可能正在优化错误的目标。一个在首次尝试时得分95%但能解决1,000种不同类型问题的模型,可能不如一个得分60%但经过足够采样能解决2,000种类型问题的模型有价值。

前进的道路仍然不明确。研究强调,最关键的阶段可能不是训练后的精炼,而是对海量数据集的初始预训练,在此阶段,模型会发展出其潜在的知识储备和推理模式。它还表明,真正的能力扩展可能需要根本不同的方法:例如多轮交互、更丰富的探索机制,或获得超越模型现有知识边界的真正新颖体验。

明确的是,该领域不能再将“润色”与“能力”混淆,也不能将“效率”与“智能”混为一谈。图书管理员已经学会了出色地组织现有藏书。但撰写新书——真正的发现——仍然一如既往地难以捉摸。

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯

我们网站使用Cookie来启用某些功能,为您提供更相关的信息并优化您在我们网站上的体验。更多信息请参阅我们的 隐私政策 和我们的 服务条款 。强制性信息可在 法律声明