Meta研究人员用单一数学证明取代了十年AI训练技巧,使任何人都能构建自定义模型

作者
CTOL Editors - Lang Wang
5 分钟阅读

临别之礼:一位即将离职的AI先驱如何解决了学习领域最棘手的问题

这可能是人工智能奠基人之一的巅峰成就,Meta基础人工智能研究实验室(FAIR)的研究人员发布了一项突破,它彻底改变了机器理解世界的方式——这有望成为该实验室首席科学家Yann LeCun离职前留下的科学遗产。

这项名为LeJEPA的研究,用单一的数学证明取代了十年来的临时工程解决方案,解决了人工智能界所称的“表示坍塌”问题:即自学习系统倾向于放弃并一无所获的现象。

LeCun即将离开Meta,创立一家专注于“世界模型”的初创公司。这一时机凸显了LeJEPA理论的优雅性——这种方法如此基础,可能经受住其周围组织动荡的考验。

从炼金术到科学

多年来,在没有人工标签的情况下教AI学习——这一被称为自监督学习的“圣杯”——更像是炼金术而非工程学。研究人员拼凑出了复杂的变通方案:教师-学生网络、梯度停止操作、指数移动平均。这些技巧勉强奏效,但需要不断调整,而且经常神秘地失败。

LeJEPA推翻了这座脆弱的“高塔”,并用一个证明取而代之:AI组织所学知识的最佳方式是一个完美平衡的知识球体,数学家称之为各向同性高斯分布。每条信息都应均匀分布,没有簇状聚集,也不会坍塌成无用的雷同。

这一见解本身是深刻的。但实现它似乎不可能——直接测量数十亿数据点在千维空间中是否形成完美球体,这超出了计算能力。

解决方案,即“简绘各向同性高斯正则化”,简直是天才之举。它不是测量整个多维结构,而是检查该结构无数随机的一维“投影”。如果每个投影看起来都完美,那么整体也必然完美——这一源于20世纪60年代概率论的原理,如今突然应用于2025年最大的人工智能挑战。

普惠化定理

其影响超越了技术上的优雅。LeJEPA的训练损失与实际性能的相关性高达99%,这意味着研究人员只需观察一个数值即可优化模型,无需昂贵的带标签测试数据。一个超参数取代了数十个。整个方法大约只需50行代码。

最引人注目的是:实验表明,在微型数据集(仅11,000张星系图像)上从头训练的专业模型,其性能超越了在数亿张图像上训练的大规模通用模型。这挑战了硅谷在人工智能能力方面的假定垄断地位。

拥用5万张X光片的医院,现在可以为自身特定需求构建出优于价值数十亿美元的基础模型的AI。小型卫星公司可以在自己的图像数据上训练视觉系统。这一理论基础将曾经的手工技艺转变为可复现的科学。

遗产变局

这是否代表LeCun对Meta的最终贡献尚不明确。但LeJEPA的发布时机——在机构充满不确定性的时刻——可能被证明是幸运的。该方法的简洁性和理论基础,使其传播速度可能比被锁定在企业研究战略中更快。

这篇论文将自监督学习从启发式实验推向了严谨的数学原理。这样做,它可能不仅提供了一个技术解决方案,还为基础人工智能研究应如何进行提供了一个范本:理论先行,工程其次,普惠化是结果而非事后诸葛。

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯

我们网站使用Cookie来启用某些功能,为您提供更相关的信息并优化您在我们网站上的体验。更多信息请参阅我们的 隐私政策 和我们的 服务条款 。强制性信息可在 法律声明