字节跳动发布GR-3:或将重新定义机器人能力边界的AI“大脑”
字节跳动研究人员发布了GR-3,这是一个复杂的视觉-语言-动作模型,赋予机器人前所未有的适应性和灵活性,使其能够执行复杂任务。该系统标志着在创建能够理解自然语言指令并将能力推广到陌生环境的机器方面迈出了重大一步——这是该领域长期以来梦寐以求的“圣杯”。

未来之手的硅基大脑
GR-3的核心是一个拥有40亿参数的AI系统,旨在弥合视觉、理解和行动之间的鸿沟。与传统上为特定任务在受控环境中编程的机器人不同,字节跳动的这项创造能够以最少的额外训练适应新颖的物体和环境。
该系统驱动着ByteMini,这是一款专门设计的双臂移动机器人,其独特的球形手腕设计赋予了其类人般的灵活性。在演示中,这种组合成功应对了从拿起陌生物体到将衣物晾晒在晾衣架上等一系列挑战——后者是一项出了名的难题,需要对不可预测、可变形材料进行精细操作。
一位熟悉该技术的AI研究人员指出:“这项进步特别引人注目的是系统学习的效率。以前的方法需要针对每种新场景进行大量的重新训练,但GR-3只需多达10次人类引导的演示,即可适应新物体。”
三管齐下的学习:GR-3适应性的秘诀
字节跳动的创新不仅在于系统能做什么,更在于它是如何学会做到的。GR-3的能力源于一种结合了三种不同数据来源的综合训练方法——这种方法被几位机器人专家描述为之前尝试创建通用型机器人时“缺失的一环”。
该系统在以下三方面进行了协同训练:网络规模的视觉-语言数据(类似于ChatGPT和DALL-E如何从文本和图像中学习)、101小时的机器人远程操作轨迹,以及——最关键的是——通过VR设备捕获的相对少量的人类运动数据集。
这种三模态方法解决了该领域最顽固的瓶颈之一:为每一种可设想的场景收集机器人训练数据所需的高昂成本和时间。通过利用在虚拟现实中捕获的人类演示,字节跳动研究人员发现他们可以显著加速机器人处理新情况的能力。
从抽象指令到现实行动
在测试中,GR-3展现出惊人的能力,能够遵循“把带触手的动物放进纸箱”或“把最大的物体放进纸箱”等抽象指令——这些指令不仅需要物体识别,还需要概念理解。
该系统在遵循关于未见过物体的抽象指令方面达到了77%的成功率,而此前最先进的模型仅为40%。这表明GR-3不仅仅是模仿它以前见过的动作,而是真正理解语言、视觉感知和物理操作之间的关系。
处理难倒传统系统的复杂性
也许最令人印象深刻的是GR-3在扩展的多步骤任务上的表现。在餐桌清理场景中——机器人需要清理凌乱的餐具、食物和容器——它在遵循特定指令时达到了97.5%的任务完成率。
更具说服力的是它处理衣物的能力,由于织物不可预测的特性,这在机器人学中是一个出了名的挑战。尽管主要针对长袖服装进行训练,该系统也成功地操作了短袖T恤,展现出真正的泛化能力而非狭隘的专业化。
一位行业分析师评论道:“从处理刚性物体到操纵布料,这代表着能力上的巨大飞跃。织物操作一直是机器人进入家庭环境的‘最后一道防线’。”
市场影响:走出实验室,走向世界
字节跳动的这项进步正值机器人行业的关键时刻。随着劳动力短缺影响到从医疗保健到酒店业再到制造业的各个领域,对适应性强、能遵循指令的机器人的市场需求从未如此广阔。
分析师认为,GR-3的方法可以显著加速通用型机器人的商业化进程。该系统仅通过少数人类演示即可学习的能力,预示着一种新的部署模式:机器人自带基础能力,然后由非专业人员通过VR界面快速“教授”特定任务。
一位关注机器人领域的投资策略师指出:“我们可能正在看到自动化领域完全不同的经济等式。如果机器人能够由最终用户快速定制,而不是需要工程师进行昂贵的重新编程,那么许多企业的投资回报计算将发生实质性变化。”
投资格局:具身智能的竞赛
GR-3将字节跳动定位为具身智能这一日益竞争激烈领域中的一个强劲竞争者,挑战着像Google DeepMind和OpenAI这样在机器人能力方面进行了类似投资的成熟参与者。
市场观察人士认为,拥有垂直整合能力的公司——即能够协同开发硬件、软件和数据收集基础设施的公司——可能在该领域拥有显著优势。这短期内可能更有利于科技巨头而非纯粹的机器人制造商。
对于关注这一领域的投资者,分析师建议关注在高级传感器、高效执行器和轻量化材料等领域开发补充技术的公司,这些技术可以加速通用型机器人在各行业的普及。
然而,值得注意的是,机器人技术历来容易出现过度热情之后是幻灭的“寒冬”的周期。机器人投资的过往表现并不能保证未来结果,潜在投资者在做出资产配置决策前应咨询财务顾问以获得个性化指导。
前进之路:从实验室到客厅
尽管GR-3代表着一项重大进步,但字节跳动研究人员也承认其局限性。当前系统完全依赖模仿学习,这使其在真正新颖的情况下可能容易出现累积误差。未来版本可能会融入强化学习,以进一步提高鲁棒性。
尽管如此,这项技术预示着机器人能够有效在非结构化人类环境中运行的道路上,一个潜在的转折点。GR-3所展示的语言理解、视觉感知和灵巧操作的结合,体现了机器智能的一种综合方法,这种方法超越了狭隘的专业化,走向真正的适应性。
正如一位机器人学教授所言:“我们正在见证的,是那些不仅执行任务,而且理解任务的系统正在出现——这种区别,在我们所生活的混乱、不可预测的世界中,意义非凡。”
免责声明:本文基于技术报告和专家分析。读者在做出与文中提及公司相关的投资决策前,应自行进行研究。