Meta超智能实验室发布SAM 3D,AI先驱LeCun离职:战略重心转向现实世界应用
突破性3D重建技术在领导层变动之际亮相,标志着Meta将重心从纯理论研究转向应用型AI
Meta超智能实验室发布了SAM 3D,正值首席AI科学家Yann LeCun在任职12年后宣布离职的同一天,这一时间上的巧合凸显了该公司人工智能战略的关键转折点。LeCun将前往一家新创公司追求理论性的“世界模型”,而Meta则加倍押注马克·扎克伯格(Mark Zuckerberg)和亚历山大·王(Alexandr Wang)长期以来所追求的目标:具有即时、具体现实世界应用的人工智能。
SAM 3D正是这一愿景的具体体现。该系统能将任何2D照片转换成详细的3D重建模型,能够捕捉具有精确几何形状和纹理的物体,或精确估计人体姿态和形状。与以往需要无菌实验室环境或多视角摄像头的3D重建工具不同,SAM 3D能处理混乱的真实世界图像:如被遮挡的物体、杂乱的场景和极端拍摄角度。
数据引擎革命
这项技术突破不仅仅在于架构上的巧妙设计,更是对AI模型构建方式的根本性反思。Meta的研究团队创造了他们称之为“数据飞轮”的方法,他们认识到,要构建强大的AI系统,所需的大规模真实3D训练数据根本无法获得。
他们的解决方案借鉴了ChatGPT成功的经验:人类在环偏好学习。该系统不再要求人类标注员从头开始费力地创建3D模型——这是一项成本极高的任务,而是生成多个3D候选模型,由人类简单地选择最佳的一个。这使得3D标注从一个创建问题转变为一个验证问题,在大幅降低成本的同时保持了质量。
该团队随后将直接偏好优化(Direct Preference Optimization)——一项为大型语言模型开创的技术——应用于3D几何学。该模型不是从明确的标签中学习,而是从人类偏好中学习,根据真实用户认为更准确或更具美感的结果来优化其输出。
对于人体重建,Meta部署了视觉-语言模型(Vision-Language Models),自动从数百万张图像中挖掘挑战性场景,例如后空翻、遮挡和不寻常的拍摄角度。这创建了一个比传统动作捕捉数据集更具多样性的训练分布,从而解决了困扰早期系统的“脆弱性问题”。
从实验室到居家应用
Meta的应用路线图清晰地揭示了这一战略。SAM 3D将为Facebook Marketplace的“在房间中查看”(View in Room)功能提供支持,让购物者在购买前就能在自己的空间中看到家具效果。物理治疗师可以利用人体姿态估计进行远程患者监测。机器人公司可以仅使用消费级摄像头就能让机器抓取物体,从而无需昂贵的激光雷达(LiDAR)传感器。
“这是3D计算机视觉的‘大语言模型(LLM)时刻’”,根据一项深入研究指出。正如语言模型通过大规模训练和与人类偏好对齐而取得进展,SAM 3D也将相同的原理应用于几何学。
该系统在真实世界图像上与当前最先进方法进行的人类偏好测试中,达到了5:1的胜率,这一阈值表明该技术已具备投入生产的实际可行性。
创作者的疑虑与商业问题
来自ctol.digital工程团队的行业反馈显示出谨慎乐观与实际担忧并存的态度。我们团队的一些成员称赞了其“令人难以置信”的单图像重建能力和快速原型开发的潜力。这种双模型架构——用于场景的SAM 3D Objects和用于人体捕捉的SAM 3D Body——在数据集创建和资产生成工作流程方面引起了特别关注。
但其他人则对生产就绪性提出了尖锐问题。团队要求提供并排输出比较、网格拓扑质量评估和纹理保真度样本。“建议用户在使用前验证网格/UV质量,并准备在Blender等工具中进行清理,”评估报告指出。
商业许可条款仍不明确,这对于考虑将其整合到专业工作流程中的工作室来说是一个关键问题。与Unity和ComfyUI等行业标准工具的导出兼容性需要验证。极端情况——如被遮挡的对象、坐姿和宽松衣物——在部署前需要进行全面测试。
具有象征意义的转型
LeCun在LinkedIn上宣布离职,称他将在一家新公司继续其高级机器学习智能研究议程,Meta将作为合作伙伴。他于2013年创立了Meta的AI研究实验室,并担任了七年的首席AI科学家,他的离去标志着一个强调纯理论研究和理论突破的时代的结束。
相比之下,SAM 3D体现了一种不同的理念:应用型AI,旨在解决当下的具体问题。没有理论性的世界模型。没有长达十年的研究时间表。只有能用手机扫描椅子并将其放入虚拟房间的技术。
这一战略转型能否为扎克伯格带来所需的颠覆性商业影响,或者是否会牺牲产生未来突破的长期基础研究,仍是Meta在AI领域面临的决定性问题。但信息很明确:将AI研究视为学术实践的时代已经结束。AI作为产品的时代已经开始。
非投资建议
