VGGT一秒重建3D场景,将彻底改变各行各业

作者
CTOL Editors - Ken
11 分钟阅读

VGGT一秒重建3D场景,即将变革多个行业

在快速发展的计算机视觉领域,一场革命正在悄然酝酿。当大多数头条新闻聚焦于从文本提示生成图像的生成式AI时,另一项技术突破刚刚荣获计算机视觉界的最高荣誉——它可能带来更直接的实际影响。

视觉几何基础Transformer (Visual Geometry Grounded Transformer) 最近在计算机视觉领域最负盛名的会议CVPR 2025上,从13,000多篇投稿中脱颖而出,斩获了最佳论文奖。这项技术为何如此特别?VGGT能够在不到一秒的时间内,从普通照片中重建完整的3D场景——而这项任务传统上需要复杂的算法运行数分钟甚至数小时。

从数小时到数秒:3D视觉一个时代的终结

几十年来,从2D图像重建3D场景一直遵循着一套既定的流程。工程师们会使用一个细致的过程,称为“运动恢复结构”(Structure from Motion),接着是“多视角立体视觉”(Multi-View Stereo)算法,最终通过“光束法平差”(Bundle Adjustment)等优化技术完成。这条流水线为从Google地球的3D模型到好莱坞视觉特效的一切提供了动力——但其代价是高昂的计算时间。

“VGGT代表了对传统几何流水线的彻底改变,”一位未参与该项目的计算机视觉研究员埃琳娜解释说。“过去需要多种专业算法才能完成的任务,现在只需通过神经网络的一次正向传播即可实现。”

数据讲述了一个引人注目的故事。VGGT在单个GPU上处理100张图像大约只需2秒,同时实现了比耗时多50-100倍的方法更高的精度。对于依赖3D重建的企业——从AR/VR公司到自动驾驶汽车开发商——这代表着能力上的质的飞跃。

Input Photo (A Dragon) for VGGT
Input Photo (A Dragon) for VGGT

Reconstruction Output of VGGT
Reconstruction Output of VGGT

工作原理:技术突破

VGGT的核心是一个12亿参数的Transformer模型——其架构类似于驱动当前大型语言模型的模型,但专门用于视觉几何任务。该系统接收场景的普通照片,并直接输出:

  • 相机参数:拍摄照片的每个相机的精确位置和方向
  • 深度图:每个像素到相机的距离测量
  • 点图:每个像素的3D坐标
  • 3D点轨迹:特定点在不同视角下的移动方式

VGGT的革命性之处在于其“交替注意力”机制。该模型在处理单张图像内的特征和整合所有图像的信息以理解3D结构之间进行交替。

“最令人惊讶的是,这是通过标准Transformer架构实现的,”行业分析师魏指出。“其中极少硬编码的3D几何知识——模型基本上仅从数据中学习了3D重建的原理。”

VGGT:技术速览

类别技术细节
模型名称VGGT:视觉几何基础Transformer
核心任务在单次正向传播中,从多张图像中统一进行3D重建。
模型架构类型: 12亿参数的前馈Transformer。
关键机制: 交替自注意力(帧内和全局),用于整合单图像和跨视图数据。
关键创新• 单次正向预测,无需迭代优化。
• 统一多任务训练(相机、深度、点、轨迹)。
• 可扩展架构,支持1到数百个视角。
输入1到数百张场景的2D图像。
输出相机参数(内参/外参)、深度图、3D点图和密集点轨迹。
性能速度: 在一台H100 GPU上,处理100张图像约需2-3秒。
相机姿态 (IMC): AUC@10为71.3(正向传播),84.9(带BA)。
MVS (DTU): 行业领先(倒角距离:0.38)。
训练数据: 在15+个真实和合成3D数据集上进行预训练。
计算资源: 64块A100 GPU运行9天
局限性• 不支持非标准镜头(鱼眼/全景)。
• 在极端旋转或非刚性场景下性能下降。
• 模型尺寸大,移动部署需优化。

不止于速度:为什么这对商业至关重要

VGGT的影响远不止学术兴趣。这项技术有望改变多个行业:

1. 增强现实/虚拟现实 (AR/VR) 与空间计算

对于构建增强现实体验的公司而言,即时映射3D环境的能力为沉浸式应用开启了新的可能性。“亚秒级重建时间意味着AR系统可以实时适应不断变化的环境,”一家领先AR初创公司的首席技术官马库斯·雷诺兹说。

2. 自动驾驶汽车与机器人

自动驾驶汽车和仓库机器人需要快速理解周围环境以安全导航。VGGT可以显著简化感知系统,同时降低计算需求和延迟。

3. 电子商务与数字孪生

零售商可以将智能手机照片即时转化为精确的3D产品模型,而建筑和房地产公司则能以空前的速度创建物理空间的数字孪生。这可能彻底改变从虚拟试穿体验到远程房产参观的一切。

4. 内容创作

对于视觉特效工作室、游戏开发者和元宇宙构建者而言,VGGT能从普通照片或视频帧中提供高质量的3D资产。过去需要专业设备和专业知识才能完成的工作,现在只需一部智能手机和这个AI模型即可实现。

投资影响:谁将受益?

VGGT的发布对关注计算机视觉领域的投资者具有重要意义。现有3D重建产品的公司可能需要迅速转型,否则将面临淘汰风险。与此同时,这项技术的早期采用者有望在各自市场中获得巨大的竞争优势。

支持AI推理的硬件制造商——尤其是那些专注于边缘计算的厂商——随着VGGT及类似模型从研究走向部署,应该会看到需求增加。然而,真正的赢家可能是那些能在此基础上构建前所未有产品的应用开发者。

风险投资家索菲亚·林表示:“我们正在见证一个经典的赋能技术情景。VGGT不仅仅改进了现有应用;它使得全新的产品类别成为可能。我预计在未来12-18个月内,我们将看到一波利用此能力的新兴企业。”

挑战与局限

尽管VGGT性能突破,但并非没有局限。当前版本在鱼眼镜头和全景图像方面表现不佳。它在极端相机旋转和包含大量运动的高度动态场景下,准确性也会降低。

训练此类模型仍然是计算密集型任务——研究人员使用了64块高端GPU运行了9天。这笔开销可能会限制大型研究实验室和科技巨头以外的复制工作。

此外,作为一款12亿参数的模型,未经优化过大,不适合移动部署。“我们需要蒸馏或量化版本,才能让它直接在智能手机上运行,”硬件分析师詹姆斯·帕特森解释道。

前景展望

随着VGGT的代码和模型在GitHub上发布,其应用已开始加速。研究实验室和公司正在探索从自主无人机到医学成像的各种应用。

这篇论文的影响预示着计算机视觉研究的一个根本性转变——从手工几何流水线转向神经网络优先的方法,并通过大规模数据集进行训练。这是一种我们曾在自然语言处理和2D计算机视觉中曾见过的模式,如今在3D感知领域重演。

对于商业领袖和投资者来说,信息很明确:3D重建不再是一个缓慢、专业化的过程,而是一种可以以最低延迟集成到产品和服务中的按需能力。那些及早认识并抓住这一转变的人,将在快速发展的空间计算领域获得显著的竞争优势。

正如一位评审员所指出的:“VGGT既是一项科学突破,也是一个即时可用的3D核心基础模型。”利用这项技术的竞赛已经开始。

Github
Github

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯

我们网站使用Cookie来启用某些功能,为您提供更相关的信息并优化您在我们网站上的体验。更多信息请参阅我们的 隐私政策 和我们的 服务条款 。强制性信息可在 法律声明