不止于单目深度估计!字节Seed团队开源万物深度估计 Depth Anything V3,统一视觉几何估计任务!
字节Seed团队推出DepthAnythingV3(DA3),旨在通过统一模型解决从任意视觉输入恢复3D结构的核心问题。DA3具备相机姿态估计、深度信息生成和视觉渲染三大能力,在多视图几何任务中性能提升35.7%,单目深度估计也超越前代。其创新在于采用标准DINOv2编码器和"深度-射线"联合预测目标,通过跨视图自注意力机制生成精确3D点云。该模型为机器人、自动驾驶等领域的3D

在机器人或自动驾驶中,仅知道前方有车远远不够——必须精确知道它离你还有多少米!这就需要让机器具备「凭空」感知三维世界的能力。
为了进一步地丰富视觉感知能力,就需要模型更具泛化的深度估计能力,给AI任意一张随手拍的照片,它需要能给出画面中每个物体的真实距离。
传统的深度估计方法往往需要大量的标注数据来训练模型,并且与场景类别绑定,而零样本深度估计能够在没有标注深度数据的情况下估计场景深度。
在之前的文章中分别介绍了 Apple 团队专为专为零样本单目深度估计而设计的模型Depth Pro、英伟达团队开源的零样本双目深度估计基础模型FoundationStereo 以及字节团队开源的深度万物模型(三篇文章的链接)。
图源自Robflow官网
深度是AI理解物理世界的基石。除了上述几个面向深度估计任务的模型外,广阔的3D视觉世界远不止于此,诸多应用还依赖于运动恢复结构(SFM)、多视图立体视觉等一系列复杂任务。
传统方法解决这些任务如同一个冗长的流水线:需要先后完成特征匹配、姿态估计、SFM重建、多视图立体等多个独立步骤,流程复杂且在面对弱纹理或大视角变化时非常脆弱。后续的端到端学习方法虽有所简化,但往往设计复杂、模型专用,难以泛化到多样化的真实场景中。
面对上述挑战,字节 Seed 团队在 Depth Anything 的基础上再次升级,提出了 Depth Anything V3(DA3)。这一次他们的野心更大:旨在用一个统一的模型,解决从任意视觉输入中恢复3D结构的根本问题。
# 论文
Depth Anything 3: Recovering the Visual Space from Any Views
# Paper
https://arxiv.org/pdf/2511.10647
# Code
https://github.com/ByteDance-Seed/depth-anything-3
一、统一的任务:从“看”到“重建”
DA3定义了一个更广泛的核心任务:从任意数量的视觉输入(无论是单张图片、一组多视角照片,还是一段视频流)中,完整地重建出3D视觉空间。
这个统一任务涵盖了三项核心能力:相机姿态估计用于确定每张图片在3D空间中的拍摄位置和角度;任意视图几何估计用于为每一张输入图片生成精确的深度信息;视觉渲染可以基于生成的几何信息创建新的视角图像或3D模型。
在多视图几何任务中,其综合性能显著优于之前的先进模型VGGT,相机姿态估计准确度平均提升高达35.7%。即便是面对单张图片的深度估计任务,DA3 在保持与 Depth Anything V2 同等级别细节和鲁棒性的同时,性能实现了进一步超越。
二、极简的架构:两大核心洞察与设计
与追求复杂模型的业界趋势相反,Seed 团队旨在建立一个统一模型,能够有效利用大规模预训练模型,同时保持最小的架构设计。DA3 的两个关键洞察:
骨干网络极简:一个未经修改的、标准的DINOv2 编码器,无需任何复杂的架构特化;预测目标统一:用一个单一的“深度-射线”联合预测目标,取代了以往繁琐的多任务学习。
输入:你丢给DA3一堆(N张)从不同角度拍摄的同一场景的照片,以及它们可能已知的相机位置信息。
处理:模型通过跨视图自注意力机制,让所有图片的视觉信息相互沟通,共同确定彼此的位置关系和场景的几何结构。
输出:一张是深度图(告诉你每个像素离相机多远),另一张是射线图(告诉你每个像素在3D空间中指向哪个方向)。
融合:有了每张图的深度和射线信息,就像知道了无数个3D空间点的位置。将这些信息融合起来,就能生成 dense and accurate 3D点云。点云可以进一步用于生成高保真的3D高斯模型,能够实现高质量的渲染和可视化。
示例:基于多摄像头的空间感知,给定车辆不同视角的多张图像(即使没有重叠),DA3 可以估计稳定且可融合的深度图,从而增强自动驾驶车辆对环境的理解。
通过统一的任务定义和极简的架构设计,一个模型就有能力应对复杂的3D 任务,这为下一代AI应用,尤其是在机器人、自动驾驶等领域,打下了更为坚实和通用的视觉基石。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)