发布日期:2026-06-15 02:50 点击次数:152


蔡志鹏博士(https://zhipengcai.github.io/)是好意思国 Meta 公司的高等商议员,博士毕业于澳大利亚阿德莱德大学。他的商议主要考虑在 Physical Intelligence,包括三维视觉、多模态大模子等。他的责任已在范围顶级会议杂志上发表朝上 20 篇。其中 10 篇著述被选为顶级会议表面或特邀敷陈,对鲁棒测度计算复杂度的表面解说责任被选为 ECCV18 12 篇最好论文之一。
Meta 发布了一项令东说念主颤动的商议责任 VLM³,初度揭示了三维视觉学习的 Bitter Lesson:尺度的视觉话语模子 + scale 数据就是最简陋灵验的范式,针对特定任务的架构、亏蚀函数以及数据增强的盘算,以致是 regression 的 formulation,均不是三维视觉学习的必要条款。

现时的视觉话语 AI 模子(Vision Language Models, VLMs)通过合伙的模子架构八成机动惩办各种不同的视觉任务。联系词,尽管在语义知道、视觉问答、图像提醒等任务上推崇优异,它们在三维视觉方面仍然推崇欠安。比拟之下,巨匠视觉模子(expert vision models)在饱和深度测度(metric depth estimation)等三维理撤职务上,凭借挑升盘算的汇集合构、亏蚀函数及数据增强,如故达到了超过东说念主类的精度。
这就带来了一个中枢问题:「视觉话语模子是否在三维视觉学习方面无法替代巨匠模子?」VLM³ 初度解说了该问题的谜底是含糊的!
VLM³ 通过极简的盘算,在极为种种的三维视觉任务中逊色或超过巨匠视觉模子,并大幅超过滥觞进的视觉话语模子:1)在单目深度测度上 match UnidepthV2 及 MoGe2;2)在指标级三维理撤职务上超过 SpatialRGPT;3)在像素匹配任务上超过 DKM 和 RoMa;4)在相机姿态测度上 match DA3,超过 VGGT。

代码地址:https://github.com/facebookresearch/VLM3
二、亮点
在此之前,即就是滥觞进的 VLM 在尺度的三维视觉任务中均远远逾期于巨匠视觉模子。
VLM³ 通过详备的实验发现,尺度的 VLM 仅需要 1)相机焦距归一化;2)像素空间归一化,就八成以令东说念主咋舌的纵脱模式灵验学会各种三维视觉模子,在 1)单目深度测度中 match UniDepthV2 及 MoGe2;2)在指标级别三维知道超过 SpatialRGPT;3)在像素匹配任务上超过 DKM 和 RoMa;4)在相机姿态测度上 match DA3 并超过 VGGT。

和之前的三维视觉 VLM 不同,VLM³ 既不需要蜕变 VLM 的架构,也不需要在图片上渲染 marker。比拟于巨匠视觉模子需要大宗的架构、亏蚀函数及数据增强方面的复杂盘算,开云app官方在线入口VLM³ 仅需要尺度的 VLM 架构(如 Qwen3-vl-4B)和试验(基于笔墨的 SFT)就八成在极为种种的三维任务上达到 SOTA。
这种纵脱的试验推翻了之前三维视觉的学习范式,并揭示了三维视觉的 Bitter Lesson:咱们其实完全不需要针对特定三维视觉任务东说念主为盘算复杂的架构、亏蚀函数及数据增强。通过简陋的视觉话语建模 + scale 数据就八成达到雷同的遵循,何况于其他非三维视觉任务在合伙的话语模子试验框架下完全兼容。这使得三维视觉不再需要与视觉话语模子的大限制预试验离别,同期咱们八成使用雷同的模式来已矣三维视觉的 scaling law。
同期 VLM³ 的见效也意味着三维视觉的学习远比咱们思象中的要容易:除开不需要很是架构、亏蚀函数等,咱们以致不错不依赖归来(regression)来学会 fine-grained 3D understanding,这在之前的责任中是难以思象的,因为在谀媚的输出空间进行归来是绝大多数三维视觉模子的中枢盘算。
三、主要限制 / 性能对比
在四大三维视觉任务上性能显耀优于滥觞进的 VLM
在单目深度测度上将 DepthLM 的准确率从 84 进步至 90,何况试验及推理愈加简陋高效,无需渲染 marker。
在指标级别三维知道上用雷同的试验数据超过 SpatialRGPT,何况无需零碎的 encoder,模子参数少一半(4B vs 8B)。
在多视角几何任务上如像素匹配及相机姿态测度上远超 Qwen3-vl-32B。

同期在与先进的巨匠视觉模子(如 MoGe2、DA3、RoMa 等)的对比中,VLM³ 也绝不忘形,何况完全不需要复杂的架构、亏蚀函数及数据增强。


四、道理 / 运用远景
VLM³ 再行界说了三维视觉的最勤学习范式:最简陋的 generalist 架构如 VLM 及 scaling 就是最通用的三维视觉范式!以前三维视觉范围宽广弃取的东说念主为的 task-specific 的盘算并非必须。
这将极猛历程地简化三维基础模子的构建。通过将三维视觉任务融入视觉话语模子的预试验,咱们也能灵验地兼容三维视觉与其它视觉任务,并将 VLM 的上风,及机动性与泛化性从语义及二维视觉任务灵验拓展至三维视觉,极猛历程进步模子的身手上限。
结语
VLM³ 的出现开云(中国)2026世界杯版IOS|Android手机app下载,初度买通了视觉话语模子与三维视觉之间的壁垒,使得合伙的架构就八成纵脱地学会各种视觉任务,并达到巨匠模子的性能。这既是科研层面的里程碑,也为异日在骨子系统中合伙多模态推理身手提供了可能。咱们期待 VLM³ 后续在机器东说念主、自动驾驶、增强实际等场景中的落地运用。