
多视角、事件视觉与相机轨迹,共同推动视觉模型走向更强空间推理。
作者丨郑佳美
编辑丨马晓宁
过去几年,计算机视觉行业一直在追求更强的识别、更大的模型和更复杂的生成能力,但真正落到机器人、工业检测、运动分析和空间交互等真实场景时,一个更底层的问题逐渐变得突出:视觉系统到底是在“看图像”,还是在“理解世界”?
真实世界并不是由一张张干净、完整、静止的图片组成的,物体会被遮挡,单视角会带来深度和姿态歧义,高速动作会在普通相机的帧间消失,场景结构也往往需要从不完整的观测中推断出来。
更进一步,视频中的语义甚至不一定只存在于像素纹理中,相机如何移动、观察者如何取景,本身也可能包含对事件和行为的暗示。
因此,视觉研究正在从单纯依赖 RGB 外观表征,转向对三维结构、跨视角一致性、时间动态和观察过程 的综合建模。
放在CVPR 2026 的研究脉络中看,这一趋势尤为明显:不少工作已经不再满足于提升传统 2D 感知指标,而是开始讨论如何让模型在真实空间中定位物体、捕捉毫秒级人体运动、从遮挡图像中生成完整 3D 场景,甚至仅凭相机轨迹理解视频内容。
下面这几篇论文正好从不同侧面回应了这个问题:它们分别把多视角几何、事件视觉、开放集 3D 生成和相机运动轨迹引入视觉理解中,试图让视觉系统从“识别画面中的内容”,进一步走向对真实世界 如何存在、如何运动、如何被观察 的理解。

01
视觉系统真的理解世界了吗?
《AlignPose: Generalizable 6D Pose Estimation via Multi-view Feature-metric Alignment》由捷克理工大学布拉格的捷克信息学、机器人学与控制论研究所(CIIRC CTU) 和捷克理工大学布拉格电气工程学院完成,关注的是 未见物体的多视角 RGB 6D 姿态估计。
在这一任务中,系统只获得物体的 3D mesh、多台已标定相机拍摄的 RGB 图像以及相机内外参,却需要在不针对测试物体重新训练的情况下,直接估计物体在统一世界坐标系中的三维位置和旋转姿态。
论文并没有简单地把多个单视角估计结果做投票或平均,而是将单视角估计器输出的候选姿态作为初始化,先借助相机外参把不同视角下的候选统一到同一个 3D 坐标系中,再通过 3D NMS 去除重复和冲突候选,随后用面向物体姿态的 multi-view feature-metric refinement 进一步优化结果。
论文地址:https://arxiv.org/pdf/2512.20538v1具体来说,它会根据当前姿态在线渲染物体特征,同时使用冻结的视觉基础模型提取真实图像特征,使同一个 world-frame pose 在多个视角中共同最小化“渲染特征—观测特征”的差异。
这样的设计把原本依赖单视角模板匹配或 RGB-D 深度信息的姿态估计,推进到一种 无需物体专属训练、无需对称性标注、无需深度图,但能充分利用多视角几何约束 的框架。
多视角信息能够缓解单张 RGB 图像中的遮挡、深度歧义和外观歧义,而 foundation features 又增强了模型面对未见物体、无纹理物体、反光物体和透明物体时的泛化能力。
更重要的是,论文将 feature-metric alignment 从相机定位或场景级 bundle adjustment 的思路转化为物体中心的 6D 姿态优化问题,优化目标也不再是各个视角独立的姿态,而是全局一致的 world-frame pose。
实验中,作者在 YCB-V、T-LESS、ITODD-MV 和 HouseCat6D 上按照 BOP 方法评估,报告其平均性能比单视角估计提升约 11%,比已发表的多视角 RGB 方法提升约 5%,在无纹理、金属反光和透明物体等工业场景中表现尤为突出。

如果说 AlignPose 解决的是物体在多视角空间中的精确定位问题,那么《FlashCap: Millisecond-Accurate Human Motion Capture via Flashing LEDs and Event-Based Vision》则把这种空间感知进一步推进到高速人体运动场景中。
该论文由厦门大学城市智能感知与计算福建省重点实验室、厦门大学信息学院教育部多媒体可信感知与高效计算重点实验室、厦门大学健康医疗大数据国家研究院和上海科技大学完成,研究重点是 毫秒级人体运动捕捉与高时间分辨率人体姿态估计。
高速人体动作往往包含大量瞬时变化,传统 RGB 相机受帧率限制,光学动捕系统成本较高,IMU 又容易出现漂移,因此单纯依靠低帧率视频插值很难真实还原运动细节。
论文地址:https://arxiv.org/pdf/2603.19770v1针对这一问题,论文构建了 FlashCap 这一低成本高频动捕系统,将闪烁 LED 标记点 与 事件相机 结合起来:人体关键部位的 LED 以不同频率闪烁,事件相机异步捕捉亮度变化,再通过事件聚类、频率识别、异常过滤和 LED 匹配,自动生成 1000 Hz 的 2D 人体关键点标签。
基于这一采集系统,作者进一步构建了 FlashMotion 数据集,包含事件、RGB、LiDAR 和 IMU 四种模态,共 240 段序列、约 7.15M 个标注帧、20 名志愿者和多类高速动作,同时提供 1000 Hz 的 2D 标签与 60 Hz 的 3D SMPL 标签。
它的价值不只是数据规模更大,而是从采集端直接获得毫秒级标注,从根本上避免了低帧率视频插值对高速动作细节的遗漏。论文还设计了 ResPose 基线方法,以 RGB 姿态作为稳定的结构先验,再利用事件流学习毫秒级 residual pose,使模型能够在精确运动计时和高时间分辨率姿态估计任务上优于 ViTPose、Hybrid ANN-SNN、LEIR 以及插值类方法。雷峰网(公众号:雷峰网)
整体来看,这篇论文建立了从硬件系统、自动标注、数据集构建到算法基线的完整闭环,为体育动作分析、快速人体运动理解和机器人模仿学习等需要毫秒级姿态信息的场景提供了新的数据和方法基础。

从物体姿态和人体运动进一步扩展到完整场景,《SceneMaker: Open-set 3D Scene Generation with Decoupled De-occlusion and Pose Estimation Model》讨论的是如何从单张图像中恢复开放世界中的 3D 场景。
论文由清华大学、香港科技大学、IDEA Research 和 LightIllusions 完成,研究任务是 开放集单图 3D 场景生成,也就是从一张包含多个物体的普通场景图像中,生成几何完整、物体姿态合理、空间关系一致的 3D 场景。
现有方法往往试图从图像端到端生成整个场景,但在严重遮挡、未知物体类别和复杂物体关系下,容易出现形状缺失、姿态漂移和布局不稳定等问题。
论文地址:https://arxiv.org/pdf/2512.10957v1SceneMaker 的思路是把这个复杂问题拆解成 去遮挡、物体级 3D 生成和姿态估计三个相对清晰的阶段:首先利用 Grounded-SAM 和 MoGe 获取物体 mask、深度和点云信息,形成对场景结构的初步理解;
随后通过独立训练的去遮挡模型补全被遮挡物体,为后续 image-to-3D 模型提供更完整的物体输入;最后再使用扩散式姿态估计模型统一预测每个物体的旋转、平移和尺寸,并将多个物体组合成完整场景。
这样的解耦设计避免了把遮挡补全、几何生成和空间布局全部压进一个黑箱模型中,使不同模块能够分别处理更明确的问题。
与此同时,作者利用 Objaverse 中的大规模高质量 3D 物体构建开放集合成场景,增强模型对未见物体、复杂遮挡和真实图像的泛化能力。
实验结果显示,SceneMaker 在 MIDI、3D-Front 和开放集测试场景上优于 MIDI3D、PartCrafter 等方法,说明它不仅能够生成更完整的物体几何,也能得到更稳定、更合理的场景级空间布局。

除了以上的从物体、人体和场景层面强化了视觉系统对三维空间的理解外,《Seeing without Pixels: Perception from Camera Trajectories》则进一步提出了一个更反直觉的视角:即使不看视频像素,只分析相机在空间中的运动轨迹,也可能理解视频内容。
这篇论文由 Google DeepMind 和德克萨斯大学奥斯汀分校完成,核心观点是相机轨迹并不只是 3D 重建或 SLAM 中的几何中间量,它本身也包含语义信息。
论文地址:https://arxiv.org/pdf/2511.21681v2拍摄者如何移动、镜头如何转向、相机如何跟随目标或围绕场景运动,往往都反映了视频中的动作和事件。例如,在第一人称视角中,走路、攀岩、落地等动作会形成不同的相机位移和旋转模式;雷峰网
在第三人称视角中,围绕场景拍摄或跟随运动目标也会留下具有语义指向的轨迹特征。基于这一观察,论文构建了 CamFormer 这一轻量级 Transformer 轨迹编码器,将一段相机 pose 序列表示为相对位移和旋转,并通过对比学习把轨迹嵌入与自然语言描述对齐。
为了缓解短轨迹片段语义稀疏、容易产生歧义的问题,作者还设计了 contextualized trajectory encoding,在编码局部动作片段时引入更长时间范围的轨迹上下文。
论文在 Ego-Exo4D、Nymeria、DynPose-100K、UCF101 和 FineGym 等数据集上验证了相机轨迹作为独立模态的价值,覆盖文本检索、动作 / 活动分类、关键步骤识别、时间定位和重复动作分析等任务。
结果表明,在身体运动明显或视觉线索不充分的场景中,轨迹特征甚至可以超过更重的视频模型;而在视觉信息更强的流程性动作中,它也可以作为补充模态与视频特征融合,进一步提升理解效果。
整体来看,这篇论文的意义不在于提出一个更复杂的视频视觉模型,而在于证明 “相机怎么动”本身就是一种可学习、低成本、可从普通视频估计出来的语义信号,为视频理解提供了除 RGB、音频和 IMU 之外的新模态视角。

