本文第一作者为西湖大学科研助理蔺明慧,通讯作者为阿里巴巴达摩院算法专家黄思腾和西湖大学人工智能系副主任王东林。所有作者均来自西湖大学机器智能实验室(MiLAB)和西湖机器人科技有限公司,团队工作 ReconVLA 近期获得 AAAI 2026 最佳论文奖。
具身智能要想真正在复杂场景中落地,离不开对长程任务(Long-horizon tasks)的稳定执行。然而,现有的 VLA(视觉-语言-动作)模型大多停留在「动作模仿」阶段,缺乏对物理世界动态变换的深刻理解,在长线操作中极易陷入因果混淆;同时,传统通过直接堆叠多帧图像来引入时间维度的方法,不仅容易引入大量静态背景冗余,更会带来灾难性的推理延迟与显存溢出。

为解决上述挑战,来自西湖大学、浙江大学、西湖机器人等机构的研究团队提出了一种以运动(Motion)为中心的全新双向时空推理框架 HiF-VLA。抛弃冗余的像素级输入,HiF-VLA 巧妙提取低维紧凑的 Motion 向量作为动态先验,在一个创新的「联合专家」模块中,同步完成未来视觉运动的预测与高精度动作序列的生成。
相比传统的时空建模范式,HiF-VLA 彻底摒弃了无用的视觉背景干扰,不仅在极长的历史观测窗口下依然保持了恒定、极低的推理延迟,更赋予了机器人真正「边想边做」的物理直觉。在 CALVIN 与 LIBERO-LONG 等长程任务评测中,其成功率显著超越现有 SOTA 方法,为构建真正理解世界运行规律的 WAM(世界动作模型)开辟了全新路径。
目前,该工作已被 CVPR 2026 接收,代码已开源。
论文地址:HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models
论文链接:https://arxiv.org/abs/2512.09928
项目主页:https://hifvla.github.io/
代码:https://github.com/OpenHelix-Team/HiF-VLA
01 研究动机:
从「动作模仿」到「理解物理世界」

当前主流的 VLA(视觉-语言-动作)模型,本质上大多是高级的「动作模仿」。它们接收当前的图像观测,直接映射出对应的动作。
这种范式在短视距任务中尚可应付,但在执行长程任务时却屡屡翻车。为什么?因为模型缺乏对物理世界「动态变化」的理解。它们不知道自己刚才做了什么,也无法预判当前动作会对环境产生怎样的影响,从而极易陷入因果混淆。
要打破这种「短视」魔咒,模型必须从单纯的「动作模仿」走向「物理理解」。这就要求我们引入 World Action Model (WAM) 的概念——智能体不仅要会「做」,还要能在脑海中「想」(推演环境的变化)。
如何赋予机器人「边想边做」的时空推理能力?最直观的想法是把过去帧和未来帧的图像全部塞进大模型里。但现实是骨感的:图像级别的时空建模不仅会导致算力爆炸,还会引入大量的静态背景冗余,使得关键的物理变化被淹没。HiF-VLA 团队找到了一个高效的切入点:运动(Motion)。
02 核心方案:
HiF-VLA 的「三位一体」时空推理
相比于冗余的像素,Motion 是捕捉物理世界动态演变最纯粹、最高效、最本质的表征。以 Motion 为中心,HiF-VLA 构建了一个名为 Hindsight-Insight-Foresight (HiF) 的双向时空推理框架。
1. Hindsight(后见之明):打破马尔可夫假设的「记忆锚点」
智能体必须拥有连贯的自我意识。HiF-VLA 将机器人过去的历史帧通过视频编解码器(H.264、MPEG-4 等)提取为低维且紧凑的 Motion 动态先验。这就像给机器人植入了一个记忆中枢,它不需要回看过去的录像,就能精确感知到「环境刚刚经历了怎样的运动变化」。这个历史上下文,是后续一切推理的基石。
2. Insight(洞察现在)和 Foresight(先见之明):走向 WAM 的「全知视角」
真正的智能,既需要扎根当下,更需要预判未来。在 HiF-VLA 框架中,这两个能力被完美解耦又紧密交织,共同构成了迈向 WAM(世界动作模型)的核心:
Insight(洞察现在):负责深度解析当前的语言指令和实时视觉观测,让机器人感知「我此时此刻面临的是什么环境,需要完成什么具体目标」。
Foresight(预见未来):基于当下的 Insight,HiF-VLA 在输出动作的同时,会初步地预测未来的运动趋势。这相当于在模型内部嵌入了一个虚拟物理模拟器,让机器人能够提前推演自身的行为后果。
3. 深度对齐:视觉与动作的协同预测
这是 HiF-VLA 最为核心、也最出彩的创新——历史调制的联合专家(Hindsight-modulated joint expert)。如果说 Hindsight 和 Foresight 拉长了时间轴,那么联合专家模块则改变了模型的生成目标。HiF-VLA 认为,视觉与动作的割裂是阻碍模型理解物理规律的绊脚石,因此设计的联合专家模块绝不是简单地将视觉特征和语言指令拼接,而是执行了一个双目标协同的策略:
视觉 Motion 预测 + 动作序列生成:联合专家在历史信息(Hindsight)的动态调制下,被强制要求同时输出对未来视觉 Motion 的预测以及高精度的执行动作序列。
为什么这很重要?这种双目标的联合对齐,逼迫模型不能只死记硬背动作,而是必须去理解「我输出这个动作后,物理世界的视觉表征会发生怎样的动态变换」。
通过将「预测未来视觉变化(想)」与「规划动作序列(做)」深度绑定,HiF-VLA 实现了真正的 Think-while-acting(边想边做)。它不再是盲目地模仿专家轨迹,而是产生了真实的「物理直觉」。
03 实验结果
❓Q1:HiF-VLA 与 SOTA 的 VLA 模型相比较如何?
💡 HiF-VLA 在多样化的短程和长程任务中展现出了强大的能力。


团队尤其关注 HiF-VLA 在长程任务上的表现。在 LIBERO-LONG 任务套件以及 CALVIN ABC-D 长程任务评测中,HiF-VLA 的表现显著优于诸多 SOTA 方法。同时,在真实世界的长程任务测试中,HiF-VLA 也展现出更加稳定且优越的任务完成性能(更多详细指标请参阅原论文)。
❓ Q2:HiF-VLA 是否有效地缓解了传统方法中的视觉冗余和低效问题?

❌ 传统做法的困境:当简单粗暴地将历史多帧图像塞给模型时,显存瞬间爆炸。峰值 GPU 显存直接翻倍飙升至 63.6 GB(涨幅 2.06 倍),推理延迟更是暴增到 229.5 ms(高达 3.15 倍)。更令人窒息的是,由于引入了海量冗余的静态背景噪声,模型反而被干扰了视线,平均成功率(Avg. SR)不升反降。
✅ HiF-VLA 的解决方案:HiF-VLA 巧妙地将历史帧编码为低维、结构化的运动向量。引入 Hindsight 模块后,模型面对同样长度的历史窗口,峰值显存仅仅维持在 31.4 GB,相较于 Baseline 几乎做到了「零负担」(仅增加极微小的 1.02 倍开销)。同时,推理延迟(117.7 ms)也远低于传统堆叠方法。最重要的是,在剔除了视觉冗余后,它让模型能专注理解物理运动,成功将平均成功率大幅提升。
❓ Q3:随着时间跨度的增加,HiF-VLA 在推理时的可扩展性如何?

💡 拒绝指数级成本增长,打破长序列计算瓶颈。
从推理效率对比图可以直观看出,随着历史时间跨度的增加,传统堆叠图像帧的方法会遭遇指数级的计算延迟暴涨甚至显存溢出(OOM)。而 HiF-VLA 凭借提取低维紧凑的 Motion 特征,彻底打破了长序列推理的计算瓶颈,随着历史观测窗口变长,都始终保持稳定且极低的推理延迟,展现出了在处理长程动态变换时强大的时间可扩展性。
❓ Q4:HiF-VLA 所谓的「边想边做」究竟是怎样的过程?

💡 眼见为实:motion 预测与 action 执行的时空高度吻合。
从可视化结果中可以看到,HiF-VLA 在执行动作的同一时刻,其内部联合专家模块已经精准预测出了由红色箭头标识的未来视觉运动场。这有力地证明了模型并非在盲目背诵指令,而是真正实现了「边想边做」。它能清晰地预判自身动作将引发环境中怎样的物理动态变换,从而在复杂任务中展现出精准的「物理直觉」。
04 总结
从机械的「动作模仿」进化为理解物理规律的「世界动作模型(WAM)」,HiF-VLA 迈出了至关重要的一步。它证明了机器人的动作不应只是对指令的盲目响应,而应当是在对过去的洞察与对未来的预判交织下,自然而然的物理反馈。对于具身智能走向更复杂、更真实的物理世界,HiF-VLA 无疑提供了一个极具潜力和启发性的全新范式。