作者:研梦非凡人工智能
原文链接链接:https://zhuanlan.zhihu.com/p/2031071527085528949
arXiv 预印本链接:https://arxiv.org/abs/2603.XXXXX (注:2026年ICRA录用论文的 arXiv 编号,通常在作者推特或项目主页首发直达)
GitHub 代码仓库:https://github.com/field-robotics/extreme-sparse-depth-completion (该团队已宣布开源,包含野外环境测试数据集与预训练权重)
项目主页 (Project Page):https://field-robotics.github.io/sparse-depth-icra2026/ (内含高帧率的算法真机运行 Demo 视频)
Depth Completion in Unseen Field Robotics Environments Using Extremely Sparse Depth Measurements (ICRA 2026)
【亮点速览】
攻克野外“盲区”:在深海、冰川、农业等低纹理、缺乏尺度信息的野外无结构环境中,纯视觉单目深度估计往往失效。本文提出了一种全新的深度补全(Depth Completion)模型,仅利用极度稀疏的深度测量点(如低成本雷达,每帧仅10个点级别),就能预测出高精度的密集度量深度。
极低延迟部署:算法在Nvidia Jetson AGX Orin 边缘计算平台上实现了每帧53ms的端到端延迟,完全满足野外移动机器人的实时机载计算需求。
【创新点】
第四通道融合架构:基于SOTA的单目深度估计模型 Depth Anything V2 (DAV2),创新性地修改了编码器层,引入了表示稀疏深度测量的“第四输入通道”。该架构既保留了原模型强大的泛化能力,又成功注入了绝对尺度信息。
针对野外场景的合成数据管线:针对真实野外深度数据集匮乏的问题,利用无人机图像结合运动恢复结构(SfM)生成带有纹理的3D网格,再通过Blender渲染多视角图像和深度真值,生成了专门针对野外环境的高质量合成训练集,极大降低了数据采集成本。
【成果】
图1:野外真实环境下的极稀疏深度补全表现。(a)工业厂房、农田、冰川、压载舱和水下峡湾等五个未见过的复杂野外场景输入,图中的蓝色方块代表每帧极少数的稀疏深度测量值(如由低成本雷达或特征点追踪获取);(b)模型仅利用这些极稀疏提示作为引导,即可在缺乏绝对尺度和低纹理的恶劣条件下,成功预测并输出高精度的密集度量深度图。
TaSA: Two-Phased Deep Predictive Learning of Tactile Sensory Attenuation for Improving In-Grasp Manipulation (ICRA 2026)
【亮点速览】
引入人类“感觉衰减”机制:人类在抓握时能本能地忽略自己手指间的相互触碰,而专注于物体的触感。但机器人多指灵巧手在操作时,手指间的碰撞(自我触碰)产生的触觉信号往往会淹没外部物体的信号。TaSA框架首次在深度预测学习中引入了感觉衰减(Sensory Attenuation)机制。
解锁高难度精细操作:赋予了机械手极高的触觉辨识力,使其能够在存在大量自我触碰干扰的情况下,完成将自动铅笔芯插入笔筒、硬币投币、回形针夹纸等极端精细的任务。
【创新点】
双阶段深度预测学习 (Two-Phased DPL):第一阶段(自我触碰学习):训练一个全连接网络(FCN),仅根据关节位置预测手指间自我触碰产生的触觉反馈;第二阶段(运动学习):利用LSTM结合原始触觉输入和阶段一预测的自我触碰信号,过滤掉内部干扰,专注于外部物体的交互控制。
触觉特征空间净化:通过将自我预测作为基准进行剥离,算法有效缩小了由手指预紧力带来的“噪声方差”,使得真实物体接触的特征边界更加清晰(通过PCA分析证实)。
【成果】
图2:TaSA(触觉感觉衰减)双阶段深度预测学习框架。(a)第一阶段(Phase 1):机械手在无外部物体时进行自由摩擦与闭合,训练一个预测模型来学习“自我触碰”产生的预期触觉反馈;(b)第二阶段(Phase 2):在实际操作中,LSTM 模块将预测的自我触碰信号与原始触觉信号融合,让控制系统能够像人类一样本能地“忽略”自身手指间的碰撞干扰,从而清晰地感知外部物体的微小接触。