[RO]《Towards Human-Like Manipulation through RL-Augmented Teleoperation and Mixture-of-Dexterous-Experts VLA》T Tang, X Ji, W Xing, C Hao… [Shanghai Jiao Tong University & Sharpa] (2026)
在灵巧操作领域,让机器人像人手一样执行"削苹果"这类接触密集型任务,是一个悬而未决的难题。现有 VLA 模型受困于低自由度夹爪范式,本质原因是:63 自由度双臂系统的遥操作数据采集几乎超出人类上限,力觉/触觉模态与视觉语言表征存在物理语义鸿沟,单一策略无力跨越从抓取到手内操作的技能断层。
本文的核心洞见是:把"手内旋转"这一人类难以示教的技能,重新看作可被 RL 预训练并按需调用的原子原语。由此,IMCopilot 在采集阶段由脚踏板触发替代操作员完成难操作段,在推理阶段由 VLA 输出触发信号直接接管手部控制;同时,MoDE 模块将臂力矩与指尖触觉分别路由至专属稀疏专家,以残差注入方式叠加在预训练骨干之上,使接触感知修正不污染已有知识。
这项工作真正留下的遗产是:首次证明分层共享自主框架能将 VLA 能力边界从简单抓放推进至连续手内操作,以苹果削皮为标志任务实现了平均成功率相对基线翻倍。它为后来者打开的新门是——力触觉模态的残差注入范式可推广至更多高自由度灵巧手场景;但尚未跨过的门槛是:RL 技能库仍需人工预定义原子动作,面对开放式新任务时的自动技能发现机制尚付阙如。
arxiv.org/abs/2603.08122
机器学习 人工智能 论文 AI创造营




