要点:
对人类来说,削苹果是件轻而易举的晨间小事,但对机器人而言,这是双手协调能力的「终极挑战」。
削苹果需要一只手保持稳定的抓握并旋转苹果,另一只手则要精准地控制刀片的力度——同时还要不断处理触觉反馈,以防止苹果滑落或刀片削得太深。
Sharpa夏帕机器人公司发布了一项研究,详细阐述了如何弥补这一差距。该公司将名为MoDE-VLA的新型人工智慧架构与共享自主「副驾驶」系统相结合,展示了其声称的首个自主双灵巧手苹果削皮序列。这项突破性进展推动了视觉-语言-动作(VLA)模型的发展,该模型以往仅限于使用低自由度机械手臂执行简单的「抓取和放置」任务。
在机器人操作领域,视觉-语言-动作(VLA)模型取得了令人瞩目的进步。我们已经看到机器人能够轻松地拾取玩具和整理衣物。然而,这些成功大多局限于使用基本平行爪夹持器的简单「抓取和放置」任务。
对于类似人类的双手灵巧操作——例如削苹果皮这类需要不断手部旋转和精确力度控制的任务——传统的VLA 模型经常会遇到瓶颈。
一篇题为「透过强化学习增强远端操作和混合灵巧专家虚拟雷射辅助系统实现类人操作」的新研究论文提出了一个突破性的框架来解决这个问题。该团队将用于复杂手指动作的「副驾驶」与用于感觉融合的新型「混合专家」架构相结合,实现了可能是首个自主双灵巧手削苹果的操作。
挑战:为什么苹果要削皮这么难?
削苹果皮不只是挥动刀子那么简单,它需要一系列动作的配合:
- 资料瓶颈:远端操控两只总共有63 个自由度(DoF) 的手对于人类操作员来说简直是一场噩梦。
- 多元技能学习:机器人必须在视觉引导的抓取、力量引导的切割和触觉引导的手内旋转之间进行转换。
- 模态异质性:简单地将力和触觉资料「插入」到用影像训练的模型中,往往会使机器人感到困惑,而不是帮助它。
解决方案:双管齐下的框架
研究人员透过两个协同组件解决了这些瓶颈问题: IMCopilot和MoDE-VLA 。
1. IMCopilot:您的掌上操控助手
训练机器人进行类似人类的操作,最大的障碍在于资料。人类可以轻松远端操控简单的机械爪,但要控制夏普公司(Sharpa)的夏普北( SharpaNorth )机器人(配备两只夏普波机械手)的63个自由度,即使对经验丰富的操作员来说,也是一项认知负荷巨大的任务。
为了解决这个问题,夏帕公司推出了IMCopilot(手部操作辅助系统)。在资料撷取阶段,系统以共享自主模式运作:操作员使用外骨骼控制机器手臂的「粗略」运动,但透过脚踏板将「精细」的手部旋转操作委托给人工智慧。
IMCopilot(手部操作辅助系统)是一套透过强化学习(RL)训练的原子技能。它具有双重作用:
- 资料采集期间:它充当共享自主助手。操作人员透过外骨骼控制「大」臂的运动,同时透过脚踏板触发IMCopilot 来处理苹果复杂的手持旋转动作。
- 执行过程中:它成为主VLA 模型在需要旋转或稳定物体时可以呼叫的「低阶技能」。
2. ModE-VLA:灵巧专家混合模型

为了应对力和触觉数据的“感官过载”,该团队开发了MoDE-VLA 。与将所有数据一视同仁的传统模型不同,MoDE-VLA 采用混合专家(MoE)方法:
- 专用路径:力(手臂扭力)和触觉(指尖压力)资料与视觉资料分开处理。
- 稀疏路由:此模型动态地将资讯「路由」给各领域的专家。例如,当削皮器接触到苹果皮的瞬间,它可能会立即启动一位「接触发病率专家」。
- 残余注入:这些专家不会涵盖机器人已有的知识;他们会根据即时触控提供「修正」或改进操作。
它真的有效吗?
结果不言而喻。研究人员在四项难度递增的任务上测试了这个框架:齿轮组装、充电器插拔、管子重新排列和苹果削皮。
- 更高的成功率:在接触丰富的任务中,MoDE-VLA 的成功率比基准模型高出一倍。
- 苹果测试:在苹果剥皮的终极测试中,该框架实现了73% 的剥皮完成率,成功执行了重复的剥皮和旋转循环。
- 精准度:在诸如插拔充电器这类任务中,几毫米的误差就会造成影响,而这些经过专业训练的专家提供了必要的“配合”,从而在仅凭视觉的模型无法完成的任务中取得了成功。
SharpaWave的优势
SharpaWave 22自由度灵巧手凭借其整合的感测功能和分层控制框架,在执行高精度、高接触操作方面表现出色。其主要优点在于将来自十个指尖的6自由度力回馈和触觉回馈与视觉-语言-动作(VLA)主干系统无缝融合,使机器人能够在诸如齿轮组装和苹果削皮等精细任务中检测到细微的接触状态,例如滑动或阻力。
透过使用IMCopilot套件,SharpaWave 可以将复杂的低级手指协调(特别是手内物体旋转)委托给经过强化学习训练的原子技能,从而显著克服了传统远程操作的“数据采集瓶颈”,并使操控苹果等复杂物体的成功率达到93%。最终,该机械手在MoDE-VLA演算法下的运行能力实现了“接触感知优化”,即专家可以根据物理交互动态调整动作,使灵巧任务的成功率比标准基线提高了一倍。
这项研究使我们离不仅能「看到」世界,还能「感受到」世界的机器人又更近了一步。透过将复杂、高频的手指运动委托给专门的“副驾驶”,并利用专家来解读触觉,虽然苹果削皮的成功率只有30%,还有提升的空间,但「削皮完成率」达到了73%,这表明即使机器人无法每次都成功完成任务,它也能持续完成复杂的序列。 Sharpa正在为能够像人类一样灵巧地完成复杂家务和工业装配的机器人铺平道路。