要點:
對人類來說,削蘋果是件輕而易舉的晨間小事,但對機器人而言,這是雙手協調能力的「終極挑戰」。
削蘋果需要一隻手保持穩定的抓握並旋轉蘋果,另一隻手則要精準地控製刀片的力度——同時還要不斷處理觸覺反饋,以防止蘋果滑落或刀片削得太深。
Sharpa夏帕機器人公司發布了一項研究,詳細闡述瞭如何彌補這一差距。該公司將名為MoDE-VLA的新型人工智慧架構與共享自主「副駕駛」系統相結合,展示了其聲稱的首個自主雙靈巧手蘋果削皮序列。這項突破性進展推動了視覺-語言-動作(VLA)模型的發展,該模型以往僅限於使用低自由度機械手臂執行簡單的「抓取和放置」任務。
在機器人操作領域,視覺-語言-動作(VLA)模型取得了令人矚目的進步。我們已經看到機器人能夠輕鬆地拾取玩具和整理衣物。然而,這些成功大多局限於使用基本平行爪夾持器的簡單「抓取和放置」任務。
對於 類似人類的雙手靈巧操作——例如削蘋果皮這類需要不斷手部旋轉和精確力度控制的任務——傳統的 VLA 模型經常會遇到瓶頸。
一篇題為「透過強化學習增強遠端操作和混合靈巧專家虛擬雷射輔助系統實現類人操作」的新研究論文提出了一個突破性的框架來解決這個問題。該團隊將用於複雜手指動作的「副駕駛」與用於感覺融合的新型「混合專家」架構相結合,實現了可能是首個自主雙靈巧手削蘋果的操作。
挑戰:為什麼蘋果要削皮這麼難?
削蘋果皮不只是揮動刀子那麼簡單,它需要一系列動作的配合:
- 資料瓶頸:遠端操控兩隻總共有63 個自由度 (DoF) 的手對於人類操作員來說簡直是一場噩夢。
- 多元技能學習:機器人必須在視覺引導的抓取、力量引導的切割和觸覺引導的手內旋轉之間進行轉換。
- 模態異質性:簡單地將力和觸覺資料「插入」到用影像訓練的模型中,往往會使機器人感到困惑,而不是幫助它。
解決方案:雙管齊下的框架
研究人員透過兩個協同組件解決了這些瓶頸問題:IMCopilot和MoDE-VLA。
1. IMCopilot:您的掌上操控助手
訓練機器人進行類似人類的操作,最大的障礙在於資料。人類可以輕鬆遠端操控簡單的機械爪,但要控制夏普公司(Sharpa)的夏普北( SharpaNorth )機器人(配備兩隻夏普波機械手)的63個自由度,即使對經驗豐富的操作員來說,也是一項認知負荷巨大的任務。
為了解決這個問題,夏帕公司推出了IMCopilot(手部操作輔助系統)。在資料擷取階段,系統以共享自主模式運作:操作員使用外骨骼控制機器手臂的「粗略」運動,但透過腳踏板將「精細」的手部旋轉操作委託給人工智慧。
IMCopilot(手部操作輔助系統)是一套透過強化學習(RL)訓練的原子技能。它具有雙重作用:
- 資料採集期間:它充當共享自主助手。操作人員透過外骨骼控制「大」臂的運動,同時透過腳踏板觸發 IMCopilot 來處理蘋果複雜的手持旋轉動作。
- 執行過程中:它成為主 VLA 模型在需要旋轉或穩定物體時可以呼叫的「低階技能」。
2. ModE-VLA:靈巧專家混合模型

為了應對力和觸覺數據的“感官過載”,該團隊開發了MoDE-VLA。與將所有數據一視同仁的傳統模型不同,MoDE-VLA 採用混合專家 (MoE)方法:
- 專用路徑:力(手臂扭力)和觸覺(指尖壓力)資料與視覺資料分開處理。
- 稀疏路由:此模型動態地將資訊「路由」給各領域的專家。例如,當削皮器接觸到蘋果皮的瞬間,它可能會立即啟動一位「接觸發病率專家」。
- 殘餘注入:這些專家不會涵蓋機器人已有的知識;他們會根據即時觸控提供「修正」或改進操作。
它真的有效嗎?
結果不言而喻。研究人員在四項難度遞增的任務上測試了這個框架:齒輪組裝、充電器插拔、管子重新排列和蘋果削皮。
- 更高的成功率:在接觸豐富的任務中,MoDE-VLA 的成功率比基準模型高出一倍。
- 蘋果測試:在蘋果剝皮的終極測試中,該框架實現了73% 的剝皮完成率,成功執行了重複的剝皮和旋轉循環。
- 精準度:在諸如插拔充電器這類任務中,幾毫米的誤差就會造成影響,而這些經過專業訓練的專家提供了必要的“配合”,從而在僅憑視覺的模型無法完成的任務中取得了成功。
SharpaWave的優勢
SharpaWave 22自由度靈巧手憑藉其整合的感測功能和分層控制框架,在執行高精度、高接觸操作方面表現出色。其主要優點在於將來自十個指尖的6自由度力回饋和觸覺回饋與視覺-語言-動作(VLA)主幹系統無縫融合,使機器人能夠在諸如齒輪組裝和蘋果削皮等精細任務中檢測到細微的接觸狀態,例如滑動或阻力。
透過使用IMCopilot套件,SharpaWave 可以將複雜的低級手指協調(特別是手內物體旋轉)委託給經過強化學習訓練的原子技能,從而顯著克服了傳統遠程操作的“數據採集瓶頸”,並使操控蘋果等複雜物體的成功率達到 93%。最終,該機械手在MoDE-VLA演算法下的運行能力實現了“接觸感知優化”,即專家可以根據物理交互動態調整動作,使靈巧任務的成功率比標準基線提高了一倍。
這項研究使我們離不僅能「看到」世界,還能「感受到」世界的機器人又更近了一步。透過將複雜、高頻的手指運動委託給專門的“副駕駛”,並利用專家來解讀觸覺,雖然蘋果削皮的成功率只有 30%,還有提升的空間,但「削皮完成率」達到了 73%,這表明即使機器人無法每次都成功完成任務,它也能持續完成複雜的序列。Sharpa正在為能夠像人類一樣靈巧地完成複雜家務和工業裝配的機器人鋪平道路。