要點:
Figure AI通過其創新的Helix系統,將人形機器人從汽車制造領域擴展至物流行業,推動機器人在勞動力市場中的應用,逐步改變未來工作方式。
在科技不斷進步中,人形機器人領域始終備受矚目,而將人形機器人引入勞動市場是美國機器人創業公司“Figure AI”的使命核心。
去年8月,Figure發布人形機器人Figure 02,并在寶馬/BMW汽車的流水線上從事汽車裝配的工作。短短半年時間,如今搭載自研機器人大模型Helix系統1(S1)的Figure已經將人形機器人從汽車領域進軍物流領域應用。隨着Helix的不斷創新與突破,人形機器人與人類“搶飯碗”的速度也日益推進,或將成為推動機器人智能化進程的重要里程碑。
Figure人形機器人新應用:物流包裹操作和分類
2月26日,Figure公司發布了一段短視頻,宣布其機器人已成功掌握了新的工作技能:在物流中心進行快遞包裹的整理和分類。
包裹處理和分類是物流行業中的一項基礎作業,通常涉及將包裹從一條傳送帶轉移到另一條傳送帶,并確保運輸標簽方向正確,以便掃描。這個任務面臨着一些重要的挑戰:包裹在尺寸、形狀、重量和剛性上各不相同。此外,從剛性盒子到可變形的袋子都有,這使得模擬過程變得更加復雜。
據Figure發布的視頻顯示,機器人能夠識別、抓取并按邏輯擺放快遞包裹。雖然與高效的人類分揀工相比,機器人的效率尚有差距。但公司目前宣布,上周日已在客戶現場成功驗證了這一機器人流程的可行性。Figure對此表示,通過端側的視頻流,機載的Helix AI模型將幫助機器人識別并掃描包裹上的條形碼。
系統需要精准判斷何時以及如何抓取移動中的物體,并在重新定位包裹時確保標簽朝向正確。同時,它還需要跟蹤傳送帶上大量包裹的動態流動,以保持高吞吐量。由於環境無法完全預測,系統必須具備自我修正的能力。解決這些挑戰不僅是Figure業務的關鍵應用,也為Helix System 1帶來了通用的技朮提升,其他所有應用場景也能從中受益。



自研機器人大模型:Helix系統1(S1)的架構改進
Helix是Figure內部設計的視覺-語言-動作/VLA模型,它將感知、語言理解和學習控制統一起來,旨在整合感知、語言理解和學習控制,從而解決機器人技朮領域長期以來的多個挑戰。
Helix的主要創新點在於其端到端的控制能力,這意味着機器人可以在接收到任務指令后,自動進行規划和執行,而無需經過繁雜的分層模型流程。這一過程的簡化,不僅提高了機器人的響應速度,也使得其在復雜環境中的適應性和自我修正能力顯著增強。
而此次Figure在物流應用場景的突破,重點放在對Helix的系統1(S1),即低階視覺運動控制策略所做的一系列總體改進,同時對這個具有挑戰性的新商業用例進行了迭代:
視覺表現 - Figure之前的系統1依賴於單目視覺輸入,而現在的新系統1釆用了立體視覺主干,并結合多尺度特徵提取網絡,以捕捉更丰富的空間層次。與單獨處理每個攝像頭輸入的影像特徵不同,Figure將來自兩個攝像頭的特徵合并到多尺度立體網絡中,之后進行標記,這樣不僅避免了計算開銷,還保持了輸入到交叉注意力轉換器的視覺標記總數不變。多尺度特徵讓系統能夠解讀細節和更廣泛的上下文信息,共同促進了更可靠的視覺控制。

交叉機器人傳送 - 在多機器人部署單一策略時,需要克服由於機器人硬件差異帶來的觀察與行動空間分布變化問題。這些差異包括傳感器校准的不同(影響輸入觀察)和聯合響應特性(影響動作執行),如果沒有適當的補償,可能會影響策略性能。特別是在高維度的全身動作空間中,傳統的手動機器人校准方法無法擴展到整個機器人群體。
因此,Figure訓練了視覺本體感知模型,根據每個機器人的機載視覺輸入,估計末端執行器的6D姿勢。通過這種在線“自我校准”方法,Figure實現了強大的跨機器人策略遷移,并最大限度地減少了停機時間。
數據管理 - 在數據管理方面,Figure特別注重篩選人類演示,排除那些速度較慢、失誤或失敗的演示。然而,對於那些因環境隨機性而非操作員錯誤造成的故障,Figure故意保留了包含糾正行為的演示。與遠程操作員的緊密合作,不僅改進了操作策略,還使得策略得以統一,從而帶來了顯著的進步。
推理時間操作加速 - Figure的系統目標是達到并最終超越人類操控速度。為此,Figure釆用了一種簡單有效的測試時間技朮,使得機器人學習行為比演示者更快:通過插入策略動作區塊輸出(我們稱之為“運動模式”)。Figure的S1策略輸出動作“塊”,代表每秒200次的機器動作。例如,通過將[T x action_dim]的動作塊(代表T毫秒軌跡)線性重新釆樣為更短的[0.8 * T x action_dim]軌跡,從而實現了約20%的測試時間加速,且無需修改訓練過程。
Figure機器人技朮
Figure使用標準化有效吞吐量* T_eff 來衡量系統的效能,它表示與訓練的演示資料相比,包裹的處理速度有多快。如果有必要,這會考慮重置系統所花費的任何時間。舉例來說,T_eff > 1.1 表示操作速度比訓練時收集的專家軌跡快 10%。
立體聲的重要性 - 圖 2(a)顯示了添加多尺度特徵提取器以及立體聲輸入對系統 T_eff 的影響。多尺度特徵提取以及隱式立體聲輸入都顯著提高了系統性能。特別值得注意的是,在添加立體模型後,對各種封裝尺寸的穩健性得到了提高:如圖 2 (a) 所示,立體模型的吞吐量相對於非立體基線提高了 60%。

此外,配備立體模型的 S1 模型将会指导机器人寻找并扫描快递上的条形码,甚至在处理信封类包裹时,可对包裹进行翻转及压平。
質勝於數量 - 對於單一用例,資料品質和一致性比資料數量更重要。圖 2 (b) 顯示,使用精選的高品質演示訓練的模型,儘管使用的資料減少了 ⅓,但吞吐量卻提高了 40%。
運動模式 - 透過線性重採樣(「運動模式」)加速策略執行的效果令人驚訝,速度最高可提高 50% 。這很可能是由於動作輸出區塊的高時間解析度(200Hz)而實現的。然而,當加速超過 50% 時,有效吞吐量開始大幅下降,因為動作變得太不精確且系統需要頻繁重置。圖 3 顯示,與訓練專家軌跡相比,速度提高 50% 後,策略實現了更快的物體處理速度(T_eff>1)。

跨機器人傳送 - 最後,透過利用學習到的校準和視覺本體感受模組,我們能夠將最初針對單一機器人的資料進行訓練的相同策略應用於多個其他機器人。儘管感測器校準存在差異且硬體差異很小,但係統在所有平台上都保持了相當的操控性能水準。這種一致性強調了學習校準在減輕協變量變化方面的有效性,有效地減少了對每個機器人進行繁瑣的重新校準的需要,並使大規模部署更加實用。
結論 - Figure展示瞭如何利用高品質的資料集與立體多尺度視覺、線上校準和測試時間加速等架構改進,在現實世界的物流分類場景中實現比演示者更快的靈巧機器人操作——同時使用相對適量的演示資料。結果凸顯了將端到端視覺運動策略擴展到速度和精確度至關重要的複雜工業應用的潛力。

Figure機器人:技朮革新推動智能化未來
從技朮角度來看,Helix通過一個單一的神經網絡實現了對機器人全身的控制,涵蓋了手腕、頭部、手指等多個關鍵部位。借助機器學習和深度學習算法的統一控制,Helix使得機器人能夠更智能地識別和處理各類物體,無論是靜態物體(如雞蛋),還是動態物體(如活動中的仙人掌),都能高效完成任務。這一技朮突破使Helix在學習和執行新行為的效率上遠超傳統控制模型,尤其在處理復雜任務時展現了強大的協作能力。
Figure創始人兼CEO Brett Adcock曾對此公開表示,“我們相信,要在現實世界中大規模解決實體人工智能的問題,必須對機器人人工智能進行垂直整合。”這一觀點不僅揭示了Figure與OpenAI戰略分歧的根源,也反映了其對未來機器人產業發展的戰略思考。這一趨勢將加速各行業對機器人的需求,特別是在服務業、制造業和日常生活場景中。
Helix的商業可行性受關注
Figure公司表示,Helix能夠在低能耗的嵌入式GPU上順利運行,這意味着其產品可以迅速投入到實際商業部署中。這一特點將為不同企業提供更多實用場景,尤其是在需要大量重復性操作的環境中,如倉儲和物流行業。
而在市場反應方面,Figure已與多家國內核心零部件企業達成合作,包括提供模切結搆件和金屬結搆件的領益智造,以及長盈精密和兆威機電等。通過這些合作,Helix技朮將加速成熟與普及,為其在全球市場的立足打下堅實基礎。
隨着技朮不斷推動機器人領域的發展,Figure AI所推出的Helix控制模型不僅代表了機器人工業的突破,更象徵着我們對智能化未來的探索與追求。人形機器人不再是科幻中的想象,而正逐步走入我們的生活與工作場景,改變着傳統產業的運作方式。從服務業到制造業,再到日常生活中的各個領域,機器人的普及將有效提升工作效率,推動社會的智能化轉型,并逐步和人類在“搶飯碗”。
在這一過程中,Figure公司通過不斷創新,強化機器人與人類協作的能力,正在為未來科技的發展奠定重要基礎。隨着更多智能化、可持續的解決方案不斷涌現,我們有理由相信,機器人技朮將成為推動社會進步和產業升級的關鍵力量。