要點:
隨著人工智能和機器人技術飛速進步,波士頓動力公司通過升級人形機器人Atlas的感知系統,實現了機器人在複雜環境中自主感知與靈活應變的關鍵突破。
隨著人工智能AI與機器人技術的快速發展,“自主性”已成為衡量新一代機器人實用價值的關鍵指標。過去,機器人往往依賴精確預編程完成單一任務,難以應對現實世界中瞬息萬變的環境與突發狀況。然而,若機器人能像人類一樣,主動感知環境、即時調整策略、靈活處理未預期的挑戰,便可真正走出實驗室,進入工廠、倉儲乃至日常生活之中。
波士頓動力公司/Boston Dynamic針對其人形機器人Atlas的感知系統所進行的重大升級,搭載了全新的感知系統,象徵著機器人技術向自主智能邁出關鍵一步。升級後的Atlas不僅能更精確地掌握周遭環境,還具備在工廠等複雜工業場景中獨立完成任務的能力。雖然其靈活動作早已廣受矚目,該公司此次更強調感知能力在實現機器人自主作業中的核心地位。
Boston Dynamic Atlas升級全感知系統
波士頓動力公司在一段雖然敘述簡略但內容豐富的影片中,展示了Atlas如何因應現場環境的持續變化。雖然任務本身看似僅是分類汽車零件,但影片背後的重點在於:開發團隊正致力於讓Atlas不僅能完成預設操作,更能靈活調整策略、主動應對突發情況。
影片中,有員工刻意改變零件架的位置,測試機器人的適應能力。Atlas必須在動態變化的空間中重新評估任務參數,並迅速做出調整。又如另一場景,一個零件被不慎掉落並發出聲響,Atlas雖無法根據聲音進行精準定位,卻能藉由視覺掃描鎖定目標並成功完成拾取與歸位,顯示出其視覺系統與推理能力的進步。
這段展示也深刻體現了莫拉維克悖論:對人類而言簡單的感知與動作協調,對機器人卻極為複雜。而人類難以處理的大量計算,反而是機器的強項。正因如此,Atlas的開發重點之一,是讓其感知系統具備高度靈活性與誤差容忍度。
舉例而言,若零件架的邊距只有五公分,哪怕抓取時偏移一公分,都可能導致任務失敗。因此Atlas必須能在操作過程中即時調整動作,甚至在發生錯誤後,自主進行修正。
而這些能力背後,依賴的是由多個高階技術構成的感知架構:包括高度校準的視覺與運動整合系統、最先進的機器學習模型,以及精確的狀態估計機制。每一個步驟,從辨識物體、判斷其位置與姿態、決定操作策略,到最終精準放置物件,都需仰賴深度的環境理解與即時反應能力。
實際應用中,像Atlas這樣的機器人需在充滿反光、昏暗或擁擠物體的環境中運作,要成功抓取並準確擺放一個零件,其實仰賴的是高度的感知推理能力。針對這些挑戰,波士頓動力開發了一套融合2D與3D感知技術的視覺系統,搭配物體姿態追蹤與視覺-動作的精密校準機制,使Atlas能更靈活、準確地理解與操作現實世界。
2D物件辨識與關鍵點預測技術
感知系統的首要任務,是判斷機器人周遭的環境狀況,例如是否存在障礙物?有哪些目標物件?地面是否潛藏風險?為此,波士頓動力運用2D物體偵測系統,以物件的類別、邊界框與關鍵點等資訊,提供環境的初步解析。
在這項應用中,Atlas必須辨識工廠中用來存放汽車零件的各式大型貨架裝置。這些固定裝置形狀與尺寸各異,機器人需要明確掌握它們的類型與佔據空間,才能有效規避碰撞風險。除了辨識各種貨架外,Atlas還會將它們的角落視為關鍵點,使感知資料能與已知模型準確對齊。
這些固定裝置的關鍵點以2D像素座標呈現,分為兩種類型:外部關鍵點(綠色)和內部關鍵點(紅色)。前者描繪貨架外部的包絡輪廓,例如正面四個角落。後者則更具細節性,對應於貨架內部的架構與小型隔間,幫助系統精準對位每一個物件槽位。
為實現即時的分類與關鍵點預測,Atlas採用一種輕量化的神經網絡架構,在效能與即時反應之間取得最佳平衡。這種設計對於機器人在變化多端的環境中保持靈活性與穩定性至關重要。
利用3D感知應該如何與物體互動
除了以上,為了準確操控固定裝置內的物體,Atlas必須首先判斷自身相對於這些裝置的位置與方向。為此,它運用一套基於關鍵點的定位模組,能夠針對周圍所有貨架裝置進行相對定位與姿態估算。
這個定位系統從物體偵測流程中提取出固定裝置的內外關鍵點,並透過最小化重投影誤差,將這些觀察點與預先建立的空間模型對齊。同時,系統整合了Atlas的運動里程資訊,藉由跨時間的幀一致性,進一步提升關鍵點預測的穩定性與準確度。
在實務操作中,一大挑戰是處理視野受限與關鍵點遮蔽的情況。例如,當Atlas靠近貨架時,部分外部關鍵點可能完全被遮擋;在角度偏斜的視角下,距離較遠的點也變得不可靠。為克服這些限制,系統會大量觀察來自裝置內部、如插槽隔間之間角落等豐富的關鍵點,這些位置與實際的抓取或放置行為密切相關。
這同時也引入另一個挑戰:如何將影像中的二維關鍵點對應到三維空間中的實體角點?Atlas首先利用外部關鍵點估算裝置的大致姿態,再據此推斷內部關鍵點的可能對應關係。內外資訊的結合,則有助於建構出整體裝置與各插槽更為可靠的三維定位結果。
此外,許多固定裝置在外觀上極為相似,這類裝置類在工廠環境中十分常見,也帶來額外的辨識難題。為解決這一點,Atlas融合了時間一致性以及空間先驗知識,例如裝置A位於裝置B的右側50公分處,以此強化辨識的區分能力。
這一整套機制構成了Atlas靈活且穩定的固定裝置感知系統。從影片中可見,當某人悄悄移動Atlas身後的裝置時,機器人能迅速察覺預期與現況的偏差,並立即重新定位該裝置,進而調整行動策略,展現出高度的自主反應能力。
Atlas之所以具備靈活高效的物體操作能力,關鍵在於其快速而精準的以物體為核心的感知系統。這項能力依賴於Atlas的物體姿態追蹤系統SuperTracker,它融合來自運動學、視覺與必要時的力覺等多源資訊,以實現穩定追蹤。
Atlas可透過其關節編碼器提供的運動學資料,精準得知自身夾持器的位置。當其判定已成功抓取物體時,該資訊可作為物體在移動過程中應處位置的強大先驗,有效應對因遮蔽或物體超出視野所帶來的視覺資訊缺失;若物體自手中滑脫,系統亦能即時做出警示。
在物體處於攝影機可視範圍時,Atlas會啟用姿勢估計模型,透過影像渲染與比較的方式,從單目影像中估算物體姿態。該模型經由大量合成資料訓練,能依據CAD模型將零樣本學習推廣至全新物件。初始化姿勢可基於3D先驗或2D區域資訊(如物體遮罩),隨後產生多組假設並由評分模型篩選最佳擬合值,進一步細化輸出。此模型已在我們內部數百種具CAD與紋理資料的工廠資產上證實其穩定性與通用性。
SuperTracker將視覺姿態估計作為三維空間中的初步參考,並搭配一系列驗證與濾波程序來提升可靠性,特別是在面對遮蔽、部分可見或光線變化等挑戰時:
自我一致性驗證 - 從多個擾動初始化出發,並採用最大團共識演算法,確認所有預測收斂至一致的姿態。
運動一致性驗證 - 排除任何導致Atlas手指與物體距離異常大的姿勢,作為物理接觸的合理代理。
非同步數據整合 - 利用固定滯後平滑器處理高速的運動學數據與較低頻率的視覺輸出,最終產生準確的6自由度物體軌跡。
執行如分類、插放等精細操作時,手眼協調的精準性至關重要。這意味著Atlas的視覺感知必須與其動作控制緊密對齊。上這樣的精度來自於一套嚴謹的攝影機與運動系統校準機制,能有效補償製造與組裝中的誤差,以及長期運作下因熱變形或反覆撞擊所產生的結構偏差。我們的經驗表明,精準的手眼校準是高性能操控與自主感知的根本條件。
但這一切仍只是起點。波士頓動力的最終目標是打造真正敏捷且具備自我調整能力的系統,這不僅需要空間上的智慧,也需要理解運動的幾何、語義與物理規律。目前,該公司正致力於為Atlas建構一個統一的基礎模型架構。未來,感知與行動將不再是分離的模組,而是緊密交融的整體,讓Atlas從空間智能邁向真正的運動智能。
這一切的發展不僅是技術突破的體現,更標誌著人機關係的一次深刻轉變。在過去,機器人僅是人類指令的延伸,但如今,像Atlas這樣的系統正逐步具備主動理解環境、預判情境、並靈活應對的能力。當機器人不再只是工具,而成為能與人類協作、共享任務責任的智能體時,我們也將重新定義什麼是“智能”與“體力”的界線。Atlas的進化,不只是科技的勝利,更是我們對未來生活方式的一次預演,一個人機共生、靈活應變、智能協作的新時代正悄然展開。