要点:
随着人工智能和机器人技术飞速进步,波士顿动力公司通过升级人形机器人Atlas的感知系统,实现了机器人在复杂环境中自主感知与灵活应变的关键突破。
随着人工智能AI与机器人技术的快速发展,“自主性”已成为衡量新一代机器人实用价值的关键指标。过去,机器人往往依赖精确预编程完成单一任务,难以应对现实世界中瞬息万变的环境与突发状况。然而,若机器人能像人类一样,主动感知环境、即时调整策略、灵活处理未预期的挑战,便可真正走出实验室,进入工厂、仓储乃至日常生活之中。
波士顿动力公司/Boston Dynamic针对其人形机器人Atlas的感知系统所进行的重大升级,搭载了全新的感知系统,象征着机器人技术向自主智能迈出关键一步。升级后的Atlas不仅能更精确地掌握周遭环境,还具备在工厂等复杂工业场景中独立完成任务的能力。虽然其灵活动作早已广受瞩目,该公司此次更强调感知能力在实现机器人自主作业中的核心地位。
Boston Dynamic Atlas升级全感知系统
波士顿动力公司在一段虽然叙述简略但内容丰富的影片中,展示了Atlas如何因应现场环境的持续变化。虽然任务本身看似仅是分类汽车零件,但影片背后的重点在于:开发团队正致力于让Atlas不仅能完成预设操作,更能灵活调整策略、主动应对突发情况。
影片中,有员工刻意改变零件架的位置,测试机器人的适应能力。 Atlas必须在动态变化的空间中重新评估任务参数,并迅速做出调整。又如另一场景,一个零件被不慎掉落并发出声响,Atlas虽无法根据声音进行精准定位,却能藉由视觉扫描锁定目标并成功完成拾取与归位,显示出其视觉系统与推理能力的进步。
这段展示也深刻体现了莫拉维克悖论:对人类而言简单的感知与动作协调,对机器人却极为复杂。而人类难以处理的大量计算,反而是机器的强项。正因如此,Atlas的开发重点之一,是让其感知系统具备高度灵活性与误差容忍度。
举例而言,若零件架的边距只有五公分,哪怕抓取时偏移一公分,都可能导致任务失败。因此Atlas必须能在操作过程中即时调整动作,甚至在发生错误后,自主进行修正。
而这些能力背后,依赖的是由多个高阶技术构成的感知架构:包括高度校准的视觉与运动整合系统、最先进的机器学习模型,以及精确的状态估计机制。每一个步骤,从辨识物体、判断其位置与姿态、决定操作策略,到最终精准放置物件,都需仰赖深度的环境理解与即时反应能力。
实际应用中,像Atlas这样的机器人需在充满反光、昏暗或拥挤物体的环境中运作,要成功抓取并准确摆放一个零件,其实仰赖的是高度的感知推理能力。针对这些挑战,波士顿动力开发了一套融合2D与3D感知技术的视觉系统,搭配物体姿态追踪与视觉-动作的精密校准机制,使Atlas能更灵活、准确地理解与操作现实世界。
2D物件辨识与关键点预测技术
感知系统的首要任务,是判断机器人周遭的环境状况,例如是否存在障碍物?有哪些目标物件?地面是否潜藏风险?为此,波士顿动力运用2D物体侦测系统,以物件的类别、边界框与关键点等资讯,提供环境的初步解析。
在这项应用中,Atlas必须辨识工厂中用来存放汽车零件的各式大型货架装置。这些固定装置形状与尺寸各异,机器人需要明确掌握它们的类型与占据空间,才能有效规避碰撞风险。除了辨识各种货架外,Atlas还会将它们的角落视为关键点,使感知资料能与已知模型准确对齐。
这些固定装置的关键点以2D像素座标呈现,分为两种类型:外部关键点(绿色)和内部关键点(红色)。前者描绘货架外部的包络轮廓,例如正面四个角落。后者则更具细节性,对应于货架内部的架构与小型隔间,帮助系统精准对位每一个物件槽位。
为实现即时的分类与关键点预测,Atlas采用一种轻量化的神经网络架构,在效能与即时反应之间取得最佳平衡。这种设计对于机器人在变化多端的环境中保持灵活性与稳定性至关重要。
利用3D感知应该如何与物体互动
除了以上,为了准确操控固定装置内的物体,Atlas必须首先判断自身相对于这些装置的位置与方向。为此,它运用一套基于关键点的定位模组,能够针对周围所有货架装置进行相对定位与姿态估算。
这个定位系统从物体侦测流程中提取出固定装置的内外关键点,并透过最小化重投影误差,将这些观察点与预先建立的空间模型对齐。同时,系统整合了Atlas的运动里程资讯,藉由跨时间的帧一致性,进一步提升关键点预测的稳定性与准确度。
在实务操作中,一大挑战是处理视野受限与关键点遮蔽的情况。例如,当Atlas靠近货架时,部分外部关键点可能完全被遮挡;在角度偏斜的视角下,距离较远的点也变得不可靠。为克服这些限制,系统会大量观察来自装置内部、如插槽隔间之间角落等丰富的关键点,这些位置与实际的抓取或放置行为密切相关。
这同时也引入另一个挑战:如何将影像中的二维关键点对应到三维空间中的实体角点? Atlas首先利用外部关键点估算装置的大致姿态,再据此推断内部关键点的可能对应关系。内外资讯的结合,则有助于建构出整体装置与各插槽更为可靠的三维定位结果。
此外,许多固定装置在外观上极为相似,这类装置类在工厂环境中十分常见,也带来额外的辨识难题。为解决这一点,Atlas融合了时间一致性以及空间先验知识,例如装置A位于装置B的右侧50公分处,以此强化辨识的区分能力。
这一整套机制构成了Atlas灵活且稳定的固定装置感知系统。从影片中可见,当某人悄悄移动Atlas身后的装置时,机器人能迅速察觉预期与现况的偏差,并立即重新定位该装置,进而调整行动策略,展现出高度的自主反应能力。
Atlas之所以具备灵活高效的物体操作能力,关键在于其快速而精准的以物体为核心的感知系统。这项能力依赖于Atlas的物体姿态追踪系统SuperTracker,它融合来自运动学、视觉与必要时的力觉等多源资讯,以实现稳定追踪。
Atlas可透过其关节编码器提供的运动学资料,精准得知自身夹持器的位置。当其判定已成功抓取物体时,该资讯可作为物体在移动过程中应处位置的强大先验,有效应对因遮蔽或物体超出视野所带来的视觉资讯缺失;若物体自手中滑脱,系统亦能即时做出警示。
在物体处于摄影机可视范围时,Atlas会启用姿势估计模型,透过影像渲染与比较的方式,从单目影像中估算物体姿态。该模型经由大量合成资料训练,能依据CAD模型将零样本学习推广至全新物件。初始化姿势可基于3D先验或2D区域资讯(如物体遮罩),随后产生多组假设并由评分模型筛选最佳拟合值,进一步细化输出。此模型已在我们内部数百种具CAD与纹理资料的工厂资产上证实其稳定性与通用性。
SuperTracker将视觉姿态估计作为三维空间中的初步参考,并搭配一系列验证与滤波程序来提升可靠性,特别是在面对遮蔽、部分可见或光线变化等挑战时:
自我一致性验证-从多个扰动初始化出发,并采用最大团共识演算法,确认所有预测收敛至一致的姿态。
运动一致性验证-排除任何导致Atlas手指与物体距离异常大的姿势,作为物理接触的合理代理。
非同步数据整合-利用固定滞后平滑器处理高速的运动学数据与较低频率的视觉输出,最终产生准确的6自由度物体轨迹。
执行如分类、插放等精细操作时,手眼协调的精准性至关重要。这意味着Atlas的视觉感知必须与其动作控制紧密对齐。上这样的精度来自于一套严谨的摄影机与运动系统校准机制,能有效补偿制造与组装中的误差,以及长期运作下因热变形或反覆撞击所产生的结构偏差。我们的经验表明,精准的手眼校准是高性能操控与自主感知的根本条件。
但这一切仍只是起点。波士顿动力的最终目标是打造真正敏捷且具备自我调整能力的系统,这不仅需要空间上的智慧,也需要理解运动的几何、语义与物理规律。目前,该公司正致力于为Atlas建构一个统一的基础模型架构。未来,感知与行动将不再是分离的模组,而是紧密交融的整体,让Atlas从空间智能迈向真正的运动智能。
这一切的发展不仅是技术突破的体现,更标志着人机关系的一次深刻转变。在过去,机器人仅是人类指令的延伸,但如今,像Atlas这样的系统正逐步具备主动理解环境、预判情境、并灵活应对的能力。当机器人不再只是工具,而成为能与人类协作、共享任务责任的智能体时,我们也将重新定义什么是“智能”与“体力”的界线。 Atlas的进化,不只是科技的胜利,更是我们对未来生活方式的一次预演,一个人机共生、灵活应变、智能协作的新时代正悄然展开。