Sharpa機器人削蘋果

Sharpa机器人削苹果

發布日期:

狂呼科技 Convo Tech 科技 Tech


要点:
对人类来说,削苹果是件轻而易举的晨间小事,但对机器人而言,这是双手协调能力的「终极挑战」。

削苹果需要一只手保持稳定的抓握并旋转苹果,另一只手则要精准地控制刀片的力度——同时还要不断处理触觉反馈,以防止苹果滑落或刀片削得太深。

Sharpa夏帕机器人公司发布了一项研究,详细阐述了如何弥补这一差距。该公司将名为MoDE-VLA的新型人工智慧架构与共享自主「副驾驶」系统相结合,展示了其声称的首个自主双灵巧手苹果削皮序列。这项突破性进展推动了视觉-语言-动作(VLA)模型的发展,该模型以往仅限于使用低自由度机械手臂执行简单的「抓取和放置」任务。

在机器人操作领域,视觉-语言-动作(VLA)模型取得了令人瞩目的进步。我们已经看到机器人能够轻松地拾取玩具和整理衣物。然而,这些成功大多局限于使用基本平行爪夹持器的简单「抓取和放置」任务。

对于类似人类的双手灵巧操作——例如削苹果皮这类需要不断手部旋转和精确力度控制的任务——传统的VLA 模型经常会遇到瓶颈。

一篇题为「透过强化学习增强远端操作和混合灵巧专家虚拟雷射辅助系统实现类人操作」的新研究论文提出了一个突破性的框架来解决这个问题。该团队将用于复杂手指动作的「副驾驶」与用于感觉融合的新型「混合专家」架构相结合,实现了可能是首个自主双灵巧手削苹果的操作。

挑战:为什么苹果要削皮这么难?

削苹果皮不只是挥动刀子那么简单,它需要一系列动作的配合:

  1. 资料瓶颈:远端操控两只总共有63 个自由度(DoF) 的手对于人类操作员来说简直是一场噩梦。
  2. 多元技能学习:机器人必须在视觉引导的抓取、力量引导的切割和触觉引导的手内旋转之间进行转换。
  3. 模态异质性:简单地将力和触觉资料「插入」到用影像训练的模型中,往往会使机器人感到困惑,而不是帮助它。

解决方案:双管齐下的框架

研究人员透过两个协同组件解决了这些瓶颈问题: IMCopilotMoDE-VLA

1. IMCopilot:您的掌上操控助手
训练机器人进行类似人类的操作,最大的障碍在于资料。人类可以轻松远端操控简单的机械爪,但要控制夏普公司(Sharpa)的夏普北( SharpaNorth )机器人(配备两只夏普波机械手)的63个自由度,即使对经验丰富的操作员来说,也是一项认知负荷巨大的任务。

为了解决这个问题,夏帕公司推出了IMCopilot(手部操作辅助系统)。在资料撷取阶段,系统以共享自主模式运作:操作员使用外骨骼控制机器手臂的「粗略」运动,但透过脚踏板将「精细」的手部旋转操作委托给人工智慧。

IMCopilot(手部操作辅助系统)是一套透过强化学习(RL)训练的原子技能。它具有双重作用:

  • 资料采集期间:它充当共享自主助手。操作人员透过外骨骼控制「大」臂的运动,同时透过脚踏板触发IMCopilot 来处理苹果复杂的手持旋转动作。
  • 执行过程中:它成为主VLA 模型在需要旋转或稳定物体时可以呼叫的「低阶技能」。

2. ModE-VLA:灵巧专家混合模型

为了应对力和触觉数据的“感官过载”,该团队开发了MoDE-VLA 。与将所有数据一视同仁的传统模型不同,MoDE-VLA 采用混合专家(MoE)方法:

  • 专用路径:力(手臂扭力)和触觉(指尖压力)资料与视觉资料分开处理。
  • 稀疏路由:此模型动态地将资讯「路由」给各领域的专家。例如,当削皮器接触到苹果皮的瞬间,它可能会立即启动一位「接触发病率专家」。
  • 残余注入:这些专家不会涵盖机器人已有的知识;他们会根据即时触控提供「修正」或改进操作。

它真的有效吗?

结果不言而喻。研究人员在四项难度递增的任务上测试了这个框架:齿轮组装、充电器插拔、管子重新排列和苹果削皮。

  • 更高的成功率:在接触丰富的任务中,MoDE-VLA 的成功率比基准模型高出一倍。
  • 苹果测试:在苹果剥皮的终极测试中,该框架实现了73% 的剥皮完成率,成功执行了重复的剥皮和旋转循环。
  • 精准度:在诸如插拔充电器这类任务中,几毫米的误差就会造成影响,而这些经过专业训练的专家提供了必要的“配合”,从而在仅凭视觉的模型无法完成的任务中取得了成功。

SharpaWave的优势

SharpaWave 22自由度灵巧手凭借其整合的感测功能和分层控制框架在执行高精度、高接触操作方面表现出色。其主要优点在于将来自十个指尖的6自由度力回馈和触觉回馈与视觉-语言-动作(VLA)主干系统无缝融合,使机器人能够在诸如齿轮组装和苹果削皮等精细任务中检测到细微的接触状态,例如滑动或阻力。

透过使用IMCopilot套件,SharpaWave 可以将复杂的低级手指协调(特别是手内物体旋转)委托给经过强化学习训练的原子技能,从而显著克服了传统远程操作的“数据采集瓶颈”,并使操控苹果等复杂物体的成功率达到93%。最终,该机械手在MoDE-VLA演算法下的运行能力实现了“接触感知优化”,即专家可以根据物理交互动态调整动作,使灵巧任务的成功率比标准基线提高了一倍。

这项研究使我们离不仅能「看到」世界,还能「感受到」世界的机器人又更近了一步。透过将复杂、高频的手指运动委托给专门的“副驾驶”,并利用专家来解读触觉,虽然苹果削皮的成功率只有30%,还有提升的空间,但「削皮完成率」达到了73%,这表明即使机器人无法每次都成功完成任务,它也能持续完成复杂的序列。 Sharpa正在为能够像人类一样灵巧地完成复杂家务和工业装配的机器人铺平道路。

狂呼科技 Convo Tech

科技正以前所未有的速度和規模發展,引發多個領域的變革,塑造了新的商業模式,甚至重塑了全新社會結構。我們一起,從科技創新中洞察社會轉型和升級的機遇。

狂呼科技,研究,聚焦科技創新對當今世界的影響,以獨特、前瞻的科技視角,洞察科技時代下涌現的“創新革命”。

狂呼,以最具突破性的技朮塑造我們的未來,為大眾捕捉科技商業先機,探索當今人類社會面臨的重大挑戰。

聯系我們 | 相關文章

免責聲明:本網站提供的信息僅供一般信息分享目的,並不應被視為投資建議。

返回博客
  • ORCL業績整體表現算是中性,功過相抵。

    ORCL业绩整体表现算是中性,功过相抵。

    ORCL 甲骨文剔除OCI 业务-- 即IaaS 云业务外,剩下的所有传统业务都已完全没有成长性,长期营收增速都只徘徊在零上下、好也不过个位数增长。且在当下,和其他软件公司一样,这部分传统业务也存在被AI 颠覆的风险。

    ORCL业绩整体表现算是中性,功过相抵。

    ORCL 甲骨文剔除OCI 业务-- 即IaaS 云业务外,剩下的所有传统业务都已完全没有成长性,长期营收增速都只徘徊在零上下、好也不过个位数增长。且在当下,和其他软件公司一样,这部分传统业务也存在被AI 颠覆的风险。

  • Nvidia開源AI代理平台NemoClaw重新定義企業級人工智慧代理!

    Nvidia开源AI代理平台NemoClaw重新定义企业级人工智慧代理!

    NemoClaw 是NVIDIA 即将推出的开源AI 代理平台,旨在为企业提供安全、可控且高效的AI 代理部署环境。它与NVIDIA NeMo 框架和NIM(NVIDIA 推理微服务)深度集成,使企业能够在严格遵守资料治理的同时,充分利用GPU 加速的AI 代理功能。

    Nvidia开源AI代理平台NemoClaw重新定义企业级人工智慧代理!

    NemoClaw 是NVIDIA 即将推出的开源AI 代理平台,旨在为企业提供安全、可控且高效的AI 代理部署环境。它与NVIDIA NeMo 框架和NIM(NVIDIA 推理微服务)深度集成,使企业能够在严格遵守资料治理的同时,充分利用GPU 加速的AI 代理功能。

  • NVIDIA和Thinking Machines Lab建立長期千兆瓦級策略合作

    NVIDIA和Thinking Machines Lab建立长期千兆瓦级策略合作

    NVIDIA 和Thinking Machines Lab 今天宣布达成一项多年战略合作,将部署至少1 吉瓦的下一代NVIDIA Vera Rubin 系统,以支援Thinking Machines 的前沿模型训练和平台,从而大规模地提供可自订的AI 服务。

    NVIDIA和Thinking Machines Lab建立长期千兆瓦级策略合作

    NVIDIA 和Thinking Machines Lab 今天宣布达成一项多年战略合作,将部署至少1 吉瓦的下一代NVIDIA Vera Rubin 系统,以支援Thinking Machines 的前沿模型训练和平台,从而大规模地提供可自订的AI 服务。

  • COST財報,營收同比增長 9.2%!

    COST财报,营收同比增长9.2%!

    COST 整体业绩上,本季总营收同比增长9.2%,较上季度的8.3% 有不小提速,主要是受汇率利好和客单价走高的利好。而经营利润为26.1 亿,同比增长12.5%。利润率同比小幅提高0.1pct,仍在提升趋势内,但改善幅度低于预期的0.2pct。

    COST财报,营收同比增长9.2%!

    COST 整体业绩上,本季总营收同比增长9.2%,较上季度的8.3% 有不小提速,主要是受汇率利好和客单价走高的利好。而经营利润为26.1 亿,同比增长12.5%。利润率同比小幅提高0.1pct,仍在提升趋势内,但改善幅度低于预期的0.2pct。

  • NVDA英偉達2026財年第四季度財報,利潤端持續向好!

    NVDA英伟达2026财年第四季度财报,利润端持续向好!

    NVDA英伟达本次财报数据依然是相当不错的,其中收入端本季度环比增长111 亿美元,基本都来自于数据中心业务中Blackwell 系列量产增加的带动,公司毛利率也重新回到了75%。对于下季度指引,公司预计收入端将继续提升至780 亿美元。

    NVDA英伟达2026财年第四季度财报,利润端持续向好!

    NVDA英伟达本次财报数据依然是相当不错的,其中收入端本季度环比增长111 亿美元,基本都来自于数据中心业务中Blackwell 系列量产增加的带动,公司毛利率也重新回到了75%。对于下季度指引,公司预计收入端将继续提升至780 亿美元。

  • 從傳奇到威脅:Anthropic AI如何破解COBOL現代化僵局,並引發IBM股價巨震

    从传奇到威胁:Anthropic AI如何破解COBOL现代化僵局,并引发IBM股价巨震

    今日,科技界与华尔街同时感受到了一场强震。人工智慧领先企业Anthropic 正式发布了专为COBOL 现代化设计的Claude Code 工具与实战手册。这项消息发布后,全球科技服务巨头IBM 的股价在盘中应声重挫近10%。

    从传奇到威胁:Anthropic AI如何破解COBOL现代化僵局,并引发IBM股价巨震

    今日,科技界与华尔街同时感受到了一场强震。人工智慧领先企业Anthropic 正式发布了专为COBOL 现代化设计的Claude Code 工具与实战手册。这项消息发布后,全球科技服务巨头IBM 的股价在盘中应声重挫近10%。

  • 美國最高法院裁定川普全球關稅違憲!

    美国最高法院裁定川普全球关税违宪!

    2月20日,美国最高法院以6比3的投票结果推翻了美国政府在全球征收的大规模关税。法院裁定,总统援引《国际紧急经济权力法》(IEEPA)在全球范围内征收关税属于越权行为。法院并未就进口商有权获得退税的程度作出裁决,而是将此项决定留给了下级法院。

    美国最高法院裁定川普全球关税违宪!

    2月20日,美国最高法院以6比3的投票结果推翻了美国政府在全球征收的大规模关税。法院裁定,总统援引《国际紧急经济权力法》(IEEPA)在全球范围内征收关税属于越权行为。法院并未就进口商有权获得退税的程度作出裁决,而是将此项决定留给了下级法院。

  • AMZN亞馬遜財報,AWS如期明顯提速

    AMZN亚马逊财报,AWS如期明显提速

    AMZN自研芯片也大体解决了获取GPU 的劣势,市场对AWS 后续的增长前景是非常乐观的。结合公司披露,AWS 会是未来2 年内,新增算力供应最多的云服务商。按此前到27 年算力翻倍的指引,预期未来2 年AWS 会合计新增约10 GW 算力。

    AMZN亚马逊财报,AWS如期明显提速

    AMZN自研芯片也大体解决了获取GPU 的劣势,市场对AWS 后续的增长前景是非常乐观的。结合公司披露,AWS 会是未来2 年内,新增算力供应最多的云服务商。按此前到27 年算力翻倍的指引,预期未来2 年AWS 会合计新增约10 GW 算力。

1 / 8
  • Sharpa機器人削蘋果

    Sharpa机器人削苹果

    对人类来说,削苹果是件轻而易举的晨间小事,但对机器人而言,这是双手协调能力的「终极挑战」。 Sharpa机器人正在为能够像人类一样灵巧地完成复杂家务和工业装配的机器人铺平道路。

    Sharpa机器人削苹果

    对人类来说,削苹果是件轻而易举的晨间小事,但对机器人而言,这是双手协调能力的「终极挑战」。 Sharpa机器人正在为能够像人类一样灵巧地完成复杂家务和工业装配的机器人铺平道路。

  • 腫瘤療法突破,中國團隊給癌細胞打上“豬”標簽,癌細胞“偽裝朮”被破解

    肿瘤疗法突破,中国团队给癌细胞打上“猪”标签,癌细胞“伪装术”被破解

    近期,中国科学家在“Cell”杂志上发表的一项突破性研究,为这一顽疾提供了全新思路。他们利用基因编辑技术,将癌细胞改造成免疫系统眼中的“异类”,类似于人体对猪器官产生的超急性排斥反应,从而引发了一场针对癌细胞的精准“免疫歼灭战”。

    肿瘤疗法突破,中国团队给癌细胞打上“猪”标签,癌细胞“伪装术”被破解

    近期,中国科学家在“Cell”杂志上发表的一项突破性研究,为这一顽疾提供了全新思路。他们利用基因编辑技术,将癌细胞改造成免疫系统眼中的“异类”,类似于人体对猪器官产生的超急性排斥反应,从而引发了一场针对癌细胞的精准“免疫歼灭战”。

  • 新型大腦設備首次讀出內心聲音,腦機接口技朮打破失語者困境

    新型大脑设备首次读出内心声音,脑机接口技术打破失语者困境

    新系统的核心原理与常见的“尝试说话”型脑机介面相似,都是在大脑运动皮质植入感测器,这一区域负责向声道肌肉下达运动指令。感测器捕捉到的神经活动会送入机器学习模型,模型依据个人化数据判断信号对应的声音,进而预测使用者想说的单字。

    新型大脑设备首次读出内心声音,脑机接口技术打破失语者困境

    新系统的核心原理与常见的“尝试说话”型脑机介面相似,都是在大脑运动皮质植入感测器,这一区域负责向声道肌肉下达运动指令。感测器捕捉到的神经活动会送入机器学习模型,模型依据个人化数据判断信号对应的声音,进而预测使用者想说的单字。

  • “垃圾DNA”新發現:遠古病毒DNA在人類發育中發揮關鍵作用

    “垃圾DNA”新发现:远古病毒DNA在人类发育中发挥关键作用

    自这类非编码DNA片段首次被发现并被称作“垃圾”以来,生物学家们一直在探讨它们是否真的无用。如今的主流观点认为,这些片段虽不直接参与蛋白质合成,却在整体基因组中占据了极大比例,显示它们可能具有重要功能。

    “垃圾DNA”新发现:远古病毒DNA在人类发育中发挥关键作用

    自这类非编码DNA片段首次被发现并被称作“垃圾”以来,生物学家们一直在探讨它们是否真的无用。如今的主流观点认为,这些片段虽不直接参与蛋白质合成,却在整体基因组中占据了极大比例,显示它们可能具有重要功能。

1 / 4
1 / 4
  • 從中國經濟看背後困境及發展新構想?

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

  • 在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

  • 再見愛人:探索現代婚姻中的情感困境

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

  • 抖音短劇新風潮:中老年人成為新的增長點?

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

1 / 4