Sharpa機器人削蘋果

Sharpa机器人削苹果

發布日期:

狂呼科技 Convo Tech 科技 Tech


要点:
对人类来说,削苹果是件轻而易举的晨间小事,但对机器人而言,这是双手协调能力的「终极挑战」。

削苹果需要一只手保持稳定的抓握并旋转苹果,另一只手则要精准地控制刀片的力度——同时还要不断处理触觉反馈,以防止苹果滑落或刀片削得太深。

Sharpa夏帕机器人公司发布了一项研究,详细阐述了如何弥补这一差距。该公司将名为MoDE-VLA的新型人工智慧架构与共享自主「副驾驶」系统相结合,展示了其声称的首个自主双灵巧手苹果削皮序列。这项突破性进展推动了视觉-语言-动作(VLA)模型的发展,该模型以往仅限于使用低自由度机械手臂执行简单的「抓取和放置」任务。

在机器人操作领域,视觉-语言-动作(VLA)模型取得了令人瞩目的进步。我们已经看到机器人能够轻松地拾取玩具和整理衣物。然而,这些成功大多局限于使用基本平行爪夹持器的简单「抓取和放置」任务。

对于类似人类的双手灵巧操作——例如削苹果皮这类需要不断手部旋转和精确力度控制的任务——传统的VLA 模型经常会遇到瓶颈。

一篇题为「透过强化学习增强远端操作和混合灵巧专家虚拟雷射辅助系统实现类人操作」的新研究论文提出了一个突破性的框架来解决这个问题。该团队将用于复杂手指动作的「副驾驶」与用于感觉融合的新型「混合专家」架构相结合,实现了可能是首个自主双灵巧手削苹果的操作。

挑战:为什么苹果要削皮这么难?

削苹果皮不只是挥动刀子那么简单,它需要一系列动作的配合:

  1. 资料瓶颈:远端操控两只总共有63 个自由度(DoF) 的手对于人类操作员来说简直是一场噩梦。
  2. 多元技能学习:机器人必须在视觉引导的抓取、力量引导的切割和触觉引导的手内旋转之间进行转换。
  3. 模态异质性:简单地将力和触觉资料「插入」到用影像训练的模型中,往往会使机器人感到困惑,而不是帮助它。

解决方案:双管齐下的框架

研究人员透过两个协同组件解决了这些瓶颈问题: IMCopilotMoDE-VLA

1. IMCopilot:您的掌上操控助手
训练机器人进行类似人类的操作,最大的障碍在于资料。人类可以轻松远端操控简单的机械爪,但要控制夏普公司(Sharpa)的夏普北( SharpaNorth )机器人(配备两只夏普波机械手)的63个自由度,即使对经验丰富的操作员来说,也是一项认知负荷巨大的任务。

为了解决这个问题,夏帕公司推出了IMCopilot(手部操作辅助系统)。在资料撷取阶段,系统以共享自主模式运作:操作员使用外骨骼控制机器手臂的「粗略」运动,但透过脚踏板将「精细」的手部旋转操作委托给人工智慧。

IMCopilot(手部操作辅助系统)是一套透过强化学习(RL)训练的原子技能。它具有双重作用:

  • 资料采集期间:它充当共享自主助手。操作人员透过外骨骼控制「大」臂的运动,同时透过脚踏板触发IMCopilot 来处理苹果复杂的手持旋转动作。
  • 执行过程中:它成为主VLA 模型在需要旋转或稳定物体时可以呼叫的「低阶技能」。

2. ModE-VLA:灵巧专家混合模型

为了应对力和触觉数据的“感官过载”,该团队开发了MoDE-VLA 。与将所有数据一视同仁的传统模型不同,MoDE-VLA 采用混合专家(MoE)方法:

  • 专用路径:力(手臂扭力)和触觉(指尖压力)资料与视觉资料分开处理。
  • 稀疏路由:此模型动态地将资讯「路由」给各领域的专家。例如,当削皮器接触到苹果皮的瞬间,它可能会立即启动一位「接触发病率专家」。
  • 残余注入:这些专家不会涵盖机器人已有的知识;他们会根据即时触控提供「修正」或改进操作。

它真的有效吗?

结果不言而喻。研究人员在四项难度递增的任务上测试了这个框架:齿轮组装、充电器插拔、管子重新排列和苹果削皮。

  • 更高的成功率:在接触丰富的任务中,MoDE-VLA 的成功率比基准模型高出一倍。
  • 苹果测试:在苹果剥皮的终极测试中,该框架实现了73% 的剥皮完成率,成功执行了重复的剥皮和旋转循环。
  • 精准度:在诸如插拔充电器这类任务中,几毫米的误差就会造成影响,而这些经过专业训练的专家提供了必要的“配合”,从而在仅凭视觉的模型无法完成的任务中取得了成功。

SharpaWave的优势

SharpaWave 22自由度灵巧手凭借其整合的感测功能和分层控制框架在执行高精度、高接触操作方面表现出色。其主要优点在于将来自十个指尖的6自由度力回馈和触觉回馈与视觉-语言-动作(VLA)主干系统无缝融合,使机器人能够在诸如齿轮组装和苹果削皮等精细任务中检测到细微的接触状态,例如滑动或阻力。

透过使用IMCopilot套件,SharpaWave 可以将复杂的低级手指协调(特别是手内物体旋转)委托给经过强化学习训练的原子技能,从而显著克服了传统远程操作的“数据采集瓶颈”,并使操控苹果等复杂物体的成功率达到93%。最终,该机械手在MoDE-VLA演算法下的运行能力实现了“接触感知优化”,即专家可以根据物理交互动态调整动作,使灵巧任务的成功率比标准基线提高了一倍。

这项研究使我们离不仅能「看到」世界,还能「感受到」世界的机器人又更近了一步。透过将复杂、高频的手指运动委托给专门的“副驾驶”,并利用专家来解读触觉,虽然苹果削皮的成功率只有30%,还有提升的空间,但「削皮完成率」达到了73%,这表明即使机器人无法每次都成功完成任务,它也能持续完成复杂的序列。 Sharpa正在为能够像人类一样灵巧地完成复杂家务和工业装配的机器人铺平道路。

狂呼科技 Convo Tech

科技正以前所未有的速度和規模發展,引發多個領域的變革,塑造了新的商業模式,甚至重塑了全新社會結構。我們一起,從科技創新中洞察社會轉型和升級的機遇。

狂呼科技,研究,聚焦科技創新對當今世界的影響,以獨特、前瞻的科技視角,洞察科技時代下涌現的“創新革命”。

狂呼,以最具突破性的技朮塑造我們的未來,為大眾捕捉科技商業先機,探索當今人類社會面臨的重大挑戰。

聯系我們 | 相關文章

免責聲明:本網站提供的信息僅供一般信息分享目的,並不應被視為投資建議。

返回博客
  • BYD比亞迪2025年第四季度業績仍然不及預期,賣車單價仍處於下行軌道

    比亚迪2025年第四季度业绩仍然不及预期,卖车单价仍处于下行轨道

    比亚迪的业绩仍然不及预期。收入虽超预期,但主要由于非核心的比亚迪电子业务高增带来,而在核心的卖车业务上,卖车单价仍处于下行轨道,卖车成本降幅不够,最后卖车毛利率虽有回暖,但仍低于市场预期。

    比亚迪2025年第四季度业绩仍然不及预期,卖车单价仍处于下行轨道

    比亚迪的业绩仍然不及预期。收入虽超预期,但主要由于非核心的比亚迪电子业务高增带来,而在核心的卖车业务上,卖车单价仍处于下行轨道,卖车成本降幅不够,最后卖车毛利率虽有回暖,但仍低于市场预期。

  • GOOG谷歌TurboQuant新聞導緻MU美光科技等內存股股價暴跌,但這合理嗎?

    GOOG谷歌TurboQuant新闻导致MU美光科技等内存股股价暴跌,但这合理吗?

    消息一出,华尔街一度陷入恐慌:如果 AI 突然间不再需要那么多 RAM 就能运作,这是否意味着内存产业的“超级周期”即将结束?答案是否定的。事实上,从历史规律与经济学角度来看,情况正好相反。要理解这一点,我们只需要观察你电脑上的网页浏览器。

    GOOG谷歌TurboQuant新闻导致MU美光科技等内存股股价暴跌,但这合理吗?

    消息一出,华尔街一度陷入恐慌:如果 AI 突然间不再需要那么多 RAM 就能运作,这是否意味着内存产业的“超级周期”即将结束?答案是否定的。事实上,从历史规律与经济学角度来看,情况正好相反。要理解这一点,我们只需要观察你电脑上的网页浏览器。

  • BABA財報AI投入比較激進

    BABA财报AI投入比较激进

    BABA发布第四季财报后股价下跌,财报显示其营收和利润均大幅低于预期。这家電商巨头的季度净利暴跌67%,而总营收仅增长1.7%约413亿美元。这些表现引发了人们对阿里巴巴在AI人工智能领域巨额投资(总额超过530亿美元)有效性的担忧。

    BABA财报AI投入比较激进

    BABA发布第四季财报后股价下跌,财报显示其营收和利润均大幅低于预期。这家電商巨头的季度净利暴跌67%,而总营收仅增长1.7%约413亿美元。这些表现引发了人们对阿里巴巴在AI人工智能领域巨额投资(总额超过530亿美元)有效性的担忧。

  • MU美光業績,季度毛利率達到 74.4%!

    MU美光业绩,季度毛利率达到 74.4%!

    MU 整体业绩:美光本季度营收 238.6 亿美元,环比增长 75%,好于上调后的买方预期(199 亿美元),本季度收入增长主要来自于 DRAM 和 NAND 业务的双重带动,两大业务环增都在 70% 以上。

    MU美光业绩,季度毛利率达到 74.4%!

    MU 整体业绩:美光本季度营收 238.6 亿美元,环比增长 75%,好于上调后的买方预期(199 亿美元),本季度收入增长主要来自于 DRAM 和 NAND 业务的双重带动,两大业务环增都在 70% 以上。

  • Tencent騰訊業績整體看無驚無喜?

    腾讯业绩整体看无惊无喜?

    腾讯一口气连发多个“龙虾”产品,能够看出公司在元宝春节大战中失利后的焦虑,虽然仓促推出产品还不完善。不过这个紧迫感的转变很关键也很必要。就目前来看,微信入口似乎在 AI 原生应用盛行的当下仍然有无法撼动的地位。

    腾讯业绩整体看无惊无喜?

    腾讯一口气连发多个“龙虾”产品,能够看出公司在元宝春节大战中失利后的焦虑,虽然仓促推出产品还不完善。不过这个紧迫感的转变很关键也很必要。就目前来看,微信入口似乎在 AI 原生应用盛行的当下仍然有无法撼动的地位。

  • LULU財報對2026年的指引仍然保守

    LULU财报对2026年的指引仍然保守

    LULU 预期增长 2%-4%。从指引上看,经历了 2025 年的降速,公司对 2026 年的指引仍然保守,说明 2026 年对于 Lululemon 来说仍然是艰难转型的一年。

    LULU财报对2026年的指引仍然保守

    LULU 预期增长 2%-4%。从指引上看,经历了 2025 年的降速,公司对 2026 年的指引仍然保守,说明 2026 年对于 Lululemon 来说仍然是艰难转型的一年。

  • ORCL業績整體表現算是中性,功過相抵。

    ORCL业绩整体表现算是中性,功过相抵。

    ORCL 甲骨文剔除OCI 业务-- 即IaaS 云业务外,剩下的所有传统业务都已完全没有成长性,长期营收增速都只徘徊在零上下、好也不过个位数增长。且在当下,和其他软件公司一样,这部分传统业务也存在被AI 颠覆的风险。

    ORCL业绩整体表现算是中性,功过相抵。

    ORCL 甲骨文剔除OCI 业务-- 即IaaS 云业务外,剩下的所有传统业务都已完全没有成长性,长期营收增速都只徘徊在零上下、好也不过个位数增长。且在当下,和其他软件公司一样,这部分传统业务也存在被AI 颠覆的风险。

  • Nvidia開源AI代理平台NemoClaw重新定義企業級人工智慧代理!

    Nvidia开源AI代理平台NemoClaw重新定义企业级人工智慧代理!

    NemoClaw 是NVIDIA 即将推出的开源AI 代理平台,旨在为企业提供安全、可控且高效的AI 代理部署环境。它与NVIDIA NeMo 框架和NIM(NVIDIA 推理微服务)深度集成,使企业能够在严格遵守资料治理的同时,充分利用GPU 加速的AI 代理功能。

    Nvidia开源AI代理平台NemoClaw重新定义企业级人工智慧代理!

    NemoClaw 是NVIDIA 即将推出的开源AI 代理平台,旨在为企业提供安全、可控且高效的AI 代理部署环境。它与NVIDIA NeMo 框架和NIM(NVIDIA 推理微服务)深度集成,使企业能够在严格遵守资料治理的同时,充分利用GPU 加速的AI 代理功能。

1 / 8
  • Sharpa機器人削蘋果

    Sharpa机器人削苹果

    对人类来说,削苹果是件轻而易举的晨间小事,但对机器人而言,这是双手协调能力的「终极挑战」。 Sharpa机器人正在为能够像人类一样灵巧地完成复杂家务和工业装配的机器人铺平道路。

    Sharpa机器人削苹果

    对人类来说,削苹果是件轻而易举的晨间小事,但对机器人而言,这是双手协调能力的「终极挑战」。 Sharpa机器人正在为能够像人类一样灵巧地完成复杂家务和工业装配的机器人铺平道路。

  • 腫瘤療法突破,中國團隊給癌細胞打上“豬”標簽,癌細胞“偽裝朮”被破解

    肿瘤疗法突破,中国团队给癌细胞打上“猪”标签,癌细胞“伪装术”被破解

    近期,中国科学家在“Cell”杂志上发表的一项突破性研究,为这一顽疾提供了全新思路。他们利用基因编辑技术,将癌细胞改造成免疫系统眼中的“异类”,类似于人体对猪器官产生的超急性排斥反应,从而引发了一场针对癌细胞的精准“免疫歼灭战”。

    肿瘤疗法突破,中国团队给癌细胞打上“猪”标签,癌细胞“伪装术”被破解

    近期,中国科学家在“Cell”杂志上发表的一项突破性研究,为这一顽疾提供了全新思路。他们利用基因编辑技术,将癌细胞改造成免疫系统眼中的“异类”,类似于人体对猪器官产生的超急性排斥反应,从而引发了一场针对癌细胞的精准“免疫歼灭战”。

  • 新型大腦設備首次讀出內心聲音,腦機接口技朮打破失語者困境

    新型大脑设备首次读出内心声音,脑机接口技术打破失语者困境

    新系统的核心原理与常见的“尝试说话”型脑机介面相似,都是在大脑运动皮质植入感测器,这一区域负责向声道肌肉下达运动指令。感测器捕捉到的神经活动会送入机器学习模型,模型依据个人化数据判断信号对应的声音,进而预测使用者想说的单字。

    新型大脑设备首次读出内心声音,脑机接口技术打破失语者困境

    新系统的核心原理与常见的“尝试说话”型脑机介面相似,都是在大脑运动皮质植入感测器,这一区域负责向声道肌肉下达运动指令。感测器捕捉到的神经活动会送入机器学习模型,模型依据个人化数据判断信号对应的声音,进而预测使用者想说的单字。

  • “垃圾DNA”新發現:遠古病毒DNA在人類發育中發揮關鍵作用

    “垃圾DNA”新发现:远古病毒DNA在人类发育中发挥关键作用

    自这类非编码DNA片段首次被发现并被称作“垃圾”以来,生物学家们一直在探讨它们是否真的无用。如今的主流观点认为,这些片段虽不直接参与蛋白质合成,却在整体基因组中占据了极大比例,显示它们可能具有重要功能。

    “垃圾DNA”新发现:远古病毒DNA在人类发育中发挥关键作用

    自这类非编码DNA片段首次被发现并被称作“垃圾”以来,生物学家们一直在探讨它们是否真的无用。如今的主流观点认为,这些片段虽不直接参与蛋白质合成,却在整体基因组中占据了极大比例,显示它们可能具有重要功能。

1 / 4
1 / 4
  • 從中國經濟看背後困境及發展新構想?

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

  • 在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

  • 再見愛人:探索現代婚姻中的情感困境

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

  • 抖音短劇新風潮:中老年人成為新的增長點?

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

1 / 4