中國科學家發布通才智能體完全解鎖《我的世界》,像人類一樣生存,探索和創造!

中国科学家发布通才智能体完全解锁《我的世界》,像人类一样生存,探索和创造!

發布日期:

科技 Tech


要点:
一个理想的AI应该具有与人类类似的能力。游戏“我的世界”里的AI不管是根据其当前的技能水平和世界状态提出合适的任务、根据环境反馈完善技能并将掌握的技能存入记忆,还是不断探索世界,以自驱动的方式寻找新任务,其实都已经和现实世界中人类的决策过程和行为方式非常相近。

致力于传播优质的中国知识内容、构建全球新共识。我们将通过一系列时事资讯、精品课程、论坛、节目、咨询报告等内容产品,提供关于当代中国的最新的舆论思潮、深入的社会观察、亮眼的科技成就等优质信息。我们已与五大洲十多个国家、百余个研究机构、媒体机构、政治团体、民间组织建立合作关系。希望通过我们的工作在海外分享中国经验,讲述中国故事,客观分析我们共同面对的挑战和机遇,携手全球青年寻找全球化发展的新共识。
联系我们// Substack // Twitter // YouTube // 相关文章

你是否喜欢在“Minecraft”广阔多样的世界中冒险,挖掘资源,制造工具和建造建筑物?你是否想要一个伙伴来和你一起探险?清华大学和中国科学院的研究人员开发了一个新的AI智能体,可以陪伴你完成任务。他们称之为Minecraft中的幽灵/Ghost in Minecraft, 简称GITM,它不是你平常见到的普通机器人。

Minecraft中的AI智能体们却面临着一种有趣的莫拉维克悖论:对于人类来说具有挑战性的任务,如下棋对于AI来说相对简单,而对于人类来说通常很容易的任务(如在像Minecraft这样的开放世界环境中进行互动和决策)却对AI来说是巨大的挑战。

via GIPHY

GITM成功地克服了这个悖论,在一个复杂、逼真的环境中取得了重大突破。这对AI技术的潜在进步和更通用的AI智能体的开发做出了巨大贡献。

GITM是一个通用智能体/Generally Capable Agent, 简称GCA,意味着它可以处理任何任务而不需要特定的培训或指令。它使用大型语言模型/Large Language Model,简称LLM实现这种能力,这基本上意味着它拥有对单词和常识的广泛理解。 GITM通过自然语言与你交流,并理解你的预期结果。此外,它使用基于文本的知识和记忆来存储和检索有用的信息,例如配方、位置和目标。


GITM 在Minecraft 主世界的所有技术挑战中实现了100% 的任务覆盖率(成功解锁了完整的技术树),而之前所有智能加起来只能覆盖30%。

研究人员在Minecraft中的一个流行任务“获取钻石”上测试了GITM,其任务是找到并挖掘一颗钻石。这不是一个容易的任务,因为钻石很少,而且在地下很深处,智能体还必须在途中生存各种危险,如熔岩、怪物和饥饿。以前使用强化学习/RL的方法只能实现约20%的成功率,这意味着它们失败了5次中的4次。而GITM则取得了惊人的67.5%的成功率,这意味着它在3次尝试中成功了2次。这是一个巨大的改进!

但GITM并不满足于钻石。 GITM可以获得游戏中的所有物品,从木材到玉髓。它可以制造工具、武器和装甲,建造庇护所和农场,甚至驯服动物。它可以做任何你能做的事情,而且可能做得更好。

GITM是如何实现这一切的呢?它釆用了一种巧妙的方法。以前的AI智能体很难将Minecraft中的复杂目标与完成所需的精确鼠标和键槃操作联系起来。然而,GITM釆用LLM根据当前情况和期望目标生成行动计划。 LLM由三个组成部分组成:

LLM Decomposer:利用外部知识,如互联网上的游戏知识库,将复杂任务分解为简单的子任务。

LLM Planner:计为每个子任务制规划一系列的结构化动作,并根据反馈信息调整规划,还能通过不断总结成功经验提升自己

LLM Interface:使用底层的键槃鼠标操作执行结构化动作,并在与环境交互的过程中获取观察信息

例如,如果GITM想要制作地狱传送门,它可以询问LLM如何制作,LLM会告诉它类似于以下内容:
- 找一些黑曜石、燧石和钢
- 将黑曜石放在一个4x5的矩形中心有一个2x3的洞
- 用燧石和钢在底部的黑曜石块上点燃火
- 进入传送门

GITM可以逐步执行这些步骤,并使用基于文本的记忆来跟踪它已经做了什么和接下来需要做什么。它还可以使用基于文本的知识来查找任何需要的信息,例如配方、位置和物品属性。例如,如果GITM想知道在哪里找到黑曜石,它可以询问LLM,LLM会告诉它类似于以下内容:
- 黑曜石是一种稀有块,可以在熔岩池附近找到
- 它有一种深紫色的颜色,很硬
- 它可以用钻石镐或更好的工具开釆
- 它是当水遇到熔岩时形成的

GITM可以使用这些信息来指导它的探索和挖掘活动。值得注意的是,GITM不需要GPU进行训练;一个具有32个CPU核心的单个CPU节点就足够了。这意味着一个不错的笔记本电脑就足以运行GITM,相比于OpenAI的VPT和DeepMind的DreamerV3,它可以提高效率至少10,000倍。 你甚至可以从它们的GitHub页面下载代码并尝试它自己。

GITM的意义超越了电脑游戏。它代表着可以探索和与环境(虚拟的情况下)交互,并制定策略、自主执行的最新版本的通用智能体。想象一下,有一天,这样的GCA可以通过传感器和智能设备进入我们的现实世界,以自主的方式解决我们的现实问题。让我们屏吸期待。

致力于传播优质的中国知识内容、构建全球新共识。我们将通过一系列时事资讯、精品课程、论坛、节目、咨询报告等内容产品,提供关于当代中国的最新的舆论思潮、深入的社会观察、亮眼的科技成就等优质信息。我们已与五大洲十多个国家、百余个研究机构、媒体机构、政治团体、民间组织建立合作关系。希望通过我们的工作在海外分享中国经验,讲述中国故事,客观分析我们共同面对的挑战和机遇,携手全球青年寻找全球化发展的新共识。
联系我们// Substack // Twitter // YouTube // 相关文章

免責聲明:本網站提供的信息僅供一般信息分享目的,並不應被視為投資建議。

返回博客
  • PDD拼多多2026年第一季財報,不及市場預期

    PDD拼多多2026年第一季财报,不及市场预期

    因国内主站营收增长不及预期,营销支出也并未明显下滑,因此实际利润表现并不及预期。分板块来看背后原因,我们认为一方面是 Temu 本季减亏的幅度大概率并没有预期的那么多,另外国内主站的经营利润增长应当也相当有限。

    PDD拼多多2026年第一季财报,不及市场预期

    因国内主站营收增长不及预期,营销支出也并未明显下滑,因此实际利润表现并不及预期。分板块来看背后原因,我们认为一方面是 Temu 本季减亏的幅度大概率并没有预期的那么多,另外国内主站的经营利润增长应当也相当有限。

  • 小米2026年第一季度財報,主要受手機和汽車毛利率同比回落影響

    小米2026年第一季度财报,主要受手机和汽车毛利率同比回落影响

    小米本季度汽车业务毛利率下滑至 20.1%,接近市场预期(20.5%),主要是受均价下滑的影响,其中包含了小米对购置税进行补贴的影响,并在本季度销售了一部分的低价现车。由于毛利率再次回落,海豚君测算本季度小米汽车业务核心经营利润再度陷入亏损 31 亿元。

    小米2026年第一季度财报,主要受手机和汽车毛利率同比回落影响

    小米本季度汽车业务毛利率下滑至 20.1%,接近市场预期(20.5%),主要是受均价下滑的影响,其中包含了小米对购置税进行补贴的影响,并在本季度销售了一部分的低价现车。由于毛利率再次回落,海豚君测算本季度小米汽车业务核心经营利润再度陷入亏损 31 亿元。

  • NVDA英偉達2027財年第一季度財報,收入752億美元,環比增量為129億美元

    英伟达2027财年第一季度财报,收入752亿美元,环比增量为129亿美元

    NVDA核心经营指标:总收入816亿美元,好于上调后的买方预期(780-800亿美元),其中季度环比增长135亿美元,几乎都来自于数据中心业务中Blackwell量产增加的带动。

    英伟达2027财年第一季度财报,收入752亿美元,环比增量为129亿美元

    NVDA核心经营指标:总收入816亿美元,好于上调后的买方预期(780-800亿美元),其中季度环比增长135亿美元,几乎都来自于数据中心业务中Blackwell量产增加的带动。

  • BYD比亞迪2025年第四季度業績仍然不及預期,賣車單價仍處於下行軌道

    比亚迪2025年第四季度业绩仍然不及预期,卖车单价仍处于下行轨道

    比亚迪的业绩仍然不及预期。收入虽超预期,但主要由于非核心的比亚迪电子业务高增带来,而在核心的卖车业务上,卖车单价仍处于下行轨道,卖车成本降幅不够,最后卖车毛利率虽有回暖,但仍低于市场预期。

    比亚迪2025年第四季度业绩仍然不及预期,卖车单价仍处于下行轨道

    比亚迪的业绩仍然不及预期。收入虽超预期,但主要由于非核心的比亚迪电子业务高增带来,而在核心的卖车业务上,卖车单价仍处于下行轨道,卖车成本降幅不够,最后卖车毛利率虽有回暖,但仍低于市场预期。

  • GOOG谷歌TurboQuant新聞導緻MU美光科技等內存股股價暴跌,但這合理嗎?

    GOOG谷歌TurboQuant新闻导致MU美光科技等内存股股价暴跌,但这合理吗?

    消息一出,华尔街一度陷入恐慌:如果 AI 突然间不再需要那么多 RAM 就能运作,这是否意味着内存产业的“超级周期”即将结束?答案是否定的。事实上,从历史规律与经济学角度来看,情况正好相反。要理解这一点,我们只需要观察你电脑上的网页浏览器。

    GOOG谷歌TurboQuant新闻导致MU美光科技等内存股股价暴跌,但这合理吗?

    消息一出,华尔街一度陷入恐慌:如果 AI 突然间不再需要那么多 RAM 就能运作,这是否意味着内存产业的“超级周期”即将结束?答案是否定的。事实上,从历史规律与经济学角度来看,情况正好相反。要理解这一点,我们只需要观察你电脑上的网页浏览器。

  • BABA財報AI投入比較激進

    BABA财报AI投入比较激进

    BABA发布第四季财报后股价下跌,财报显示其营收和利润均大幅低于预期。这家電商巨头的季度净利暴跌67%,而总营收仅增长1.7%约413亿美元。这些表现引发了人们对阿里巴巴在AI人工智能领域巨额投资(总额超过530亿美元)有效性的担忧。

    BABA财报AI投入比较激进

    BABA发布第四季财报后股价下跌,财报显示其营收和利润均大幅低于预期。这家電商巨头的季度净利暴跌67%,而总营收仅增长1.7%约413亿美元。这些表现引发了人们对阿里巴巴在AI人工智能领域巨额投资(总额超过530亿美元)有效性的担忧。

  • MU美光業績,季度毛利率達到 74.4%!

    MU美光业绩,季度毛利率达到 74.4%!

    MU 整体业绩:美光本季度营收 238.6 亿美元,环比增长 75%,好于上调后的买方预期(199 亿美元),本季度收入增长主要来自于 DRAM 和 NAND 业务的双重带动,两大业务环增都在 70% 以上。

    MU美光业绩,季度毛利率达到 74.4%!

    MU 整体业绩:美光本季度营收 238.6 亿美元,环比增长 75%,好于上调后的买方预期(199 亿美元),本季度收入增长主要来自于 DRAM 和 NAND 业务的双重带动,两大业务环增都在 70% 以上。

  • Tencent騰訊業績整體看無驚無喜?

    腾讯业绩整体看无惊无喜?

    腾讯一口气连发多个“龙虾”产品,能够看出公司在元宝春节大战中失利后的焦虑,虽然仓促推出产品还不完善。不过这个紧迫感的转变很关键也很必要。就目前来看,微信入口似乎在 AI 原生应用盛行的当下仍然有无法撼动的地位。

    腾讯业绩整体看无惊无喜?

    腾讯一口气连发多个“龙虾”产品,能够看出公司在元宝春节大战中失利后的焦虑,虽然仓促推出产品还不完善。不过这个紧迫感的转变很关键也很必要。就目前来看,微信入口似乎在 AI 原生应用盛行的当下仍然有无法撼动的地位。

1 / 8
  • Sharpa機器人削蘋果

    Sharpa机器人削苹果

    对人类来说,削苹果是件轻而易举的晨间小事,但对机器人而言,这是双手协调能力的「终极挑战」。 Sharpa机器人正在为能够像人类一样灵巧地完成复杂家务和工业装配的机器人铺平道路。

    Sharpa机器人削苹果

    对人类来说,削苹果是件轻而易举的晨间小事,但对机器人而言,这是双手协调能力的「终极挑战」。 Sharpa机器人正在为能够像人类一样灵巧地完成复杂家务和工业装配的机器人铺平道路。

  • 腫瘤療法突破,中國團隊給癌細胞打上“豬”標簽,癌細胞“偽裝朮”被破解

    肿瘤疗法突破,中国团队给癌细胞打上“猪”标签,癌细胞“伪装术”被破解

    近期,中国科学家在“Cell”杂志上发表的一项突破性研究,为这一顽疾提供了全新思路。他们利用基因编辑技术,将癌细胞改造成免疫系统眼中的“异类”,类似于人体对猪器官产生的超急性排斥反应,从而引发了一场针对癌细胞的精准“免疫歼灭战”。

    肿瘤疗法突破,中国团队给癌细胞打上“猪”标签,癌细胞“伪装术”被破解

    近期,中国科学家在“Cell”杂志上发表的一项突破性研究,为这一顽疾提供了全新思路。他们利用基因编辑技术,将癌细胞改造成免疫系统眼中的“异类”,类似于人体对猪器官产生的超急性排斥反应,从而引发了一场针对癌细胞的精准“免疫歼灭战”。

  • 新型大腦設備首次讀出內心聲音,腦機接口技朮打破失語者困境

    新型大脑设备首次读出内心声音,脑机接口技术打破失语者困境

    新系统的核心原理与常见的“尝试说话”型脑机介面相似,都是在大脑运动皮质植入感测器,这一区域负责向声道肌肉下达运动指令。感测器捕捉到的神经活动会送入机器学习模型,模型依据个人化数据判断信号对应的声音,进而预测使用者想说的单字。

    新型大脑设备首次读出内心声音,脑机接口技术打破失语者困境

    新系统的核心原理与常见的“尝试说话”型脑机介面相似,都是在大脑运动皮质植入感测器,这一区域负责向声道肌肉下达运动指令。感测器捕捉到的神经活动会送入机器学习模型,模型依据个人化数据判断信号对应的声音,进而预测使用者想说的单字。

  • “垃圾DNA”新發現:遠古病毒DNA在人類發育中發揮關鍵作用

    “垃圾DNA”新发现:远古病毒DNA在人类发育中发挥关键作用

    自这类非编码DNA片段首次被发现并被称作“垃圾”以来,生物学家们一直在探讨它们是否真的无用。如今的主流观点认为,这些片段虽不直接参与蛋白质合成,却在整体基因组中占据了极大比例,显示它们可能具有重要功能。

    “垃圾DNA”新发现:远古病毒DNA在人类发育中发挥关键作用

    自这类非编码DNA片段首次被发现并被称作“垃圾”以来,生物学家们一直在探讨它们是否真的无用。如今的主流观点认为,这些片段虽不直接参与蛋白质合成,却在整体基因组中占据了极大比例,显示它们可能具有重要功能。

1 / 4
1 / 4
  • 從中國經濟看背後困境及發展新構想?

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

  • 在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

  • 再見愛人:探索現代婚姻中的情感困境

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

  • 抖音短劇新風潮:中老年人成為新的增長點?

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

1 / 4