中國科學家發布通才智能體完全解鎖《我的世界》,像人類一樣生存,探索和創造!

中国科学家发布通才智能体完全解锁《我的世界》,像人类一样生存,探索和创造!

發布日期:

科技 Tech


要点:
一个理想的AI应该具有与人类类似的能力。游戏“我的世界”里的AI不管是根据其当前的技能水平和世界状态提出合适的任务、根据环境反馈完善技能并将掌握的技能存入记忆,还是不断探索世界,以自驱动的方式寻找新任务,其实都已经和现实世界中人类的决策过程和行为方式非常相近。

致力于传播优质的中国知识内容、构建全球新共识。我们将通过一系列时事资讯、精品课程、论坛、节目、咨询报告等内容产品,提供关于当代中国的最新的舆论思潮、深入的社会观察、亮眼的科技成就等优质信息。我们已与五大洲十多个国家、百余个研究机构、媒体机构、政治团体、民间组织建立合作关系。希望通过我们的工作在海外分享中国经验,讲述中国故事,客观分析我们共同面对的挑战和机遇,携手全球青年寻找全球化发展的新共识。
联系我们// Substack // Twitter // YouTube // 相关文章

你是否喜欢在“Minecraft”广阔多样的世界中冒险,挖掘资源,制造工具和建造建筑物?你是否想要一个伙伴来和你一起探险?清华大学和中国科学院的研究人员开发了一个新的AI智能体,可以陪伴你完成任务。他们称之为Minecraft中的幽灵/Ghost in Minecraft, 简称GITM,它不是你平常见到的普通机器人。

Minecraft中的AI智能体们却面临着一种有趣的莫拉维克悖论:对于人类来说具有挑战性的任务,如下棋对于AI来说相对简单,而对于人类来说通常很容易的任务(如在像Minecraft这样的开放世界环境中进行互动和决策)却对AI来说是巨大的挑战。

via GIPHY

GITM成功地克服了这个悖论,在一个复杂、逼真的环境中取得了重大突破。这对AI技术的潜在进步和更通用的AI智能体的开发做出了巨大贡献。

GITM是一个通用智能体/Generally Capable Agent, 简称GCA,意味着它可以处理任何任务而不需要特定的培训或指令。它使用大型语言模型/Large Language Model,简称LLM实现这种能力,这基本上意味着它拥有对单词和常识的广泛理解。 GITM通过自然语言与你交流,并理解你的预期结果。此外,它使用基于文本的知识和记忆来存储和检索有用的信息,例如配方、位置和目标。


GITM 在Minecraft 主世界的所有技术挑战中实现了100% 的任务覆盖率(成功解锁了完整的技术树),而之前所有智能加起来只能覆盖30%。

研究人员在Minecraft中的一个流行任务“获取钻石”上测试了GITM,其任务是找到并挖掘一颗钻石。这不是一个容易的任务,因为钻石很少,而且在地下很深处,智能体还必须在途中生存各种危险,如熔岩、怪物和饥饿。以前使用强化学习/RL的方法只能实现约20%的成功率,这意味着它们失败了5次中的4次。而GITM则取得了惊人的67.5%的成功率,这意味着它在3次尝试中成功了2次。这是一个巨大的改进!

但GITM并不满足于钻石。 GITM可以获得游戏中的所有物品,从木材到玉髓。它可以制造工具、武器和装甲,建造庇护所和农场,甚至驯服动物。它可以做任何你能做的事情,而且可能做得更好。

GITM是如何实现这一切的呢?它釆用了一种巧妙的方法。以前的AI智能体很难将Minecraft中的复杂目标与完成所需的精确鼠标和键槃操作联系起来。然而,GITM釆用LLM根据当前情况和期望目标生成行动计划。 LLM由三个组成部分组成:

LLM Decomposer:利用外部知识,如互联网上的游戏知识库,将复杂任务分解为简单的子任务。

LLM Planner:计为每个子任务制规划一系列的结构化动作,并根据反馈信息调整规划,还能通过不断总结成功经验提升自己

LLM Interface:使用底层的键槃鼠标操作执行结构化动作,并在与环境交互的过程中获取观察信息

例如,如果GITM想要制作地狱传送门,它可以询问LLM如何制作,LLM会告诉它类似于以下内容:
- 找一些黑曜石、燧石和钢
- 将黑曜石放在一个4x5的矩形中心有一个2x3的洞
- 用燧石和钢在底部的黑曜石块上点燃火
- 进入传送门

GITM可以逐步执行这些步骤,并使用基于文本的记忆来跟踪它已经做了什么和接下来需要做什么。它还可以使用基于文本的知识来查找任何需要的信息,例如配方、位置和物品属性。例如,如果GITM想知道在哪里找到黑曜石,它可以询问LLM,LLM会告诉它类似于以下内容:
- 黑曜石是一种稀有块,可以在熔岩池附近找到
- 它有一种深紫色的颜色,很硬
- 它可以用钻石镐或更好的工具开釆
- 它是当水遇到熔岩时形成的

GITM可以使用这些信息来指导它的探索和挖掘活动。值得注意的是,GITM不需要GPU进行训练;一个具有32个CPU核心的单个CPU节点就足够了。这意味着一个不错的笔记本电脑就足以运行GITM,相比于OpenAI的VPT和DeepMind的DreamerV3,它可以提高效率至少10,000倍。 你甚至可以从它们的GitHub页面下载代码并尝试它自己。

GITM的意义超越了电脑游戏。它代表着可以探索和与环境(虚拟的情况下)交互,并制定策略、自主执行的最新版本的通用智能体。想象一下,有一天,这样的GCA可以通过传感器和智能设备进入我们的现实世界,以自主的方式解决我们的现实问题。让我们屏吸期待。

致力于传播优质的中国知识内容、构建全球新共识。我们将通过一系列时事资讯、精品课程、论坛、节目、咨询报告等内容产品,提供关于当代中国的最新的舆论思潮、深入的社会观察、亮眼的科技成就等优质信息。我们已与五大洲十多个国家、百余个研究机构、媒体机构、政治团体、民间组织建立合作关系。希望通过我们的工作在海外分享中国经验,讲述中国故事,客观分析我们共同面对的挑战和机遇,携手全球青年寻找全球化发展的新共识。
联系我们// Substack // Twitter // YouTube // 相关文章

免責聲明:本網站提供的信息僅供一般信息分享目的,並不應被視為投資建議。

返回博客
  • Plaud Note AI | 播客Podcast

    Plaud Note AI | 播客Podcast

    Plaud Note AI 技术:Plaud APP 整合先进的转录功能,支援112 种语言的快速准确转录。 AI 摘要功能基于GPT-5、Claude 4.0、o3-mini 和Gemini 2.5 Pro(Beta 版)开发,使用者可以建立摘要、会议记录和待办事项列表,从而提高日常工作效率。

    Plaud Note AI | 播客Podcast

    Plaud Note AI 技术:Plaud APP 整合先进的转录功能,支援112 种语言的快速准确转录。 AI 摘要功能基于GPT-5、Claude 4.0、o3-mini 和Gemini 2.5 Pro(Beta 版)开发,使用者可以建立摘要、会议记录和待办事项列表,从而提高日常工作效率。

  • Costco財報反映了美國中產的狀況

    Costco財報反映了美國中產的狀況

    雖然近幾個季度 Costco 的客單價(剔除匯率和油氣)並沒有明顯向上的趨勢,但似乎仍是體現出了消費者因價格走高,轉向更便宜的消費驅動的傾向。這一點從 Costco 自身更強的線上增長,以及偏弱的續費了也都有體現。

    Costco財報反映了美國中產的狀況

    雖然近幾個季度 Costco 的客單價(剔除匯率和油氣)並沒有明顯向上的趨勢,但似乎仍是體現出了消費者因價格走高,轉向更便宜的消費驅動的傾向。這一點從 Costco 自身更強的線上增長,以及偏弱的續費了也都有體現。

  • AI桌面寵物ROPET | 播客Podcast

    AI桌面宠物ROPET | 播客Podcast

    ROPET作为“桌面宠物”诞生,目标用户是25-40岁的女性。今年1月,ROPET在海外众筹网站上正式发行,在欧美国家售卖了1400台,目前正陆续交付;在日本、韩国和港台地区也已售出8000台左右。

    AI桌面宠物ROPET | 播客Podcast

    ROPET作为“桌面宠物”诞生,目标用户是25-40岁的女性。今年1月,ROPET在海外众筹网站上正式发行,在欧美国家售卖了1400台,目前正陆续交付;在日本、韩国和港台地区也已售出8000台左右。

  • NIO自4月低位股價翻倍,蔚來真能「重生」 嗎?

    NIO自4月低位股价翻倍,蔚来真能「重生」 吗?

    蔚来之后的爆品周期还能持续吗?这个问题是蔚来最为重要的问题。因为对大多数车企来看,真正大级别的机会都是产品、技术和组织等等问题梳理清楚之后,用一个新平台来推动一个较长时间的新车周期,新周期不是靠单一一款车的爆量,而是新平台下矩阵式的车型爆量。

    NIO自4月低位股价翻倍,蔚来真能「重生」 吗?

    蔚来之后的爆品周期还能持续吗?这个问题是蔚来最为重要的问题。因为对大多数车企来看,真正大级别的机会都是产品、技术和组织等等问题梳理清楚之后,用一个新平台来推动一个较长时间的新车周期,新周期不是靠单一一款车的爆量,而是新平台下矩阵式的车型爆量。

  • 美股、 港股及A股處於調整,調整後將再創高峰 | 視頻Video

    美股、 港股及A股处于调整,调整后将再创高峰 | 视频Video

    就业市场转弱,金融系统里面的流动性过剩几乎接近用尽,美联署9月份FOMC 应该减息,但市场可能很大程度上已反映减息一码(0.25%),FedWatch 显示机会率90% ,只减一码,未必有力再升,甚至到跌。

    美股、 港股及A股处于调整,调整后将再创高峰 | 视频Video

    就业市场转弱,金融系统里面的流动性过剩几乎接近用尽,美联署9月份FOMC 应该减息,但市场可能很大程度上已反映减息一码(0.25%),FedWatch 显示机会率90% ,只减一码,未必有力再升,甚至到跌。

  • 以色列科技創新,中國能學到什麼?硬科技VC的十年復盤 | 播客Podcast

    以色列科技创新,中国能学到什么?硬科技VC的十年复盘| 播客Podcast

    对话非金融出身、无耀眼光环的理工科年轻人闯入VC行业,经过大浪淘沙,在整个中国VC行业经历巨大转变之际,仍然活在牌桌上。其中,既有硬科技领域的扎实累积、方​​法论,也能看出,他们充分利用了中国市场和人才。

    以色列科技创新,中国能学到什么?硬科技VC的十年复盘| 播客Podcast

    对话非金融出身、无耀眼光环的理工科年轻人闯入VC行业,经过大浪淘沙,在整个中国VC行业经历巨大转变之际,仍然活在牌桌上。其中,既有硬科技领域的扎实累积、方​​法论,也能看出,他们充分利用了中国市场和人才。

  • LULU財報營收不及市場預期,表現讓人失望!

    LULU财报营收不及市场预期,表现让人失望!

    整体上,不达预期的二季度业绩加上再次下修的全年指引,使得公司盘后估计再次暴跌15% 以上,核心还是在于无论是本季度的业绩,还是公司对未来的指引,非但没有成长性的边际好转反而还在恶化,没季财报噩耗连珠,因此只能继续杀估值。

    LULU财报营收不及市场预期,表现让人失望!

    整体上,不达预期的二季度业绩加上再次下修的全年指引,使得公司盘后估计再次暴跌15% 以上,核心还是在于无论是本季度的业绩,还是公司对未来的指引,非但没有成长性的边际好转反而还在恶化,没季财报噩耗连珠,因此只能继续杀估值。

  • 對話前OpenAI科學家:GPT-5能獲得奧賽金牌,但那可能具有欺騙性? | 播客Podcast

    对话前OpenAI科学家:GPT-5能获得奥赛金牌,但那可能具有欺骗性? | 播客Podcast

    对话OpenAI 的两位前科学家:Kenneth Stanley和Joel Lehman;他们曾亲历前ChatGPT 时代的OpenAI,也是《为什么伟大不能被计划》一书的作者。 2023 年,这本书曾在中国科技圈掀起阅读的趋势。那正是ChatGPT 席卷全球、掀开大模型浪潮的一年。

    对话前OpenAI科学家:GPT-5能获得奥赛金牌,但那可能具有欺骗性? | 播客Podcast

    对话OpenAI 的两位前科学家:Kenneth Stanley和Joel Lehman;他们曾亲历前ChatGPT 时代的OpenAI,也是《为什么伟大不能被计划》一书的作者。 2023 年,这本书曾在中国科技圈掀起阅读的趋势。那正是ChatGPT 席卷全球、掀开大模型浪潮的一年。

1 / 8
1 / 4
1 / 4
  • 從中國經濟看背後困境及發展新構想?

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

  • 在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

  • 再見愛人:探索現代婚姻中的情感困境

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

  • 抖音短劇新風潮:中老年人成為新的增長點?

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

1 / 4