要点:
一个理想的AI应该具有与人类类似的能力。游戏“我的世界”里的AI不管是根据其当前的技能水平和世界状态提出合适的任务、根据环境反馈完善技能并将掌握的技能存入记忆,还是不断探索世界,以自驱动的方式寻找新任务,其实都已经和现实世界中人类的决策过程和行为方式非常相近。
致力于传播优质的中国知识内容、构建全球新共识。我们将通过一系列时事资讯、精品课程、论坛、节目、咨询报告等内容产品,提供关于当代中国的最新的舆论思潮、深入的社会观察、亮眼的科技成就等优质信息。我们已与五大洲十多个国家、百余个研究机构、媒体机构、政治团体、民间组织建立合作关系。希望通过我们的工作在海外分享中国经验,讲述中国故事,客观分析我们共同面对的挑战和机遇,携手全球青年寻找全球化发展的新共识。
联系我们// Substack // Twitter // YouTube // 相关文章
你是否喜欢在“Minecraft”广阔多样的世界中冒险,挖掘资源,制造工具和建造建筑物?你是否想要一个伙伴来和你一起探险?清华大学和中国科学院的研究人员开发了一个新的AI智能体,可以陪伴你完成任务。他们称之为Minecraft中的幽灵/Ghost in Minecraft, 简称GITM,它不是你平常见到的普通机器人。
Minecraft中的AI智能体们却面临着一种有趣的莫拉维克悖论:对于人类来说具有挑战性的任务,如下棋对于AI来说相对简单,而对于人类来说通常很容易的任务(如在像Minecraft这样的开放世界环境中进行互动和决策)却对AI来说是巨大的挑战。
GITM成功地克服了这个悖论,在一个复杂、逼真的环境中取得了重大突破。这对AI技术的潜在进步和更通用的AI智能体的开发做出了巨大贡献。
GITM是一个通用智能体/Generally Capable Agent, 简称GCA,意味着它可以处理任何任务而不需要特定的培训或指令。它使用大型语言模型/Large Language Model,简称LLM实现这种能力,这基本上意味着它拥有对单词和常识的广泛理解。 GITM通过自然语言与你交流,并理解你的预期结果。此外,它使用基于文本的知识和记忆来存储和检索有用的信息,例如配方、位置和目标。
GITM 在Minecraft 主世界的所有技术挑战中实现了100% 的任务覆盖率(成功解锁了完整的技术树),而之前所有智能加起来只能覆盖30%。
研究人员在Minecraft中的一个流行任务“获取钻石”上测试了GITM,其任务是找到并挖掘一颗钻石。这不是一个容易的任务,因为钻石很少,而且在地下很深处,智能体还必须在途中生存各种危险,如熔岩、怪物和饥饿。以前使用强化学习/RL的方法只能实现约20%的成功率,这意味着它们失败了5次中的4次。而GITM则取得了惊人的67.5%的成功率,这意味着它在3次尝试中成功了2次。这是一个巨大的改进!
但GITM并不满足于钻石。 GITM可以获得游戏中的所有物品,从木材到玉髓。它可以制造工具、武器和装甲,建造庇护所和农场,甚至驯服动物。它可以做任何你能做的事情,而且可能做得更好。
GITM是如何实现这一切的呢?它釆用了一种巧妙的方法。以前的AI智能体很难将Minecraft中的复杂目标与完成所需的精确鼠标和键槃操作联系起来。然而,GITM釆用LLM根据当前情况和期望目标生成行动计划。 LLM由三个组成部分组成:
LLM Decomposer:利用外部知识,如互联网上的游戏知识库,将复杂任务分解为简单的子任务。
LLM Planner:计为每个子任务制规划一系列的结构化动作,并根据反馈信息调整规划,还能通过不断总结成功经验提升自己
LLM Interface:使用底层的键槃鼠标操作执行结构化动作,并在与环境交互的过程中获取观察信息
例如,如果GITM想要制作地狱传送门,它可以询问LLM如何制作,LLM会告诉它类似于以下内容:
- 找一些黑曜石、燧石和钢
- 将黑曜石放在一个4x5的矩形中心有一个2x3的洞
- 用燧石和钢在底部的黑曜石块上点燃火
- 进入传送门
GITM可以逐步执行这些步骤,并使用基于文本的记忆来跟踪它已经做了什么和接下来需要做什么。它还可以使用基于文本的知识来查找任何需要的信息,例如配方、位置和物品属性。例如,如果GITM想知道在哪里找到黑曜石,它可以询问LLM,LLM会告诉它类似于以下内容:
- 黑曜石是一种稀有块,可以在熔岩池附近找到
- 它有一种深紫色的颜色,很硬
- 它可以用钻石镐或更好的工具开釆
- 它是当水遇到熔岩时形成的
GITM可以使用这些信息来指导它的探索和挖掘活动。值得注意的是,GITM不需要GPU进行训练;一个具有32个CPU核心的单个CPU节点就足够了。这意味着一个不错的笔记本电脑就足以运行GITM,相比于OpenAI的VPT和DeepMind的DreamerV3,它可以提高效率至少10,000倍。 你甚至可以从它们的GitHub页面下载代码并尝试它自己。
GITM的意义超越了电脑游戏。它代表着可以探索和与环境(虚拟的情况下)交互,并制定策略、自主执行的最新版本的通用智能体。想象一下,有一天,这样的GCA可以通过传感器和智能设备进入我们的现实世界,以自主的方式解决我们的现实问题。让我们屏吸期待。