中國科學家發布通才智能體完全解鎖《我的世界》,像人類一樣生存,探索和創造!

中國科學家發布通才智能體完全解鎖《我的世界》,像人類一樣生存,探索和創造!

發布日期:

科技 Tech


要點:
一個理想的AI應該具有與人類類似的能力。遊戲“我的世界”里的AI不管是根據其當前的技能水平和世界狀態提出合適的任務、根據環境反饋完善技能并將掌握的技能存入記憶,還是不斷探索世界,以自驅動的方式尋找新任務,其實都已經和現實世界中人類的決策過程和行為方式非常相近。

致力於傳播優質的中國知識內容、搆建全球新共識。我們將通過一系列時事資訊、精品課程、論壇、節目、咨詢報告等內容產品,提供關於當代中國的最新的輿論思潮、深入的社會觀察、亮眼的科技成就等優質信息。我們已與五大洲十多個國家、百余個研究機搆、媒體機搆、政治團體、民間組織建立合作關系。希望通過我們的工作在海外分享中國經驗,講述中國故事,客觀分析我們共同面對的挑戰和機遇,攜手全球青年尋找全球化發展的新共識。
聯系我們 // Substack // Twitter // YouTube//相關文章

你是否喜歡在“Minecraft”廣闊多樣的世界中冒險,挖掘資源,制造工具和建造建筑物?你是否想要一個伙伴來和你一起探險?清華大學和中國科學院的研究人員開發了一個新的AI智能體,可以陪伴你完成任務。他們稱之為Minecraft中的幽靈/Ghost in Minecraft, 簡稱GITM,它不是你平常見到的普通機器人。

Minecraft中的AI智能體們卻面臨着一種有趣的莫拉維克悖論:對於人類來說具有挑戰性的任務,如下棋對於AI來說相對簡單,而對於人類來說通常很容易的任務(如在像Minecraft這樣的開放世界環境中進行互動和決策)卻對AI來說是巨大的挑戰。

via GIPHY

GITM成功地克服了這個悖論,在一個復雜、逼真的環境中取得了重大突破。這對AI技朮的潛在進步和更通用的AI智能體的開發做出了巨大貢獻。

GITM是一個通用智能體/Generally Capable Agent, 簡稱GCA,意味着它可以處理任何任務而不需要特定的培訓或指令。它使用大型語言模型/Large Language Model,簡稱LLM實現這種能力,這基本上意味着它擁有對單詞和常識的廣泛理解。GITM通過自然語言與你交流,并理解你的預期結果。此外,它使用基於文本的知識和記憶來存儲和檢索有用的信息,例如配方、位置和目標。


GITM 在 Minecraft 主世界的所有技術挑戰中實現了 100% 的任務覆蓋率(成功解鎖了完整的技術樹),而之前所有智能加起來只能覆蓋 30%。

研究人員在Minecraft中的一個流行任務“獲取鑽石”上測試了GITM,其任務是找到并挖掘一顆鑽石。這不是一個容易的任務,因為鑽石很少,而且在地下很深處,智能體還必須在途中生存各種危險,如熔岩、怪物和飢餓。以前使用強化學習/RL的方法只能實現約20%的成功率,這意味着它們失敗了5次中的4次。而GITM則取得了驚人的67.5%的成功率,這意味着它在3次嘗試中成功了2次。這是一個巨大的改進!

但GITM并不滿足於鑽石。GITM可以獲得游戲中的所有物品,從木材到玉髓。它可以制造工具、武器和裝甲,建造庇護所和農場,甚至馴服動物。它可以做任何你能做的事情,而且可能做得更好。

GITM是如何實現這一切的呢?它釆用了一種巧妙的方法。以前的AI智能體很難將Minecraft中的復雜目標與完成所需的精確鼠標和鍵槃操作聯系起來。然而,GITM釆用LLM根據當前情況和期望目標生成行動計划。LLM由三個組成部分組成:

LLM Decomposer:利用外部知識,如互聯網上的游戲知識庫,將復雜任務分解為簡單的子任務。

LLM Planner:計為每個子任務制規划一系列的結搆化動作,并根據反饋信息調整規划,還能通過不斷總結成功經驗提升自己

LLM Interface:使用底層的鍵槃鼠標操作執行結搆化動作,并在與環境交互的過程中獲取觀察信息

例如,如果GITM想要制作地獄傳送門,它可以詢問LLM如何制作,LLM會告訴它類似於以下內容:
- 找一些黑曜石、燧石和鋼
- 將黑曜石放在一個4x5的矩形中心有一個2x3的洞
- 用燧石和鋼在底部的黑曜石塊上點燃火
- 進入傳送門

GITM可以逐步執行這些步驟,并使用基於文本的記憶來跟蹤它已經做了什么和接下來需要做什么。它還可以使用基於文本的知識來查找任何需要的信息,例如配方、位置和物品屬性。例如,如果GITM想知道在哪里找到黑曜石,它可以詢問LLM,LLM會告訴它類似於以下內容:
- 黑曜石是一種稀有塊,可以在熔岩池附近找到
- 它有一種深紫色的顏色,很硬
- 它可以用鑽石鎬或更好的工具開釆
- 它是當水遇到熔岩時形成的

GITM可以使用這些信息來指導它的探索和挖掘活動。值得注意的是,GITM不需要GPU進行訓練;一個具有32個CPU核心的單個CPU節點就足夠了。這意味着一個不錯的筆記本電腦就足以運行GITM,相比於OpenAI的VPT和DeepMind的DreamerV3,它可以提高效率至少10,000倍。你甚至可以從它們的GitHub頁面下載代碼并嘗試它自己。

GITM的意義超越了電腦游戲。它代表着可以探索和與環境(虛擬的情況下)交互,并制定策略、自主執行的最新版本的通用智能體。想象一下,有一天,這樣的GCA可以通過傳感器和智能設備進入我們的現實世界,以自主的方式解決我們的現實問題。讓我們屏吸期待。

致力於傳播優質的中國知識內容、搆建全球新共識。我們將通過一系列時事資訊、精品課程、論壇、節目、咨詢報告等內容產品,提供關於當代中國的最新的輿論思潮、深入的社會觀察、亮眼的科技成就等優質信息。我們已與五大洲十多個國家、百余個研究機搆、媒體機搆、政治團體、民間組織建立合作關系。希望通過我們的工作在海外分享中國經驗,講述中國故事,客觀分析我們共同面對的挑戰和機遇,攜手全球青年尋找全球化發展的新共識。
聯系我們 // Substack // Twitter // YouTube//相關文章

免責聲明:本網站提供的信息僅供一般信息分享目的,並不應被視為投資建議。

返回網誌
  • LULU財報營收不及市場預期,表現讓人失望!

    LULU財報營收不及市場預期,表現讓人失望!

    整體上,不達預期的二季度業績加上再次下修的全年指引,使得公司盤後估計再次暴跌 15% 以上,核心還是在於無論是本季度的業績,還是公司對未來的指引,非但沒有成長性的邊際好轉反而還在惡化,沒季財報噩耗連珠,因此只能繼續殺估值。

    LULU財報營收不及市場預期,表現讓人失望!

    整體上,不達預期的二季度業績加上再次下修的全年指引,使得公司盤後估計再次暴跌 15% 以上,核心還是在於無論是本季度的業績,還是公司對未來的指引,非但沒有成長性的邊際好轉反而還在惡化,沒季財報噩耗連珠,因此只能繼續殺估值。

  • 對話前OpenAI科學家:GPT-5能獲得奧賽金牌,但那可能具有欺騙性? | 播客Podcast

    對話前OpenAI科學家:GPT-5能獲得奧賽金牌,但那可能具有欺騙性? | 播客Podcast

    對話 OpenAI 的兩位前科學家:Kenneth Stanley和Joel Lehman;他們曾親歷前ChatGPT 時代的OpenAI,也是《為什麼偉大不能被計劃》一書的作者。2023 年,這本書曾在中國科技圈掀起閱讀的趨勢。那正是ChatGPT 席捲全球、掀開大模型浪潮的一年。

    對話前OpenAI科學家:GPT-5能獲得奧賽金牌,但那可能具有欺騙性? | 播客Podcast

    對話 OpenAI 的兩位前科學家:Kenneth Stanley和Joel Lehman;他們曾親歷前ChatGPT 時代的OpenAI,也是《為什麼偉大不能被計劃》一書的作者。2023 年,這本書曾在中國科技圈掀起閱讀的趨勢。那正是ChatGPT 席捲全球、掀開大模型浪潮的一年。

  • BABA最新財報,阿里雲增長和利潤率雙提升

    BABA最新財報,阿里雲增長和利潤率雙提升

    BABA 最新一季業績,整體來看雖因外賣大戰導致的虧損同樣比預期要高,但相比京東、美團兩家的利潤清空,明顯要好。且除此之外幾乎沒有缺點,CMR 保持不俗增長,阿里雲增長和利潤率雙提升,國際電商板塊也超預期近乎扭虧,整體來看無疑不錯。

    BABA最新財報,阿里雲增長和利潤率雙提升

    BABA 最新一季業績,整體來看雖因外賣大戰導致的虧損同樣比預期要高,但相比京東、美團兩家的利潤清空,明顯要好。且除此之外幾乎沒有缺點,CMR 保持不俗增長,阿里雲增長和利潤率雙提升,國際電商板塊也超預期近乎扭虧,整體來看無疑不錯。

  • NVDA英偉達財報整體符合預期

    NVDA英偉達財報整體符合預期

    NVDA 本季度計算收入 338.4 億美元,網絡業務收入 72.5 億美元。其中本季度計算收入環比增長有所放緩,主要受 H20 被禁售向中國的影響。由於下游部分客户更加期待後續量產的 GB300 產品,各家也陸續調高了下半年的資本開支。

    NVDA英偉達財報整體符合預期

    NVDA 本季度計算收入 338.4 億美元,網絡業務收入 72.5 億美元。其中本季度計算收入環比增長有所放緩,主要受 H20 被禁售向中國的影響。由於下游部分客户更加期待後續量產的 GB300 產品,各家也陸續調高了下半年的資本開支。

  • BILI嗶哩嗶哩2025年二季度財報,整體收入基本符合指引

    BILI嗶哩嗶哩2025年二季度財報,整體收入基本符合指引

    BILI利潤超預期,這次亮點仍然是盈利端,明顯超市場預期,但主要是營銷費用較低帶來。二季度雖然沒新遊本身營銷費用理應不多,但《三謀》有周年慶活動,年初幾次賽季更新變動也不小,因此也並非完全不需要額外的營銷。

    BILI嗶哩嗶哩2025年二季度財報,整體收入基本符合指引

    BILI利潤超預期,這次亮點仍然是盈利端,明顯超市場預期,但主要是營銷費用較低帶來。二季度雖然沒新遊本身營銷費用理應不多,但《三謀》有周年慶活動,年初幾次賽季更新變動也不小,因此也並非完全不需要額外的營銷。

  • BIDU百度二季度業績略超預期

    BIDU百度二季度業績略超預期

    百度智慧雲預期中高增長:雲業務在當下是風口,高增長自然沒得説。不過少了上季度的驚豔,二季度的 27% 增長符合市場大部分預期,利好早已經打入估值。廣告陷痛苦轉型期:轉型的陣痛開始變得醒目,目前搜索結果中 AI 生成內容的滲透率已經提高至 64%。

    BIDU百度二季度業績略超預期

    百度智慧雲預期中高增長:雲業務在當下是風口,高增長自然沒得説。不過少了上季度的驚豔,二季度的 27% 增長符合市場大部分預期,利好早已經打入估值。廣告陷痛苦轉型期:轉型的陣痛開始變得醒目,目前搜索結果中 AI 生成內容的滲透率已經提高至 64%。

  • LABUBU泡泡瑪特2025年H1業績,利潤均超過了去年全年水平

    LABUBU泡泡瑪特2025年H1業績,利潤均超過了去年全年水平

    THE MONSTERS 系列目前作為泡泡瑪特的第一大 IP,經過近一年的 “狂飆”,目前銷售佔比已經接近 35%,這還是在公司主動控貨的情況下。這意味着明年在高基數的情況下,如果消費者對 LABUBU 產生審美疲勞,對泡泡瑪特整體的業績衝擊會比較大。

    LABUBU泡泡瑪特2025年H1業績,利潤均超過了去年全年水平

    THE MONSTERS 系列目前作為泡泡瑪特的第一大 IP,經過近一年的 “狂飆”,目前銷售佔比已經接近 35%,這還是在公司主動控貨的情況下。這意味着明年在高基數的情況下,如果消費者對 LABUBU 產生審美疲勞,對泡泡瑪特整體的業績衝擊會比較大。

  • 小米2025年第二季度財報,汽車業務毛利率繼續提升!

    小米2025年第二季度財報,汽車業務毛利率繼續提升!

    小米公司本季度汽車出貨量 8.1 萬台,單車均價進一步提升至 25.3 萬元。主要是受 Ultra 車型等高價車型出貨,結構性帶動均價提升。本季度汽車業務毛利率繼續提升至 26.4%,再超市場預期 23.5%,主要是受均價提升和規模效應的帶動。

    小米2025年第二季度財報,汽車業務毛利率繼續提升!

    小米公司本季度汽車出貨量 8.1 萬台,單車均價進一步提升至 25.3 萬元。主要是受 Ultra 車型等高價車型出貨,結構性帶動均價提升。本季度汽車業務毛利率繼續提升至 26.4%,再超市場預期 23.5%,主要是受均價提升和規模效應的帶動。

1 / 8
1 / 4
1 / 4
  • 從中國經濟看背後困境及發展新構想?

    從中國經濟看背後困境及發展新構想?

    中國未來發展或許可以參考“五環搆想”進行戰略布局。這一搆想包括高等教育培訓、創新科技驅動、產品生產銷售、市場推廣營銷、出海戰略佈局五大領域。通過“五環搆想”的實施,中國經濟可能有一個全新的契機注入新的動力,推動經濟穩定健康發展。

    從中國經濟看背後困境及發展新構想?

    中國未來發展或許可以參考“五環搆想”進行戰略布局。這一搆想包括高等教育培訓、創新科技驅動、產品生產銷售、市場推廣營銷、出海戰略佈局五大領域。通過“五環搆想”的實施,中國經濟可能有一個全新的契機注入新的動力,推動經濟穩定健康發展。

  • 在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    隨著時代的變遷,人生價值的內涵也變得更加多樣化和個性化。每個人對於“成功”和“幸福”的理解不同,有些人追求的是即時的快樂和成就感,而有些人則看重長期的進步和自我超越。

    在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    隨著時代的變遷,人生價值的內涵也變得更加多樣化和個性化。每個人對於“成功”和“幸福”的理解不同,有些人追求的是即時的快樂和成就感,而有些人則看重長期的進步和自我超越。

  • 再見愛人:探索現代婚姻中的情感困境

    再見愛人:探索現代婚姻中的情感困境

    芒果TV婚姻紀實觀察節目“再見愛人4”邀請黃聖依、楊子,麥琳、李行亮,葛夕、劉爽三對情感關系10年以上的夫妻,以“婚姻紀實觀察”為切口,呈現出不同婚姻樣本在親密關系中的掙扎與甜蜜、桎梏與覺醒。

    再見愛人:探索現代婚姻中的情感困境

    芒果TV婚姻紀實觀察節目“再見愛人4”邀請黃聖依、楊子,麥琳、李行亮,葛夕、劉爽三對情感關系10年以上的夫妻,以“婚姻紀實觀察”為切口,呈現出不同婚姻樣本在親密關系中的掙扎與甜蜜、桎梏與覺醒。

  • 抖音短劇新風潮:中老年人成為新的增長點?

    抖音短劇新風潮:中老年人成為新的增長點?

    近日,不少以老年人為主角的抖音短劇“閃婚五十歲”、“金榜題名之母憑子貴”、“人到五十,閃婚霸總”等等登上熱度榜單。老年人的婚姻、情感以及生活故事,成了當下短劇創作的“新流量密碼”。

    抖音短劇新風潮:中老年人成為新的增長點?

    近日,不少以老年人為主角的抖音短劇“閃婚五十歲”、“金榜題名之母憑子貴”、“人到五十,閃婚霸總”等等登上熱度榜單。老年人的婚姻、情感以及生活故事,成了當下短劇創作的“新流量密碼”。

1 / 4