Meta首席人工智能科學家Yann LeCun的AI世界模型正式推出: 自監督視覺模型,可像人一樣理解世界并作出預測?

Meta首席人工智能科學家Yann LeCun的AI世界模型正式推出: 自監督視覺模型,可像人一樣理解世界并作出預測?

發布日期:

科技 Tech


要點:
Yann LeCun所提出的“世界模型”: 它先學習世界運作方式,而后形成一個內部模型,再通過這個內部模型來更快速地學習,為完成復雜任務做出計划,并且隨時應對不熟悉的新情況。而具體到I-JEPA,其在補全圖像的過程中,它比較的是圖像的抽象表徵,而不是比較像素本身。這個方式與我們人類認識世界的方式頗為一致。

致力於傳播優質的中國知識內容、搆建全球新共識。我們將通過一系列時事資訊、精品課程、論壇、節目、咨詢報告等內容產品,提供關於當代中國的最新的輿論思潮、深入的社會觀察、亮眼的科技成就等優質信息。我們已與五大洲十多個國家、百余個研究機搆、媒體機搆、政治團體、民間組織建立合作關系。希望通過我們的工作在海外分享中國經驗,講述中國故事,客觀分析我們共同面對的挑戰和機遇,攜手全球青年尋找全球化發展的新共識。
聯系我們 // Substack // Twitter // YouTube//相關文章

自從ChatGPT問世以來,生成式模型炙手可熱。但是這些模型單純根據概率生成內容,因而無法解決幻覺問題,經常一本正經地胡說八道,讓人詬病。

這也是人工智能領域的大咖Yann LeCun長期以來對GPT頗為不屑的原因,甚至斷言GPT模式活不過5年。那么在Yann LeCun看來究竟哪條技朮路線才是人工智能的正途呢?答案在本周揭曉了。他所領銜的Meta AI剛剛發布了基於圖像的聯合嵌入預測架搆/Image based Joint-Embedding Predictive Architecture,簡稱I-JEPA。


點擊查看研究論文

這個模型正是Yann LeCun之前所提出的“世界模型”:它先學習世界運作方式,而后形成一個內部模型,再通過這個內部模型來更快速地學習,為完成復雜任務做出計划,并且隨時應對不熟悉的新情況。而具體到I-JEPA,其在補全圖像的過程中,它比較的是圖像的抽象表徵,而不是比較像素本身。這個方式與我們人類認識世界的方式頗為一致。認知學習理論認為,生物系統中的表徵學習的關鍵在於內部模型逐漸做出調整以預測感官輸入的信息,這搆成了表徵學習背后的驅動機制。而這個理念正是完全自監督學習的核心理念,即去除一部分輸入信息后,學習怎樣預測缺失的那部分內容。

非生成式的自監督學習
在學習外部世界的表徵時,通常使用的是自監督學習的方式,使用未標記的數據,如圖像和聲音,而不是標記過的數據集。

自監督學習一般有3種架搆:聯合嵌入式架搆、生成式架搆、聯合嵌入式預測架搆。

當輸入x和y兼容時,聯合嵌入式架搆學習輸出相似的嵌入;而當輸入不兼容時,則輸出不同的嵌入。生成式架搆學習的是使用解碼器網絡直接從兼容信號x來重搆信號y。聯合嵌入式預測架搆學習的是使用預測器網絡來從兼容信號x來預測信號y的嵌入。

聯合嵌入式預測架搆
I-JEPA作為一種聯合嵌入式預測架搆的自監督學習方法,可以學習高度語義化的圖像表徵,而無需依賴手工設計的數據增強技朮。I-JEPA的關鍵是使用掩蔽策略,即隨機遮擋輸入圖像的部分區域,然后訓練模型根據剩余的上下文預測被遮擋的區域。這促使模型去學習有意義的表徵,從而捕捉圖像的基本結搆。此外,I-JEPA將這種掩蔽策略與視覺Transformer相結合:使用單個上下文塊來預測來自同一圖像的表徵,上下文編碼器是一個視覺Transformer,它只處理可見的上下文。而預測器可以接收上下文編碼器的輸出,并根據目標的位置來預測目標塊的表徵。實驗結果證明了這種方法在生成語義表徵方面的有效性。

這種方式就與生成式模型不同。生成式模型會擦除圖像的一部分或隱藏段落中的一些單詞,再嘗試預測缺失的部分。在這個過程中,生成式模型往往會試圖填補每一段缺失的信息,陷入瑣碎而無關緊要的細節中,比如生成圖片時產生千奇百怪的人手。

相反,I-JEPA用更像人類的方式來預測缺失的信息,用抽象的目標來去掉不需要的像素細節。這樣做,I-JEPA的預測器可以根據一些可看到的上下文,為圖像建立一個模型,也就是有了大局觀,這會幫助它預測圖像中看不到的區域的更高級別的信息,而不是執着於像素級別的細節。為了理解模型捕獲到的信息,研究團隊訓練了一個隨機解碼器,它將I-JEPA模型輸出的表徵映射回像素空間, 從而展示出模型進行預測時的輸出結果。例如,在給定的一張圖像隨機釆樣4個目標塊,然后再隨機釆樣一個上下文塊,并刪除任何重疊的目標塊。利用這個策略,目標塊相對語義化,而上下文塊為了提高處理效率而更稀疏,但信息量大。

預測器的可視化
預測器的可視化對於理解I-JEPA模型的作用至關重要。預測器的作用是基於上下文編碼器的輸出和位置掩蔽標記,預測目標塊指定位置掩蔽標記所對應的表徵。這里的關鍵問題是依靠位置掩蔽標記的預測器是否能正確捕獲目標位置的不確定性。

下面的例子中,第一列包含原始圖像,第二列包含上下文圖像,綠色邊界框包含來自預測器輸出解碼的生成模型的樣本。預測器正確捕捉了位置的不確定性,所產生的部位的姿態也是正確的,比如鳥的背面和車的頂部。

計算效率大大提高
相比其它的方法,I-JEPA具有高度可擴展性。I-JEPA需要較少的計算量就可以獲得很強的效果,而不需要依賴人工設計的數據增強。與MAE之類的方法相比,I-JEPA通過在表徵空間計算目標而慢了約7%的迭代時間。然而,由於I-JEPA大約只需要前者1/5的迭代次數就會收斂,所以在實踐中仍然可以顯著節省計算時間。與基於視覺不變性的方法(如 iBOT)相比,I-JEPA也運行得更快。特別是,I-JEPA的巨大模型(ViT-H/14)所需要的計算量少於iBOT的小模型(ViT-S/16)。I-JEPA在訓練中學到的表徵也可以直接用於其他任務,而無需進行大量的微調。比如在ImageNet-1K線性探測和半監督評估中,它還優於像素和標記重建方法。

I-JEPA的這個優勢讓Yann LeCun團隊只用了16個A100 GPU在不到72小時的時間內,就訓練出了一個6.32億參數的視覺變換器模型,并在ImageNet的低樣本分類上取得了最先進的性能。而每個類別只有12個標記示例。其他方法通常需要高達2到10倍 GPU小時,并且使用相同數量的數據進行訓練時,錯誤率也更高。

I-JEPA是一種簡單高效的方法來學習圖片語義表徵,且不依賴人工制作的知識作為額外的輔助。相比於日益閉源的OpenAI,Meta AI研究團隊將開源I-JEPA的訓練代碼和模型檢查點,并且下一步將擴展該方法到其他領域,例如圖像-文本配對數據和視頻數據,這也將是應用和擴展自監督方法來學習世界模型的重要一步。借此,未來的人工智能將具備常識、真正理解世界,走向通往AGI的快車道。

致力於傳播優質的中國知識內容、搆建全球新共識。我們將通過一系列時事資訊、精品課程、論壇、節目、咨詢報告等內容產品,提供關於當代中國的最新的輿論思潮、深入的社會觀察、亮眼的科技成就等優質信息。我們已與五大洲十多個國家、百余個研究機搆、媒體機搆、政治團體、民間組織建立合作關系。希望通過我們的工作在海外分享中國經驗,講述中國故事,客觀分析我們共同面對的挑戰和機遇,攜手全球青年尋找全球化發展的新共識。
聯系我們 // Substack // Twitter // YouTube//相關文章


返回網誌
  • Netflix奈飛財報,失望的展望?

    Netflix奈飛財報,失望的展望?

    Netflix奈飛發佈了 2024 年第一季度財報,基於強勁的優質內容供給,與彭博一致預期來看,用户淨增、收入、經營利潤等核心指標均顯著超預期,但盤後股價反而下跌,顯然市場對財報並不滿意。

    Netflix奈飛財報,失望的展望?

    Netflix奈飛發佈了 2024 年第一季度財報,基於強勁的優質內容供給,與彭博一致預期來看,用户淨增、收入、經營利潤等核心指標均顯著超預期,但盤後股價反而下跌,顯然市場對財報並不滿意。

  • 台積電財報iPhone需求不佳,英偉達救場?

    台積電財報iPhone需求不佳,英偉達救場?

    台積電的本次財報整體符合預期。由於公司每月披露經營數據,因此收入端的表現已有預期。因此收入端在數據上的超預期,其實並沒那麼重要。本季度毛利率的表現 53.1%,也基本符合市場預期。

    台積電財報iPhone需求不佳,英偉達救場?

    台積電的本次財報整體符合預期。由於公司每月披露經營數據,因此收入端的表現已有預期。因此收入端在數據上的超預期,其實並沒那麼重要。本季度毛利率的表現 53.1%,也基本符合市場預期。

  • 阿斯麥ASML業績崩坍,AI風吹不到光刻機?

    阿斯麥ASML業績崩坍,AI風吹不到光刻機?

    阿斯麥(ASML)的財報不太理想。收入端和利潤端均出現較明顯的下滑,主要是受台積電及韓國客户拉貨減少的影響。下季度的指引 2024 年第二季度預期收入 57-62 億歐元(市場預期 64.56 億歐元)和毛利率 50-51%(市場預期 50.12%)。

    阿斯麥ASML業績崩坍,AI風吹不到光刻機?

    阿斯麥(ASML)的財報不太理想。收入端和利潤端均出現較明顯的下滑,主要是受台積電及韓國客户拉貨減少的影響。下季度的指引 2024 年第二季度預期收入 57-62 億歐元(市場預期 64.56 億歐元)和毛利率 50-51%(市場預期 50.12%)。

  • 美股確認進入調整模式 | 美股展望 (Video)

    美股確認進入調整模式 | 美股展望 (Video)

    今個升浪由11月至上星期已經運行五個多月了,時間上需要一個調整,所謂強弩之末。部分市場參與者認為是跌市的開始,所謂跌市是指指數下調20%及更多。筆者認為應該逐步逐步看,不應太早作出結論。

    美股確認進入調整模式 | 美股展望 (Video)

    今個升浪由11月至上星期已經運行五個多月了,時間上需要一個調整,所謂強弩之末。部分市場參與者認為是跌市的開始,所謂跌市是指指數下調20%及更多。筆者認為應該逐步逐步看,不應太早作出結論。

  • 中東緊張局勢升級下,資金該如何避險?

    中東緊張局勢升級下,資金該如何避險?

    隨著市場擾動加劇,投資人避險情緒上升,資金避難方向成為普遍關注的問題。 除了美元、美國國債、黃金等傳統避險資產外,近期表現強勁的基本金屬和石油也再次受到關注。

    中東緊張局勢升級下,資金該如何避險?

    隨著市場擾動加劇,投資人避險情緒上升,資金避難方向成為普遍關注的問題。 除了美元、美國國債、黃金等傳統避險資產外,近期表現強勁的基本金屬和石油也再次受到關注。

  • 加拿大允許首次購屋者30年屋押貸款

    加拿大允許首次購屋者30年屋押貸款

    自2024年8月1日起,加拿大將允許一些首次購房者將抵押貸款的期限延長至30年,而新建房屋的期限則為25年。這一舉措將在即將到來的聯邦預算中提出,旨在幫助年輕消費者支付每月的抵押貸款,并鼓勵新的住房供應。

    加拿大允許首次購屋者30年屋押貸款

    自2024年8月1日起,加拿大將允許一些首次購房者將抵押貸款的期限延長至30年,而新建房屋的期限則為25年。這一舉措將在即將到來的聯邦預算中提出,旨在幫助年輕消費者支付每月的抵押貸款,并鼓勵新的住房供應。

  • 電動車出口“一船難求”,中國或將汽車開辟新貿易航線?

    電動車出口“一船難求”,中國或將汽車開辟新貿易航線?

    中國汽車出口量達到491萬輛,同比增長57.9%,再次創下曆史新高。其中,新能源汽車出口達到120.3萬輛,同比增長77.6%,成為出口增長的新引擎。多家外媒包括日本共同社和美聯社預測,中國有望超越日本,成為全球第一大汽車出口國。

    電動車出口“一船難求”,中國或將汽車開辟新貿易航線?

    中國汽車出口量達到491萬輛,同比增長57.9%,再次創下曆史新高。其中,新能源汽車出口達到120.3萬輛,同比增長77.6%,成為出口增長的新引擎。多家外媒包括日本共同社和美聯社預測,中國有望超越日本,成為全球第一大汽車出口國。

  • 聯準會降息的希望再次落空:哪些股票可能遭受最嚴重的打擊?

    聯準會降息的希望再次落空:哪些股票可能遭受最嚴重的打擊?

    與上週五非農業數據公佈後市場反應相對平靜不同,本週三公佈的通膨數據超預期,對市場情緒造成致命打擊。拋售後交易員並未重拾信心,美國三大股指均收跌。

    聯準會降息的希望再次落空:哪些股票可能遭受最嚴重的打擊?

    與上週五非農業數據公佈後市場反應相對平靜不同,本週三公佈的通膨數據超預期,對市場情緒造成致命打擊。拋售後交易員並未重拾信心,美國三大股指均收跌。

1 / 8
1 / 4
  • 2024年4月19日市場焦點

    隨著市場繼續評估通膨和聯準會政策前景以及中東的脆弱局勢,專家不排除出現一些額外的持續波動。但他們認為,本次多頭市場的基礎仍然良好,因此暫時的回檔是一個令人信服的買入機會。

    2024年4月19日市場焦點

    隨著市場繼續評估通膨和聯準會政策前景以及中東的脆弱局勢,專家不排除出現一些額外的持續波動。但他們認為,本次多頭市場的基礎仍然良好,因此暫時的回檔是一個令人信服的買入機會。

  • Lululemon將關閉華盛頓配送中心,並在倉庫佔地面積增加兩倍後解僱128名員工

    Lululemon運動服裝零售商週四向該州就業保障部提交了警告通知,通知計劃關閉位於西雅圖以南約35英里的薩姆納的配送中心,並裁員128人。 WARN通知指出,裁員將於6月21日開始,而Lululemon發言人表示,預計該設施將在今年底關閉。

    Lululemon將關閉華盛頓配送中心,並在倉庫佔地面積增加兩倍後解僱128名員工

    Lululemon運動服裝零售商週四向該州就業保障部提交了警告通知,通知計劃關閉位於西雅圖以南約35英里的薩姆納的配送中心,並裁員128人。 WARN通知指出,裁員將於6月21日開始,而Lululemon發言人表示,預計該設施將在今年底關閉。

  • 特斯拉因車出現踏闆卡住問題而召回Cybertruck

    特斯拉自願召回了3,878輛Cybertruck,以解決車主何塞·馬丁內斯/Jose Martinez上週在TikTok上發布的熱門視頻中描述的“踏板卡住”問題。特斯拉服務部門計劃免費更換或維修車主的油門踏板總成。

    特斯拉因車出現踏闆卡住問題而召回Cybertruck

    特斯拉自願召回了3,878輛Cybertruck,以解決車主何塞·馬丁內斯/Jose Martinez上週在TikTok上發布的熱門視頻中描述的“踏板卡住”問題。特斯拉服務部門計劃免費更換或維修車主的油門踏板總成。

  • 2024年4月18日市場焦點

    股市開盤時幾乎持平,標普500指數有望終結四天的下跌。各行業的領先地位保持平衡,標準普爾500指數中的大多數產業開盤均呈現上漲,尤其是通訊服務和金融業。科技股在台積電的帶動下表現較為疲軟。

    2024年4月18日市場焦點

    股市開盤時幾乎持平,標普500指數有望終結四天的下跌。各行業的領先地位保持平衡,標準普爾500指數中的大多數產業開盤均呈現上漲,尤其是通訊服務和金融業。科技股在台積電的帶動下表現較為疲軟。

1 / 4
1 / 4
  • 波士頓動力推出新型商用Atlas,人形機器人邁向電動化!

    波士頓動力推出新型商用Atlas,人形機器人邁向電動化!

    波士頓動力公司/Boston Dynamics發布了新版的人形機器人“Atlas”,聲稱這是針對“現實世界應用”而設計的。影片中,Atlas靜靜地躺在互鎖的健身墊上,攝影機橫掃過機器人的背部,腿在膝蓋處屈曲。

    波士頓動力推出新型商用Atlas,人形機器人邁向電動化!

    波士頓動力公司/Boston Dynamics發布了新版的人形機器人“Atlas”,聲稱這是針對“現實世界應用”而設計的。影片中,Atlas靜靜地躺在互鎖的健身墊上,攝影機橫掃過機器人的背部,腿在膝蓋處屈曲。

  • 個人化癌症疫苗

    個人化癌症疫苗

    Moderna正在進行一項新的試驗,該試驗針對一種名為HPV陰性頭頸鱗狀細胞癌/HPV-HNSCC的癌症。這種癌症的五年存活率低於50%。在這項試驗的22名參與者中,所有人的癌症都無法通過手術切除。

    個人化癌症疫苗

    Moderna正在進行一項新的試驗,該試驗針對一種名為HPV陰性頭頸鱗狀細胞癌/HPV-HNSCC的癌症。這種癌症的五年存活率低於50%。在這項試驗的22名參與者中,所有人的癌症都無法通過手術切除。

  • 全球罕見日全食在北美上演!

    全球罕見日全食在北美上演!

    全球罕見的日全食將於北美時間4月8日中午至下午上演。這次日全食將橫掃北美洲,許多墨西哥、美國和加拿大的城市都能欣賞到這一壯觀景象。觀賞性極佳,當地人有可能觀看到長達4分28秒的日全食過程。

    全球罕見日全食在北美上演!

    全球罕見的日全食將於北美時間4月8日中午至下午上演。這次日全食將橫掃北美洲,許多墨西哥、美國和加拿大的城市都能欣賞到這一壯觀景象。觀賞性極佳,當地人有可能觀看到長達4分28秒的日全食過程。

  • 美國FDA授權Prenosis作為首個可診斷敗血症的人工智能工具

    美國FDA授權Prenosis作為首個可診斷敗血症的人工智能工具

    健康科技公司Prenosis週三宣布,其基於人工智能AI的敗血症診斷工具已獲得美國食品藥物管理局/FDA批准,成為首個獲得此批准的工具。該工具直接集成到電子健康記錄中,臨床醫生可以在其中建立和管理患者的醫療記錄。

    美國FDA授權Prenosis作為首個可診斷敗血症的人工智能工具

    健康科技公司Prenosis週三宣布,其基於人工智能AI的敗血症診斷工具已獲得美國食品藥物管理局/FDA批准,成為首個獲得此批准的工具。該工具直接集成到電子健康記錄中,臨床醫生可以在其中建立和管理患者的醫療記錄。

1 / 4
  • 出海網紅經濟,是陷阱還是機遇?

    出海網紅經濟,是陷阱還是機遇?

    隨著中國品牌出海,網紅經濟席捲北美、東南亞兩大市場。在網紅經濟的迅速發展下,也催生了網紅主播、MCN機構一條成熟的“全產業鏈”。網紅主播為了流量可能會採取什麼極端的手段? MCN機構和主播間到底又存在哪些內幕?

    出海網紅經濟,是陷阱還是機遇?

    隨著中國品牌出海,網紅經濟席捲北美、東南亞兩大市場。在網紅經濟的迅速發展下,也催生了網紅主播、MCN機構一條成熟的“全產業鏈”。網紅主播為了流量可能會採取什麼極端的手段? MCN機構和主播間到底又存在哪些內幕?

  • 中國年輕人“逃離”一線城市,一線城市風光不再還是迫於現實?

    中國年輕人“逃離”一線城市,一線城市風光不再還是迫於現實?

    近年來,越來越多的年輕人選擇離開一線城市,去到二、三線城市或者回到自己的家鄉發展。然而,也有一部分年輕人選擇了重新回歸,在一線城市漂泊、打工、旅行,這種現象也被稱為“回籠漂”。

    中國年輕人“逃離”一線城市,一線城市風光不再還是迫於現實?

    近年來,越來越多的年輕人選擇離開一線城市,去到二、三線城市或者回到自己的家鄉發展。然而,也有一部分年輕人選擇了重新回歸,在一線城市漂泊、打工、旅行,這種現象也被稱為“回籠漂”。

  • 溫哥華明星脫口秀抽獎贈票!中外喜劇,以幽默形式傳遞思考

    溫哥華明星脫口秀抽獎贈票!中外喜劇,以幽默形式傳遞思考

    作為喜劇的“非常態”表達形式,“即興喜劇”完完全全由现场观众给一些主題、線索或是關鍵信息,再由喜劇演員們把这些东西用随机、自然的形式演绎出来。今天,我們和麦浪娱乐创始人之一、大麦喜剧即兴喜剧负责人紫琪一起探討即興喜劇背後的思考。

    溫哥華明星脫口秀抽獎贈票!中外喜劇,以幽默形式傳遞思考

    作為喜劇的“非常態”表達形式,“即興喜劇”完完全全由现场观众给一些主題、線索或是關鍵信息,再由喜劇演員們把这些东西用随机、自然的形式演绎出来。今天,我們和麦浪娱乐创始人之一、大麦喜剧即兴喜剧负责人紫琪一起探討即興喜劇背後的思考。

  • Netflix 韓劇D.P: 逃兵追缉令,霸凌黑暗面背後的思考

    Netflix 韓劇D.P: 逃兵追缉令,霸凌黑暗面背後的思考

    大多數人將霸凌與童年聯繫在一起,但任何年齡段的任何人都可能發生欺凌行為。它也可以採取多種形式,從言語騷擾到身體虐待等等。欺凌行為也不只發生在操場上。個人可能會在網上、辦公室、家里和其他地方遭受霸凌。

    Netflix 韓劇D.P: 逃兵追缉令,霸凌黑暗面背後的思考

    大多數人將霸凌與童年聯繫在一起,但任何年齡段的任何人都可能發生欺凌行為。它也可以採取多種形式,從言語騷擾到身體虐待等等。欺凌行為也不只發生在操場上。個人可能會在網上、辦公室、家里和其他地方遭受霸凌。

1 / 4