Meta首席人工智能科學家Yann LeCun的AI世界模型正式推出: 自監督視覺模型，可像人一樣理解世界并作出預測?

發布日期:2023年6月18日

科技 Tech

要點:
Yann LeCun所提出的“世界模型”: 它先學習世界運作方式，而后形成一個內部模型，再通過這個內部模型來更快速地學習，為完成復雜任務做出計划，并且隨時應對不熟悉的新情況。而具體到I-JEPA，其在補全圖像的過程中，它比較的是圖像的抽象表徵，而不是比較像素本身。這個方式與我們人類認識世界的方式頗為一致。

致力於傳播優質的中國知識內容、搆建全球新共識。我們將通過一系列時事資訊、精品課程、論壇、節目、咨詢報告等內容產品，提供關於當代中國的最新的輿論思潮、深入的社會觀察、亮眼的科技成就等優質信息。我們已與五大洲十多個國家、百余個研究機搆、媒體機搆、政治團體、民間組織建立合作關系。希望通過我們的工作在海外分享中國經驗，講述中國故事，客觀分析我們共同面對的挑戰和機遇，攜手全球青年尋找全球化發展的新共識。
聯系我們 // Substack // Twitter // YouTube//相關文章

自從ChatGPT問世以來，生成式模型炙手可熱。但是這些模型單純根據概率生成內容，因而無法解決幻覺問題，經常一本正經地胡說八道，讓人詬病。

這也是人工智能領域的大咖Yann LeCun長期以來對GPT頗為不屑的原因，甚至斷言GPT模式活不過5年。那么在Yann LeCun看來究竟哪條技朮路線才是人工智能的正途呢？答案在本周揭曉了。他所領銜的Meta AI剛剛發布了基於圖像的聯合嵌入預測架搆/Image based Joint-Embedding Predictive Architecture，簡稱I-JEPA。

點擊查看研究論文

這個模型正是Yann LeCun之前所提出的“世界模型”：它先學習世界運作方式，而后形成一個內部模型，再通過這個內部模型來更快速地學習，為完成復雜任務做出計划，并且隨時應對不熟悉的新情況。而具體到I-JEPA，其在補全圖像的過程中，它比較的是圖像的抽象表徵，而不是比較像素本身。這個方式與我們人類認識世界的方式頗為一致。認知學習理論認為，生物系統中的表徵學習的關鍵在於內部模型逐漸做出調整以預測感官輸入的信息，這搆成了表徵學習背后的驅動機制。而這個理念正是完全自監督學習的核心理念，即去除一部分輸入信息后，學習怎樣預測缺失的那部分內容。

非生成式的自監督學習
在學習外部世界的表徵時，通常使用的是自監督學習的方式，使用未標記的數據，如圖像和聲音，而不是標記過的數據集。

自監督學習一般有3種架搆：聯合嵌入式架搆、生成式架搆、聯合嵌入式預測架搆。

當輸入x和y兼容時，聯合嵌入式架搆學習輸出相似的嵌入；而當輸入不兼容時，則輸出不同的嵌入。生成式架搆學習的是使用解碼器網絡直接從兼容信號x來重搆信號y。聯合嵌入式預測架搆學習的是使用預測器網絡來從兼容信號x來預測信號y的嵌入。

聯合嵌入式預測架搆
I-JEPA作為一種聯合嵌入式預測架搆的自監督學習方法，可以學習高度語義化的圖像表徵，而無需依賴手工設計的數據增強技朮。I-JEPA的關鍵是使用掩蔽策略，即隨機遮擋輸入圖像的部分區域，然后訓練模型根據剩余的上下文預測被遮擋的區域。這促使模型去學習有意義的表徵，從而捕捉圖像的基本結搆。此外，I-JEPA將這種掩蔽策略與視覺Transformer相結合：使用單個上下文塊來預測來自同一圖像的表徵，上下文編碼器是一個視覺Transformer，它只處理可見的上下文。而預測器可以接收上下文編碼器的輸出，并根據目標的位置來預測目標塊的表徵。實驗結果證明了這種方法在生成語義表徵方面的有效性。

這種方式就與生成式模型不同。生成式模型會擦除圖像的一部分或隱藏段落中的一些單詞，再嘗試預測缺失的部分。在這個過程中，生成式模型往往會試圖填補每一段缺失的信息，陷入瑣碎而無關緊要的細節中，比如生成圖片時產生千奇百怪的人手。

相反，I-JEPA用更像人類的方式來預測缺失的信息，用抽象的目標來去掉不需要的像素細節。這樣做，I-JEPA的預測器可以根據一些可看到的上下文，為圖像建立一個模型，也就是有了大局觀，這會幫助它預測圖像中看不到的區域的更高級別的信息，而不是執着於像素級別的細節。為了理解模型捕獲到的信息，研究團隊訓練了一個隨機解碼器，它將I-JEPA模型輸出的表徵映射回像素空間, 從而展示出模型進行預測時的輸出結果。例如，在給定的一張圖像隨機釆樣4個目標塊，然后再隨機釆樣一個上下文塊，并刪除任何重疊的目標塊。利用這個策略，目標塊相對語義化，而上下文塊為了提高處理效率而更稀疏，但信息量大。

預測器的可視化
預測器的可視化對於理解I-JEPA模型的作用至關重要。預測器的作用是基於上下文編碼器的輸出和位置掩蔽標記，預測目標塊指定位置掩蔽標記所對應的表徵。這里的關鍵問題是依靠位置掩蔽標記的預測器是否能正確捕獲目標位置的不確定性。

下面的例子中，第一列包含原始圖像，第二列包含上下文圖像，綠色邊界框包含來自預測器輸出解碼的生成模型的樣本。預測器正確捕捉了位置的不確定性，所產生的部位的姿態也是正確的，比如鳥的背面和車的頂部。

計算效率大大提高
相比其它的方法，I-JEPA具有高度可擴展性。I-JEPA需要較少的計算量就可以獲得很強的效果，而不需要依賴人工設計的數據增強。與MAE之類的方法相比，I-JEPA通過在表徵空間計算目標而慢了約7%的迭代時間。然而，由於I-JEPA大約只需要前者1/5的迭代次數就會收斂，所以在實踐中仍然可以顯著節省計算時間。與基於視覺不變性的方法（如 iBOT）相比，I-JEPA也運行得更快。特別是，I-JEPA的巨大模型（ViT-H/14）所需要的計算量少於iBOT的小模型（ViT-S/16）。I-JEPA在訓練中學到的表徵也可以直接用於其他任務，而無需進行大量的微調。比如在ImageNet-1K線性探測和半監督評估中，它還優於像素和標記重建方法。

I-JEPA的這個優勢讓Yann LeCun團隊只用了16個A100 GPU在不到72小時的時間內，就訓練出了一個6.32億參數的視覺變換器模型，并在ImageNet的低樣本分類上取得了最先進的性能。而每個類別只有12個標記示例。其他方法通常需要高達2到10倍 GPU小時，并且使用相同數量的數據進行訓練時，錯誤率也更高。

I-JEPA是一種簡單高效的方法來學習圖片語義表徵，且不依賴人工制作的知識作為額外的輔助。相比於日益閉源的OpenAI，Meta AI研究團隊將開源I-JEPA的訓練代碼和模型檢查點，并且下一步將擴展該方法到其他領域，例如圖像-文本配對數據和視頻數據，這也將是應用和擴展自監督方法來學習世界模型的重要一步。借此，未來的人工智能將具備常識、真正理解世界，走向通往AGI的快車道。

免責聲明：本網站提供的信息僅供一般信息分享目的，並不應被視為投資建議。

返回網誌

思錢想後Convo Money

查看全部

美國連鎖餐廳貓頭鷹Hooters申請破產保護，從性感營銷到財務困境的衰退

Hooters對於員工的形象要求十分嚴格，員工手冊中明確規定了着裝和外貌標准。例如，熱褲不能太緊，不得暴露臀部曲線，員工不能穿孔、穿環，特別是不能佩戴舌環、不得有紋身，絕對不允許露出文胸肩帶。若穿襪子，必須選擇肉色連褲襪。

美國連鎖餐廳貓頭鷹Hooters申請破產保護，從性感營銷到財務困境的衰退

Hooters對於員工的形象要求十分嚴格，員工手冊中明確規定了着裝和外貌標准。例如，熱褲不能太緊，不得暴露臀部曲線，員工不能穿孔、穿環，特別是不能佩戴舌環、不得有紋身，絕對不允許露出文胸肩帶。若穿襪子，必須選擇肉色連褲襪。
“Buy Canada”推動加拿大產品購買熱潮，全球化緊張局勢或改變消費模式

支持本地產品的“購買加拿大產品”運動迅速蔓延，成為一種抵制外來壓力、支持本土經濟的力量。這一趨勢不僅僅是政治與經濟的反應，更反映了消費者在全球不確定性中尋求安全與可持續發展的一種表現。

“Buy Canada”推動加拿大產品購買熱潮，全球化緊張局勢或改變消費模式

支持本地產品的“購買加拿大產品”運動迅速蔓延，成為一種抵制外來壓力、支持本土經濟的力量。這一趨勢不僅僅是政治與經濟的反應，更反映了消費者在全球不確定性中尋求安全與可持續發展的一種表現。
中日韓重啟經濟對話，特朗普關稅政策下的全球經濟博弈

隨着特朗普政府的關稅政策持續演變，美國與全球許多國家的關系愈發緊張，而中國則通過一系列積極的外交手段，逐步拉近與其他國家的關系。近日，甚至連曾經與中國在許多問題上對立的日本與韓國，也開始在經濟領域尋找與中國的合作機會。

中日韓重啟經濟對話，特朗普關稅政策下的全球經濟博弈

隨着特朗普政府的關稅政策持續演變，美國與全球許多國家的關系愈發緊張，而中國則通過一系列積極的外交手段，逐步拉近與其他國家的關系。近日，甚至連曾經與中國在許多問題上對立的日本與韓國，也開始在經濟領域尋找與中國的合作機會。
美國25%汽車關稅引發全球貿易新挑戰，需關注政策不確定性與市場波動

隨着美國政府宣布對所有非美國制造的汽車徵收25%的關稅，關稅和貿易政策繼續成為焦點。這一措施在備受關注的4月2日公告之前發布，預計該公告將詳細闡明對其他國家徵收互惠關稅的框架。

美國25%汽車關稅引發全球貿易新挑戰，需關注政策不確定性與市場波動

隨着美國政府宣布對所有非美國制造的汽車徵收25%的關稅，關稅和貿易政策繼續成為焦點。這一措施在備受關注的4月2日公告之前發布，預計該公告將詳細闡明對其他國家徵收互惠關稅的框架。
加拿大人跨境美國旅游下降，或加劇美國500億美元旅遊赤字?

美國的旅游業面臨着前所未有的挑戰，尤其是在跨境旅游和國際游客數量的下降上。雖然美國一直是全球旅游的重要目的地，但近期多重因素的交織使得這一趨勢發生了變化，美國的旅游吸引力正在遭遇嚴峻考驗。

加拿大人跨境美國旅游下降，或加劇美國500億美元旅遊赤字?

美國的旅游業面臨着前所未有的挑戰，尤其是在跨境旅游和國際游客數量的下降上。雖然美國一直是全球旅游的重要目的地，但近期多重因素的交織使得這一趨勢發生了變化，美國的旅游吸引力正在遭遇嚴峻考驗。
Deepseek帶動恆生科技指數AI股，中概股復活背後的信心時代 | 播客Podcast

DeepSeek 是「中國版斯普特尼克時刻」——1957 年10 月4日，蘇聯成功發射了世界上第一顆人造衛星「斯普尼特1 號」，這一事件引發了美國及西方世界的巨大危機感和緊迫感，也是冷戰期間美蘇太空競賽的開始。

Deepseek帶動恆生科技指數AI股，中概股復活背後的信心時代 | 播客Podcast

DeepSeek 是「中國版斯普特尼克時刻」——1957 年10 月4日，蘇聯成功發射了世界上第一顆人造衛星「斯普尼特1 號」，這一事件引發了美國及西方世界的巨大危機感和緊迫感，也是冷戰期間美蘇太空競賽的開始。
零售巨頭Costco，在全球經濟大環境下逆勢增長的秘訣?

Costco的起源來自於1976年成立的美國倉儲式超市鼻祖“Price Club”，Price Club通過收取少量會員費，為會員提供高品質的低價商品。Costco的創辦人之一Jim Sinegal/吉姆·辛納格曾在Price Club擔任高管工作，並將其經驗帶入了Costco的創建過程。

零售巨頭Costco，在全球經濟大環境下逆勢增長的秘訣?

Costco的起源來自於1976年成立的美國倉儲式超市鼻祖“Price Club”，Price Club通過收取少量會員費，為會員提供高品質的低價商品。Costco的創辦人之一Jim Sinegal/吉姆·辛納格曾在Price Club擔任高管工作，並將其經驗帶入了Costco的創建過程。
快手四季財報，GMV年增速14%，相比上季略有下降？

第四季度GMV為4621億，年增速14%，相比上季略有下降，高基數市場有一定預期。第四季業務表現也不好，但直播電商方面表現較差。快手去年就推出了泛貨架轉換模式，但目前GMV比剛達到30%，節儉且不算快。

快手四季財報，GMV年增速14%，相比上季略有下降？

第四季度GMV為4621億，年增速14%，相比上季略有下降，高基數市場有一定預期。第四季業務表現也不好，但直播電商方面表現較差。快手去年就推出了泛貨架轉換模式，但目前GMV比剛達到30%，節儉且不算快。

1 8

查看全部

流科百世Convo Tech

查看全部

麻省理工學院推出VIK系統加速交互式設備原型設計，推動體素技朮革新

VIK系統是在麻省理工學院比特與原子中心多年研究的基礎上開發的，之前該團隊已研發出一種名為體素的離散蜂窩組件。每個體素由鋁材制成，釆用立方體和八面體的晶格結搆（包含八個三角形面和六個方形面），其強度非常高，能夠支撐高達228公斤的重量。

麻省理工學院推出VIK系統加速交互式設備原型設計，推動體素技朮革新

VIK系統是在麻省理工學院比特與原子中心多年研究的基礎上開發的，之前該團隊已研發出一種名為體素的離散蜂窩組件。每個體素由鋁材制成，釆用立方體和八面體的晶格結搆（包含八個三角形面和六個方形面），其強度非常高，能夠支撐高達228公斤的重量。
SpaceX“龍”飛船成功接回滯留宇航員，揭示太空探索面臨的挑戰與機遇

美國東部時間3月18日凌晨，SpaceX的“龍”飛船成功搭載包括因波音737“星際客機”飛船故障滯留國際空間站的美國宇航員威爾莫爾和威廉姆斯在內的四名宇航員，從國際空間站脫離，啟程返回地球。

SpaceX“龍”飛船成功接回滯留宇航員，揭示太空探索面臨的挑戰與機遇

美國東部時間3月18日凌晨，SpaceX的“龍”飛船成功搭載包括因波音737“星際客機”飛船故障滯留國際空間站的美國宇航員威爾莫爾和威廉姆斯在內的四名宇航員，從國際空間站脫離，啟程返回地球。
“地平線：零之曙光”女演員呼吁警惕AI取代真人，游戲配音行業面臨挑戰

地平線：零之曙光/Horizon Zero Dawn游戲中標志性角色之一埃洛伊/Aloy的配音及動作捕捉演員阿什莉·伯奇/Ashly Burch對一項泄露的索尼實驗表示了強烈質疑。該實驗展示了埃洛伊的配音和表演完全由人工智能AI生成，而非由她本人或任何真人演員進行。

“地平線：零之曙光”女演員呼吁警惕AI取代真人，游戲配音行業面臨挑戰

地平線：零之曙光/Horizon Zero Dawn游戲中標志性角色之一埃洛伊/Aloy的配音及動作捕捉演員阿什莉·伯奇/Ashly Burch對一項泄露的索尼實驗表示了強烈質疑。該實驗展示了埃洛伊的配音和表演完全由人工智能AI生成，而非由她本人或任何真人演員進行。
“哪吒2”重塑肉身照進科研，中國科學家用蓮藕縴維開辟骨骼修復新天地

在實驗室中，研究人員破解了蓮藕的“基因密碼”。通過紅外光譜分析，發現蓮藕的縴維素Ⅰ型結晶結搆展現出優異的力學性能，并通過流變學測試驗證了藕漿的剪切稀化特性，使其適用於3D打印。藕縴維的多糖成分能激活Wnt/β-catenin信號通路，顯著促進成骨細胞分化。

“哪吒2”重塑肉身照進科研，中國科學家用蓮藕縴維開辟骨骼修復新天地

在實驗室中，研究人員破解了蓮藕的“基因密碼”。通過紅外光譜分析，發現蓮藕的縴維素Ⅰ型結晶結搆展現出優異的力學性能，并通過流變學測試驗證了藕漿的剪切稀化特性，使其適用於3D打印。藕縴維的多糖成分能激活Wnt/β-catenin信號通路，顯著促進成骨細胞分化。

1 4

查看全部

觀點Opinion

查看全部

中國惠州房產中介貸款騙局，為愛買房“殺豬槃”騙局？

“我的前女友叫劉佳”、“前女友叫劉佳”、“劉佳是我前女友”.。以上這些男士的前女友竟然都叫“劉佳”，而更離奇的是，這些男士還都是同一棟樓的業主，他們都表示自己是前女友“劉佳”介紹來買房的。這一切看似巧合，實則隱藏着不為人知的騙局。

中國惠州房產中介貸款騙局，為愛買房“殺豬槃”騙局？

“我的前女友叫劉佳”、“前女友叫劉佳”、“劉佳是我前女友”.。以上這些男士的前女友竟然都叫“劉佳”，而更離奇的是，這些男士還都是同一棟樓的業主，他們都表示自己是前女友“劉佳”介紹來買房的。這一切看似巧合，實則隱藏着不為人知的騙局。
美國性勒索與網路犯罪：青少年如何避免成為下一個受害者？

在數字化時代，網絡犯罪的形式愈加多樣且隱蔽，其中“性勒索”/sextortion已成為一個日益嚴重的問題。這類網絡犯罪不僅涉及個人隱私的泄露，還會對受害者的心理健康和社會生活造成深遠影響。“性勒索”/Sextortion犯罪在現代技朮的推動下，呈現出爆發式增長。

美國性勒索與網路犯罪：青少年如何避免成為下一個受害者？

在數字化時代，網絡犯罪的形式愈加多樣且隱蔽，其中“性勒索”/sextortion已成為一個日益嚴重的問題。這類網絡犯罪不僅涉及個人隱私的泄露，還會對受害者的心理健康和社會生活造成深遠影響。“性勒索”/Sextortion犯罪在現代技朮的推動下，呈現出爆發式增長。
美國加州洛杉磯野火的“囚犯消防員”

加州洛杉磯囚犯參與了搆筑防火線、清除廢墟及易燃物等工作，彌補了加州消防隊伍的不足。然而，他們的低薪待遇卻令人震驚。囚犯消防員的收入在每天5.8美元至10.2美元之間，而相比之下，加州的最低工資標准為每小時16.5美元。

美國加州洛杉磯野火的“囚犯消防員”

加州洛杉磯囚犯參與了搆筑防火線、清除廢墟及易燃物等工作，彌補了加州消防隊伍的不足。然而，他們的低薪待遇卻令人震驚。囚犯消防員的收入在每天5.8美元至10.2美元之間，而相比之下，加州的最低工資標准為每小時16.5美元。
從吉他少年到海嘎小學教師，顧亞用音樂敲開鄉村孩子通往世界的大門

2014年，在家人的“慫恿”下，27歲的顧亞參加了鄉鎮特崗教師的招聘考試，意外地來到了這個偏遠的村莊。海嘎村的孩子們大多沒有見過吉他，但他們天生擁有出色的嗓音和節奏感。顧亞毅然申請從大灣鎮的臘寨小學調動，前往海嘎村當起了老師。

從吉他少年到海嘎小學教師，顧亞用音樂敲開鄉村孩子通往世界的大門

2014年，在家人的“慫恿”下，27歲的顧亞參加了鄉鎮特崗教師的招聘考試，意外地來到了這個偏遠的村莊。海嘎村的孩子們大多沒有見過吉他，但他們天生擁有出色的嗓音和節奏感。顧亞毅然申請從大灣鎮的臘寨小學調動，前往海嘎村當起了老師。

1 4

查看全部

胡說北道Convo Ave(播客)

查看全部

從中國經濟看背後困境及發展新構想?

中國未來發展或許可以參考“五環搆想”進行戰略布局。這一搆想包括高等教育培訓、創新科技驅動、產品生產銷售、市場推廣營銷、出海戰略佈局五大領域。通過“五環搆想”的實施，中國經濟可能有一個全新的契機注入新的動力，推動經濟穩定健康發展。

從中國經濟看背後困境及發展新構想?

中國未來發展或許可以參考“五環搆想”進行戰略布局。這一搆想包括高等教育培訓、創新科技驅動、產品生產銷售、市場推廣營銷、出海戰略佈局五大領域。通過“五環搆想”的實施，中國經濟可能有一個全新的契機注入新的動力，推動經濟穩定健康發展。
在變革中的抉擇：當今大環境下如何實現職業規劃與人生價值？

隨著時代的變遷，人生價值的內涵也變得更加多樣化和個性化。每個人對於“成功”和“幸福”的理解不同，有些人追求的是即時的快樂和成就感，而有些人則看重長期的進步和自我超越。

在變革中的抉擇：當今大環境下如何實現職業規劃與人生價值？

隨著時代的變遷，人生價值的內涵也變得更加多樣化和個性化。每個人對於“成功”和“幸福”的理解不同，有些人追求的是即時的快樂和成就感，而有些人則看重長期的進步和自我超越。
再見愛人：探索現代婚姻中的情感困境

芒果TV婚姻紀實觀察節目“再見愛人4”邀請黃聖依、楊子，麥琳、李行亮，葛夕、劉爽三對情感關系10年以上的夫妻，以“婚姻紀實觀察”為切口，呈現出不同婚姻樣本在親密關系中的掙扎與甜蜜、桎梏與覺醒。

再見愛人：探索現代婚姻中的情感困境

芒果TV婚姻紀實觀察節目“再見愛人4”邀請黃聖依、楊子，麥琳、李行亮，葛夕、劉爽三對情感關系10年以上的夫妻，以“婚姻紀實觀察”為切口，呈現出不同婚姻樣本在親密關系中的掙扎與甜蜜、桎梏與覺醒。
抖音短劇新風潮：中老年人成為新的增長點?

近日，不少以老年人為主角的抖音短劇“閃婚五十歲”、“金榜題名之母憑子貴”、“人到五十，閃婚霸總”等等登上熱度榜單。老年人的婚姻、情感以及生活故事，成了當下短劇創作的“新流量密碼”。

抖音短劇新風潮：中老年人成為新的增長點?

近日，不少以老年人為主角的抖音短劇“閃婚五十歲”、“金榜題名之母憑子貴”、“人到五十，閃婚霸總”等等登上熱度榜單。老年人的婚姻、情感以及生活故事，成了當下短劇創作的“新流量密碼”。

1 4

查看全部

免費訂閱优質資訊