Meta首席人工智能科學家Yann LeCun的AI世界模型正式推出: 自監督視覺模型,可像人一樣理解世界并作出預測?

Meta首席人工智能科學家Yann LeCun的AI世界模型正式推出: 自監督視覺模型,可像人一樣理解世界并作出預測?

發布日期:

科技 Tech


要點:
Yann LeCun所提出的“世界模型”: 它先學習世界運作方式,而后形成一個內部模型,再通過這個內部模型來更快速地學習,為完成復雜任務做出計划,并且隨時應對不熟悉的新情況。而具體到I-JEPA,其在補全圖像的過程中,它比較的是圖像的抽象表徵,而不是比較像素本身。這個方式與我們人類認識世界的方式頗為一致。

致力於傳播優質的中國知識內容、搆建全球新共識。我們將通過一系列時事資訊、精品課程、論壇、節目、咨詢報告等內容產品,提供關於當代中國的最新的輿論思潮、深入的社會觀察、亮眼的科技成就等優質信息。我們已與五大洲十多個國家、百余個研究機搆、媒體機搆、政治團體、民間組織建立合作關系。希望通過我們的工作在海外分享中國經驗,講述中國故事,客觀分析我們共同面對的挑戰和機遇,攜手全球青年尋找全球化發展的新共識。
聯系我們 // Substack // Twitter // YouTube//相關文章

自從ChatGPT問世以來,生成式模型炙手可熱。但是這些模型單純根據概率生成內容,因而無法解決幻覺問題,經常一本正經地胡說八道,讓人詬病。

這也是人工智能領域的大咖Yann LeCun長期以來對GPT頗為不屑的原因,甚至斷言GPT模式活不過5年。那么在Yann LeCun看來究竟哪條技朮路線才是人工智能的正途呢?答案在本周揭曉了。他所領銜的Meta AI剛剛發布了基於圖像的聯合嵌入預測架搆/Image based Joint-Embedding Predictive Architecture,簡稱I-JEPA。


點擊查看研究論文

這個模型正是Yann LeCun之前所提出的“世界模型”:它先學習世界運作方式,而后形成一個內部模型,再通過這個內部模型來更快速地學習,為完成復雜任務做出計划,并且隨時應對不熟悉的新情況。而具體到I-JEPA,其在補全圖像的過程中,它比較的是圖像的抽象表徵,而不是比較像素本身。這個方式與我們人類認識世界的方式頗為一致。認知學習理論認為,生物系統中的表徵學習的關鍵在於內部模型逐漸做出調整以預測感官輸入的信息,這搆成了表徵學習背后的驅動機制。而這個理念正是完全自監督學習的核心理念,即去除一部分輸入信息后,學習怎樣預測缺失的那部分內容。

非生成式的自監督學習
在學習外部世界的表徵時,通常使用的是自監督學習的方式,使用未標記的數據,如圖像和聲音,而不是標記過的數據集。

自監督學習一般有3種架搆:聯合嵌入式架搆、生成式架搆、聯合嵌入式預測架搆。

當輸入x和y兼容時,聯合嵌入式架搆學習輸出相似的嵌入;而當輸入不兼容時,則輸出不同的嵌入。生成式架搆學習的是使用解碼器網絡直接從兼容信號x來重搆信號y。聯合嵌入式預測架搆學習的是使用預測器網絡來從兼容信號x來預測信號y的嵌入。

聯合嵌入式預測架搆
I-JEPA作為一種聯合嵌入式預測架搆的自監督學習方法,可以學習高度語義化的圖像表徵,而無需依賴手工設計的數據增強技朮。I-JEPA的關鍵是使用掩蔽策略,即隨機遮擋輸入圖像的部分區域,然后訓練模型根據剩余的上下文預測被遮擋的區域。這促使模型去學習有意義的表徵,從而捕捉圖像的基本結搆。此外,I-JEPA將這種掩蔽策略與視覺Transformer相結合:使用單個上下文塊來預測來自同一圖像的表徵,上下文編碼器是一個視覺Transformer,它只處理可見的上下文。而預測器可以接收上下文編碼器的輸出,并根據目標的位置來預測目標塊的表徵。實驗結果證明了這種方法在生成語義表徵方面的有效性。

這種方式就與生成式模型不同。生成式模型會擦除圖像的一部分或隱藏段落中的一些單詞,再嘗試預測缺失的部分。在這個過程中,生成式模型往往會試圖填補每一段缺失的信息,陷入瑣碎而無關緊要的細節中,比如生成圖片時產生千奇百怪的人手。

相反,I-JEPA用更像人類的方式來預測缺失的信息,用抽象的目標來去掉不需要的像素細節。這樣做,I-JEPA的預測器可以根據一些可看到的上下文,為圖像建立一個模型,也就是有了大局觀,這會幫助它預測圖像中看不到的區域的更高級別的信息,而不是執着於像素級別的細節。為了理解模型捕獲到的信息,研究團隊訓練了一個隨機解碼器,它將I-JEPA模型輸出的表徵映射回像素空間, 從而展示出模型進行預測時的輸出結果。例如,在給定的一張圖像隨機釆樣4個目標塊,然后再隨機釆樣一個上下文塊,并刪除任何重疊的目標塊。利用這個策略,目標塊相對語義化,而上下文塊為了提高處理效率而更稀疏,但信息量大。

預測器的可視化
預測器的可視化對於理解I-JEPA模型的作用至關重要。預測器的作用是基於上下文編碼器的輸出和位置掩蔽標記,預測目標塊指定位置掩蔽標記所對應的表徵。這里的關鍵問題是依靠位置掩蔽標記的預測器是否能正確捕獲目標位置的不確定性。

下面的例子中,第一列包含原始圖像,第二列包含上下文圖像,綠色邊界框包含來自預測器輸出解碼的生成模型的樣本。預測器正確捕捉了位置的不確定性,所產生的部位的姿態也是正確的,比如鳥的背面和車的頂部。

計算效率大大提高
相比其它的方法,I-JEPA具有高度可擴展性。I-JEPA需要較少的計算量就可以獲得很強的效果,而不需要依賴人工設計的數據增強。與MAE之類的方法相比,I-JEPA通過在表徵空間計算目標而慢了約7%的迭代時間。然而,由於I-JEPA大約只需要前者1/5的迭代次數就會收斂,所以在實踐中仍然可以顯著節省計算時間。與基於視覺不變性的方法(如 iBOT)相比,I-JEPA也運行得更快。特別是,I-JEPA的巨大模型(ViT-H/14)所需要的計算量少於iBOT的小模型(ViT-S/16)。I-JEPA在訓練中學到的表徵也可以直接用於其他任務,而無需進行大量的微調。比如在ImageNet-1K線性探測和半監督評估中,它還優於像素和標記重建方法。

I-JEPA的這個優勢讓Yann LeCun團隊只用了16個A100 GPU在不到72小時的時間內,就訓練出了一個6.32億參數的視覺變換器模型,并在ImageNet的低樣本分類上取得了最先進的性能。而每個類別只有12個標記示例。其他方法通常需要高達2到10倍 GPU小時,并且使用相同數量的數據進行訓練時,錯誤率也更高。

I-JEPA是一種簡單高效的方法來學習圖片語義表徵,且不依賴人工制作的知識作為額外的輔助。相比於日益閉源的OpenAI,Meta AI研究團隊將開源I-JEPA的訓練代碼和模型檢查點,并且下一步將擴展該方法到其他領域,例如圖像-文本配對數據和視頻數據,這也將是應用和擴展自監督方法來學習世界模型的重要一步。借此,未來的人工智能將具備常識、真正理解世界,走向通往AGI的快車道。

致力於傳播優質的中國知識內容、搆建全球新共識。我們將通過一系列時事資訊、精品課程、論壇、節目、咨詢報告等內容產品,提供關於當代中國的最新的輿論思潮、深入的社會觀察、亮眼的科技成就等優質信息。我們已與五大洲十多個國家、百余個研究機搆、媒體機搆、政治團體、民間組織建立合作關系。希望通過我們的工作在海外分享中國經驗,講述中國故事,客觀分析我們共同面對的挑戰和機遇,攜手全球青年尋找全球化發展的新共識。
聯系我們 // Substack // Twitter // YouTube//相關文章

免責聲明:本網站提供的信息僅供一般信息分享目的,並不應被視為投資建議。

返回網誌
  • PDD拼多多2026年第一季財報,不及市場預期

    PDD拼多多2026年第一季財報,不及市場預期

    因國內主站營收增長不及預期,營銷支出也並未明顯下滑,因此實際利潤表現並不及預期。分板塊來看背後原因,我們認為一方面是 Temu 本季減虧的幅度大概率並沒有預期的那麼多,另外國內主站的經營利潤增長應當也相當有限。

    PDD拼多多2026年第一季財報,不及市場預期

    因國內主站營收增長不及預期,營銷支出也並未明顯下滑,因此實際利潤表現並不及預期。分板塊來看背後原因,我們認為一方面是 Temu 本季減虧的幅度大概率並沒有預期的那麼多,另外國內主站的經營利潤增長應當也相當有限。

  • 小米2026年第一季度財報,主要受手機和汽車毛利率同比回落影響

    小米2026年第一季度財報,主要受手機和汽車毛利率同比回落影響

    小米本季度汽車業務毛利率下滑至 20.1%,接近市場預期(20.5%),主要是受均價下滑的影響,其中包含了小米對購置税進行補貼的影響,並在本季度銷售了一部分的低價現車。由於毛利率再次回落,海豚君測算本季度小米汽車業務核心經營利潤再度陷入虧損 31 億元。

    小米2026年第一季度財報,主要受手機和汽車毛利率同比回落影響

    小米本季度汽車業務毛利率下滑至 20.1%,接近市場預期(20.5%),主要是受均價下滑的影響,其中包含了小米對購置税進行補貼的影響,並在本季度銷售了一部分的低價現車。由於毛利率再次回落,海豚君測算本季度小米汽車業務核心經營利潤再度陷入虧損 31 億元。

  • NVDA英偉達2027財年第一季度財報,收入752億美元,環比增量為129億美元

    NVDA英偉達2027財年第一季度財報,收入752億美元,環比增量為129億美元

    NVDA 核心經營指標:總收入 816 億美元,好於上調後的買方預期(780-800 億美元),其中季度環比增長 135 億美元,幾乎都來自於數據中心業務中 Blackwell 量產增加的帶動。

    NVDA英偉達2027財年第一季度財報,收入752億美元,環比增量為129億美元

    NVDA 核心經營指標:總收入 816 億美元,好於上調後的買方預期(780-800 億美元),其中季度環比增長 135 億美元,幾乎都來自於數據中心業務中 Blackwell 量產增加的帶動。

  • BYD比亞迪2025年第四季度業績仍然不及預期,賣車單價仍處於下行軌道

    BYD比亞迪2025年第四季度業績仍然不及預期,賣車單價仍處於下行軌道

    比亞迪的業績仍然不及預期。收入雖超預期,但主要由於非核心的比亞迪電子業務高增帶來,而在核心的賣車業務上,賣車單價仍處於下行軌道,賣車成本降幅不夠,最後賣車毛利率雖有回暖,但仍低於市場預期。

    BYD比亞迪2025年第四季度業績仍然不及預期,賣車單價仍處於下行軌道

    比亞迪的業績仍然不及預期。收入雖超預期,但主要由於非核心的比亞迪電子業務高增帶來,而在核心的賣車業務上,賣車單價仍處於下行軌道,賣車成本降幅不夠,最後賣車毛利率雖有回暖,但仍低於市場預期。

  • GOOG谷歌TurboQuant新聞導緻MU美光科技等內存股股價暴跌,但這合理嗎?

    GOOG谷歌TurboQuant新聞導緻MU美光科技等內存股股價暴跌,但這合理嗎?

    消息一出,華爾街一度陷入恐慌:如果 AI 突然間不再需要那麼多 RAM 就能運作,這是否意味著記憶體產業的「超級週期」即將結束?答案是否定的。事實上,從歷史規律與經濟學角度來看,情況正好相反。要理解這一點,我們只需要觀察你電腦上的網頁瀏覽器。

    GOOG谷歌TurboQuant新聞導緻MU美光科技等內存股股價暴跌,但這合理嗎?

    消息一出,華爾街一度陷入恐慌:如果 AI 突然間不再需要那麼多 RAM 就能運作,這是否意味著記憶體產業的「超級週期」即將結束?答案是否定的。事實上,從歷史規律與經濟學角度來看,情況正好相反。要理解這一點,我們只需要觀察你電腦上的網頁瀏覽器。

  • BABA財報AI投入比較激進

    BABA財報AI投入比較激進

    BABA發布第四季財報後股價下跌,財報顯示其營收和利潤均大幅低於預期。這家電商巨頭的季度淨利暴跌67%,而總營收僅成長1.7%約413億美元。這些表現引發了人們對阿里巴巴在AI人工智慧領域巨額投資(總額超過530億美元)有效性的擔憂。

    BABA財報AI投入比較激進

    BABA發布第四季財報後股價下跌,財報顯示其營收和利潤均大幅低於預期。這家電商巨頭的季度淨利暴跌67%,而總營收僅成長1.7%約413億美元。這些表現引發了人們對阿里巴巴在AI人工智慧領域巨額投資(總額超過530億美元)有效性的擔憂。

  • MU美光業績,季度毛利率達到 74.4%!

    MU美光業績,季度毛利率達到 74.4%!

    MU 整體業績:美光本季度營收 238.6 億美元,環比增長 75%,好於上調後的買方預期(199 億美元),本季度收入增長主要來自於 DRAM 和 NAND 業務的雙重帶動,兩大業務環增都在 70% 以上。

    MU美光業績,季度毛利率達到 74.4%!

    MU 整體業績:美光本季度營收 238.6 億美元,環比增長 75%,好於上調後的買方預期(199 億美元),本季度收入增長主要來自於 DRAM 和 NAND 業務的雙重帶動,兩大業務環增都在 70% 以上。

  • Tencent騰訊業績整體看無驚無喜?

    Tencent騰訊業績整體看無驚無喜?

    騰訊一口氣連發多個 “龍蝦” 產品,能夠看出公司在元寶春節大戰中失利後的焦慮,雖然倉促推出產品還不夠完善。不過這個緊迫感的轉變很關鍵也很必要。就目前來看,微信入口似乎在 AI 原生應用盛行的當下仍然有無法撼動的地位。

    Tencent騰訊業績整體看無驚無喜?

    騰訊一口氣連發多個 “龍蝦” 產品,能夠看出公司在元寶春節大戰中失利後的焦慮,雖然倉促推出產品還不夠完善。不過這個緊迫感的轉變很關鍵也很必要。就目前來看,微信入口似乎在 AI 原生應用盛行的當下仍然有無法撼動的地位。

1 / 8
  • Sharpa機器人削蘋果

    Sharpa機器人削蘋果

    對人類來說,削蘋果是件輕而易舉的晨間小事,但對機器人而言,這是雙手協調能力的「終極挑戰」。Sharpa機器人正在為能夠像人類一樣靈巧地完成複雜家務和工業裝配的機器人鋪平道路。

    Sharpa機器人削蘋果

    對人類來說,削蘋果是件輕而易舉的晨間小事,但對機器人而言,這是雙手協調能力的「終極挑戰」。Sharpa機器人正在為能夠像人類一樣靈巧地完成複雜家務和工業裝配的機器人鋪平道路。

  • 腫瘤療法突破,中國團隊給癌細胞打上“豬”標簽,癌細胞“偽裝朮”被破解

    腫瘤療法突破,中國團隊給癌細胞打上“豬”標簽,癌細胞“偽裝朮”被破解

    近期,中國科學家在“Cell”雜志上發表的一項突破性研究,為這一頑疾提供了全新思路。他們利用基因編輯技朮,將癌細胞改造成免疫系統眼中的“異類”,類似於人體對豬器官產生的超急性排斥反應,從而引發了一場針對癌細胞的精准“免疫殲滅戰”。

    腫瘤療法突破,中國團隊給癌細胞打上“豬”標簽,癌細胞“偽裝朮”被破解

    近期,中國科學家在“Cell”雜志上發表的一項突破性研究,為這一頑疾提供了全新思路。他們利用基因編輯技朮,將癌細胞改造成免疫系統眼中的“異類”,類似於人體對豬器官產生的超急性排斥反應,從而引發了一場針對癌細胞的精准“免疫殲滅戰”。

  • 新型大腦設備首次讀出內心聲音,腦機接口技朮打破失語者困境

    新型大腦設備首次讀出內心聲音,腦機接口技朮打破失語者困境

    新系統的核心原理與常見的“嘗試說話”型腦機介面相似,都是在大腦運動皮質植入感測器,這一區域負責向聲道肌肉下達運動指令。感測器捕捉到的神經活動會送入機器學習模型,模型依據個人化數據判斷信號對應的聲音,進而預測使用者想說的單字。

    新型大腦設備首次讀出內心聲音,腦機接口技朮打破失語者困境

    新系統的核心原理與常見的“嘗試說話”型腦機介面相似,都是在大腦運動皮質植入感測器,這一區域負責向聲道肌肉下達運動指令。感測器捕捉到的神經活動會送入機器學習模型,模型依據個人化數據判斷信號對應的聲音,進而預測使用者想說的單字。

  • “垃圾DNA”新發現:遠古病毒DNA在人類發育中發揮關鍵作用

    “垃圾DNA”新發現:遠古病毒DNA在人類發育中發揮關鍵作用

    自這類非編碼DNA片段首次被發現並被稱作“垃圾”以來,生物學家們一直在探討它們是否真的無用。如今的主流觀點認為,這些片段雖不直接參與蛋白質合成,卻在整體基因組中佔據了極大比例,顯示它們可能具有重要功能。

    “垃圾DNA”新發現:遠古病毒DNA在人類發育中發揮關鍵作用

    自這類非編碼DNA片段首次被發現並被稱作“垃圾”以來,生物學家們一直在探討它們是否真的無用。如今的主流觀點認為,這些片段雖不直接參與蛋白質合成,卻在整體基因組中佔據了極大比例,顯示它們可能具有重要功能。

1 / 4
1 / 4
  • 從中國經濟看背後困境及發展新構想?

    從中國經濟看背後困境及發展新構想?

    中國未來發展或許可以參考“五環搆想”進行戰略布局。這一搆想包括高等教育培訓、創新科技驅動、產品生產銷售、市場推廣營銷、出海戰略佈局五大領域。通過“五環搆想”的實施,中國經濟可能有一個全新的契機注入新的動力,推動經濟穩定健康發展。

    從中國經濟看背後困境及發展新構想?

    中國未來發展或許可以參考“五環搆想”進行戰略布局。這一搆想包括高等教育培訓、創新科技驅動、產品生產銷售、市場推廣營銷、出海戰略佈局五大領域。通過“五環搆想”的實施,中國經濟可能有一個全新的契機注入新的動力,推動經濟穩定健康發展。

  • 在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    隨著時代的變遷,人生價值的內涵也變得更加多樣化和個性化。每個人對於“成功”和“幸福”的理解不同,有些人追求的是即時的快樂和成就感,而有些人則看重長期的進步和自我超越。

    在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    隨著時代的變遷,人生價值的內涵也變得更加多樣化和個性化。每個人對於“成功”和“幸福”的理解不同,有些人追求的是即時的快樂和成就感,而有些人則看重長期的進步和自我超越。

  • 再見愛人:探索現代婚姻中的情感困境

    再見愛人:探索現代婚姻中的情感困境

    芒果TV婚姻紀實觀察節目“再見愛人4”邀請黃聖依、楊子,麥琳、李行亮,葛夕、劉爽三對情感關系10年以上的夫妻,以“婚姻紀實觀察”為切口,呈現出不同婚姻樣本在親密關系中的掙扎與甜蜜、桎梏與覺醒。

    再見愛人:探索現代婚姻中的情感困境

    芒果TV婚姻紀實觀察節目“再見愛人4”邀請黃聖依、楊子,麥琳、李行亮,葛夕、劉爽三對情感關系10年以上的夫妻,以“婚姻紀實觀察”為切口,呈現出不同婚姻樣本在親密關系中的掙扎與甜蜜、桎梏與覺醒。

  • 抖音短劇新風潮:中老年人成為新的增長點?

    抖音短劇新風潮:中老年人成為新的增長點?

    近日,不少以老年人為主角的抖音短劇“閃婚五十歲”、“金榜題名之母憑子貴”、“人到五十,閃婚霸總”等等登上熱度榜單。老年人的婚姻、情感以及生活故事,成了當下短劇創作的“新流量密碼”。

    抖音短劇新風潮:中老年人成為新的增長點?

    近日,不少以老年人為主角的抖音短劇“閃婚五十歲”、“金榜題名之母憑子貴”、“人到五十,閃婚霸總”等等登上熱度榜單。老年人的婚姻、情感以及生活故事,成了當下短劇創作的“新流量密碼”。

1 / 4