要點:
Meta發布V-JEPA 2世界模型,賦予AI類人般的物理直覺與推理能力,助力其在復雜現實環境中實現“先思考、再行動”的智能行為。
從語言生成到圖像創作,人工智能在感知層面的突破已令世界驚艷。然而,若要讓AI真正融入現實、與世界互動,僅靠“看得見”和“說得出”還遠遠不夠。真正的挑戰在於能否讓AI“看懂”世界的運行邏輯,并像人類一樣,在行動前進行預測與權衡。
今天,Meta宣布推出一種新的人工智能“世界模型”/world model,可以更好地理解3D環境和物理物件的運動。其新的開源AI模型V-JEPA 2能夠在物理世界中理解、預測和規劃。這些被稱為世界模型的系統從物理世界的邏輯中汲取靈感,建構了現實的內部模擬,使AI能夠以更像人類的方式學習、規劃和決策。
新一代世界模型V-JEPA 2
V-JEPA 2是Meta推出的最先進世界模型之一,專為提升人工智能對物理世界的理解與預測能力而設計。該模型以視頻作為訓練基礎,使機器人和其他 AI 代理能夠感知現實環境中的因果關系,并預測自身行為將引發的環境變化。
這一技朮被視為搆建具備“先思考、后行動”能力AI系統的核心支柱,同時標志着Meta在邁向高階機器智慧/Artificial Machine Intelligence,,簡稱AMI長期願景上的重要推進。
人類擁有天生的物理直覺,能預判世界的反應機制:看見網球被拋向空中時,自然會預期它因重力而落下。在人群中穿梭時,會下意識地規避碰撞。在球類運動中,也能主動朝球的未來方向移動。這種直覺建立在對周遭環境持續觀察與內在模型的建搆之上,讓人類能夠推演假設性行為的后果。
而V-JEPA 2旨在賦予 AI 類似的認知能力,使其能夠在復雜環境中做出更合理的判斷與行為。Meta 的世界模型聚焦於“理解、預測、規划”三大智能核心,藉由這些能力的融合,不僅提升了AI的泛化水平,也為其在現實世界中的高效部署打下堅實基礎。
Meta日前正式發布的最新一代世界模型V-JEPA 2,是繼去年首款視頻訓練模型V-JEPA面世后的重要升級版本。作為“聯合嵌入預測架搆”/JEPA的延伸,V-JEPA 2由該公司副總裁兼首席人工智能科學家Yann LeCun率先提出。他強調,V-JEPA的設計目標是推動機器更深入地理解現實世界,使其具備類人思維般的通用推理與規划能力,從而實現更廣泛、泛化性更強的智能系統。
與傳統生成式方法不同,V-JEPA屬於非生成式模型,依賴於在抽象表徵空間中預測被遮擋或缺失的視頻片段內容進行訓練。這種方式避免了逐像素還原的高計算負擔,大幅提升了模型訓練與推理的效率。據Meta表示,其訓練和釆樣效率可提升1.5倍至6倍。這一優勢源自於JEPA架搆中引入的“潛在空間”推理機制,與Meta先前用於圖像處理的I-JEPA在理念上一脈相承。
而相較前一代模型,V-JEPA 2在理解、預測和適應方面均實現質的飛躍。模型通過大量視頻數據訓練,學會辨識物體在物理世界中的行為模式,包括人與物的交互、物體的移動軌跡以及物體之間的動態關系等。
在內部測試中,V-JEPA 2被部署至機器人平台,成功執行伸手、抓取、搬運等基礎任務,表現出高度的環境理解力與任務泛化能力。例如,它能識別出滾落桌邊的球會繼續下落,或是理解被暫時遮擋的物體依然存在。
此外,Meta還特別強調V-JEPA 2在機器人導航與自動駕駛等場景中的應用潛力。由於這些系統需實時理解復雜的現實環境,因此一個高效、低資源消耗、具備物理直覺的世界模型顯得至關重要。V-JEPA 2正是在這一背景下脫穎而出,它不依賴大規模標注數據,而是在簡化的潛在表示空間中完成推理,借此掌握物體的運動邏輯、交互規律與環境反應機制,從而為智能機器提供前所未有的洞察力與適應性。
目前,Meta還同步發布三項全新基准測試,旨在推動研究社區評估各類AI模型在視頻理解和世界建模方面的性能。通過開放這些工具和數據,Meta希望為研究者與開發者提供前沿資源,加速人工智能領域的進步,并朝着搆建更加通用、智能且有益於社會的 AI 系統邁進。
在AI領域持續加碼的背后,是Meta對其未來戰略的深度押注。知情人士透露,Meta正計划向AI基礎設施企業Scale AI投資高達140億美元,并已邀請其CEO Alexandr Wang擔任顧問,以強化公司的AI戰略布局。
世界模型成為下一個AI新趨勢
隨著生成式AI應用(如OpenAI的ChatGPT與Google的Gemini)在語言與圖像生成領域取得巨大成功,人工智能的研究重點正逐步從語言模型轉向更具認知能力的架構:世界模型。這類模型不再只專注於語義理解與文本生成,而是嘗試讓AI理解並模擬真實世界中的物理因果關係與動態變化,從而在更廣泛的場景中實現智能行為的泛化與推理。
去年9月,AI領域的領軍人物李飛飛教授宣布為其創立的新創公司World Labs籌得2.3億美元資金,震動學界與投資圈。這家公司提出“大世界模型”/Large World Model,簡稱LWM的概念,目標是構建一種具備感知、理解與推演能力的AI架構,使其能夠從多模態數據中學習現實世界的結構與規律,進而支援更複雜的實體任務,如機器人操作、自主導航及因果推理。
與此同時,Google/谷歌旗下的DeepMind也積極投入世界模型領域,推出名為Genie的實驗性項目。Genie主打即時模擬功能,能夠根據輸入生成互動式2D或3D場景,模擬遊戲環境中的物理反應與角色行為。這使AI不再只是被動接受資訊,而能主動預測未來情境,並在模擬空間中測試不同策略,類似人類在心中預演行動的能力。
儘管目前仍處於早期階段,世界模型已展現出廣泛應用潛力。從機器人學到自駕車、從醫療模擬到虛擬教學環境,這類模型可作為核心智能引擎,提供決策依據、行為規劃與情境推理能力。與傳統以數據回饋為主的AI不同,世界模型傾向於建立內部預測機制,在尚未發生的情境中模擬潛在風險與機會,這種能力對於複雜系統尤為關鍵。
作為投資者,綜觀全球科技巨頭與新創公司的佈局趨勢,生成式AI已從語言與圖像生成拓展到世界級的建模挑戰。無論是Meta的V-JEPA 2、Google的Genie,還是World Labs,皆反映出業界對於“讓AI更好地理解世界”這一目標的共識。未來的競爭焦點,或將不再僅是誰能產出最自然的對話,而是誰能培養出真正能看、能想、能行動的智能體。