要点:
Meta发布V-JEPA 2世界模型,赋予AI类人般的物理直觉与推理能力,助力其在复杂现实环境中实现“先思考、再行动”的智能行为。
从语言生成到图像创作,人工智能在感知层面的突破已令世界惊艳。然而,若要让AI真正融入现实、与世界互动,仅靠“看得见”和“说得出”还远远不够。真正的挑战在于能否让AI“看懂”世界的运行逻辑,并像人类一样,在行动前进行预测与权衡。
今天,Meta宣布推出一种新的人工智能“世界模型”/world model,可以更好地理解3D环境和物理物件的运动。其新的开源AI模型V-JEPA 2能够在物理世界中理解、预测和规划。这些被称为世界模型的系统从物理世界的逻辑中汲取灵感,建构了现实的内部模拟,使AI能够以更像人类的方式学习、规划和决策。
新一代世界模型V-JEPA 2
V-JEPA 2是Meta推出的最先进世界模型之一,专为提升人工智能对物理世界的理解与预测能力而设计。该模型以视频作为训练基础,使机器人和其他AI 代理能够感知现实环境中的因果关系,并预测自身行为将引发的环境变化。
这一技术被视为构建具备“先思考、后行动”能力AI系统的核心支柱,同时标志着Meta在迈向高阶机器智慧/Artificial Machine Intelligence,,简称AMI长期愿景上的重要推进。
人类拥有天生的物理直觉,能预判世界的反应机制:看见网球被抛向空中时,自然会预期它因重力而落下。在人群中穿梭时,会下意识地规避碰撞。在球类运动中,也能主动朝球的未来方向移动。这种直觉建立在对周遭环境持续观察与内在模型的建构之上,让人类能够推演假设性行为的后果。
而V-JEPA 2旨在赋予AI 类似的认知能力,使其能够在复杂环境中做出更合理的判断与行为。 Meta 的世界模型聚焦于“理解、预测、规划”三大智能核心,藉由这些能力的融合,不仅提升了AI的泛化水平,也为其在现实世界中的高效部署打下坚实基础。
Meta日前正式发布的最新一代世界模型V-JEPA 2,是继去年首款视频训练模型V-JEPA面世后的重要升级版本。作为“联合嵌入预测架构”/JEPA的延伸,V-JEPA 2由该公司副总裁兼首席人工智能科学家Yann LeCun率先提出。他强调,V-JEPA的设计目标是推动机器更深入地理解现实世界,使其具备类人思维般的通用推理与规划能力,从而实现更广泛、泛化性更强的智能系统。
与传统生成式方法不同,V-JEPA属于非生成式模型,依赖于在抽象表征空间中预测被遮挡或缺失的视频片段内容进行训练。这种方式避免了逐像素还原的高计算负担,大幅提升了模型训练与推理的效率。据Meta表示,其训练和釆样效率可提升1.5倍至6倍。这一优势源自于JEPA架构中引入的“潜在空间”推理机制,与Meta先前用于图像处理的I-JEPA在理念上一脉相承。
而相较前一代模型,V-JEPA 2在理解、预测和适应方面均实现质的飞跃。模型通过大量视频数据训练,学会辨识物体在物理世界中的行为模式,包括人与物的交互、物体的移动轨迹以及物体之间的动态关系等。
在内部测试中,V-JEPA 2被部署至机器人平台,成功执行伸手、抓取、搬运等基础任务,表现出高度的环境理解力与任务泛化能力。例如,它能识别出滚落桌边的球会继续下落,或是理解被暂时遮挡的物体依然存在。
此外,Meta还特别强调V-JEPA 2在机器人导航与自动驾驶等场景中的应用潜力。由于这些系统需实时理解复杂的现实环境,因此一个高效、低资源消耗、具备物理直觉的世界模型显得至关重要。 V-JEPA 2正是在这一背景下脱颖而出,它不依赖大规模标注数据,而是在简化的潜在表示空间中完成推理,借此掌握物体的运动逻辑、交互规律与环境反应机制,从而为智能机器提供前所未有的洞察力与适应性。
目前,Meta还同步发布三项全新基准测试,旨在推动研究社区评估各类AI模型在视频理解和世界建模方面的性能。通过开放这些工具和数据,Meta希望为研究者与开发者提供前沿资源,加速人工智能领域的进步,并朝着构建更加通用、智能且有益于社会的AI 系统迈进。
在AI领域持续加码的背后,是Meta对其未来战略的深度押注。知情人士透露,Meta正计划向AI基础设施企业Scale AI投资高达140亿美元,并已邀请其CEO Alexandr Wang担任顾问,以强化公司的AI战略布局。
世界模型成为下一个AI新趋势
随着生成式AI应用(如OpenAI的ChatGPT与Google的Gemini)在语言与图像生成领域取得巨大成功,人工智能的研究重点正逐步从语言模型转向更具认知能力的架构:世界模型。这类模型不再只专注于语义理解与文本生成,而是尝试让AI理解并模拟真实世界中的物理因果关系与动态变化,从而在更广泛的场景中实现智能行为的泛化与推理。
去年9月,AI领域的领军人物李飞飞教授宣布为其创立的新创公司World Labs筹得2.3亿美元资金,震动学界与投资圈。这家公司提出“大世界模型”/Large World Model,简称LWM的概念,目标是构建一种具备感知、理解与推演能力的AI架构,使其能够从多模态数据中学习现实世界的结构与规律,进而支援更复杂的实体任务,如机器人操作、自主导航及因果推理。
与此同时,Google/谷歌旗下的DeepMind也积极投入世界模型领域,推出名为Genie的实验性项目。 Genie主打即时模拟功能,能够根据输入生成互动式2D或3D场景,模拟游戏环境中的物理反应与角色行为。这使AI不再只是被动接受资讯,而能主动预测未来情境,并在模拟空间中测试不同策略,类似人类在心中预演行动的能力。
尽管目前仍处于早期阶段,世界模型已展现出广泛应用潜力。从机器人学到自驾车、从医疗模拟到虚拟教学环境,这类模型可作为核心智能引擎,提供决策依据、行为规划与情境推理能力。与传统以数据回馈为主的AI不同,世界模型倾向于建立内部预测机制,在尚未发生的情境中模拟潜在风险与机会,这种能力对于复杂系统尤为关键。
作为投资者,综观全球科技巨头与新创公司的布局趋势,生成式AI已从语言与图像生成拓展到世界级的建模挑战。无论是Meta的V-JEPA 2、Google的Genie,还是World Labs,皆反映出业界对于“让AI更好地理解世界”这一目标的共识。未来的竞争焦点,或将不再仅是谁能产出最自然的对话,而是谁能培养出真正能看、能想、能行动的智能体。