Meta首席人工智能科學家Yann LeCun的AI世界模型正式推出: 自監督視覺模型，可像人一樣理解世界并作出預測?

Meta首席人工智能科学家Yann LeCun的AI世界模型正式推出: 自监督视觉模型，可像人一样理解世界并作出预测?

發布日期:2023年6月18日

科技 Tech

要点:
Yann LeCun所提出的“世界模型”: 它先学习世界运作方式，而后形成一个内部模型，再通过这个内部模型来更快速地学习，为完成复杂任务做出计划，并且随时应对不熟悉的新情况。而具体到I-JEPA，其在补全图像的过程中，它比较的是图像的抽象表征，而不是比较像素本身。这个方式与我们人类认识世界的方式颇为一致。

致力于传播优质的中国知识内容、构建全球新共识。我们将通过一系列时事资讯、精品课程、论坛、节目、咨询报告等内容产品，提供关于当代中国的最新的舆论思潮、深入的社会观察、亮眼的科技成就等优质信息。我们已与五大洲十多个国家、百余个研究机构、媒体机构、政治团体、民间组织建立合作关系。希望通过我们的工作在海外分享中国经验，讲述中国故事，客观分析我们共同面对的挑战和机遇，携手全球青年寻找全球化发展的新共识。
联系我们// Substack // Twitter // YouTube // 相关文章

自从ChatGPT问世以来，生成式模型炙手可热。但是这些模型单纯根据概率生成内容，因而无法解决幻觉问题，经常一本正经地胡说八道，让人诟病。

这也是人工智能领域的大咖Yann LeCun长期以来对GPT颇为不屑的原因，甚至断言GPT模式活不过5年。那么在Yann LeCun看来究竟哪条技术路线才是人工智能的正途呢？答案在本周揭晓了。他所领衔的Meta AI刚刚发布了基于图像的联合嵌入预测架构/Image based Joint-Embedding Predictive Architecture，简称I-JEPA。

点击查看研究论文

这个模型正是Yann LeCun之前所提出的“世界模型”：它先学习世界运作方式，而后形成一个内部模型，再通过这个内部模型来更快速地学习，为完成复杂任务做出计划，并且随时应对不熟悉的新情况。而具体到I-JEPA，其在补全图像的过程中，它比较的是图像的抽象表征，而不是比较像素本身。这个方式与我们人类认识世界的方式颇为一致。认知学习理论认为，生物系统中的表征学习的关键在于内部模型逐渐做出调整以预测感官输入的信息，这构成了表征学习背后的驱动机制。而这个理念正是完全自监督学习的核心理念，即去除一部分输入信息后，学习怎样预测缺失的那部分内容。

非生成式的自监督学习<br>在学习外部世界的表征时，通常使用的是自监督学习的方式，使用未标记的数据，如图像和声音，而不是标记过的数据集。

自监督学习一般有3种架构：联合嵌入式架构、生成式架构、联合嵌入式预测架构。

当输入x和y兼容时，联合嵌入式架构学习输出相似的嵌入；而当输入不兼容时，则输出不同的嵌入。生成式架构学习的是使用解码器网络直接从兼容信号x来重构信号y。联合嵌入式预测架构学习的是使用预测器网络来从兼容信号x来预测信号y的嵌入。

联合嵌入式预测架构
I-JEPA作为一种联合嵌入式预测架构的自监督学习方法，可以学习高度语义化的图像表征，而无需依赖手工设计的数据增强技术。 I-JEPA的关键是使用掩蔽策略，即随机遮挡输入图像的部分区域，然后训练模型根据剩余的上下文预测被遮挡的区域。这促使模型去学习有意义的表征，从而捕捉图像的基本结构。此外，I-JEPA将这种掩蔽策略与视觉Transformer相结合：使用单个上下文块来预测来自同一图像的表征，上下文编码器是一个视觉Transformer，它只处理可见的上下文。而预测器可以接收上下文编码器的输出，并根据目标的位置来预测目标块的表征。实验结果证明了这种方法在生成语义表征方面的有效性。

这种方式就与生成式模型不同。生成式模型会擦除图像的一部分或隐藏段落中的一些单词，再尝试预测缺失的部分。在这个过程中，生成式模型往往会试图填补每一段缺失的信息，陷入琐碎而无关紧要的细节中，比如生成图片时产生千奇百怪的人手。

相反，I-JEPA用更像人类的方式来预测缺失的信息，用抽象的目标来去掉不需要的像素细节。这样做，I-JEPA的预测器可以根据一些可看到的上下文，为图像建立一个模型，也就是有了大局观，这会帮助它预测图像中看不到的区域的更高级别的信息，而不是执着于像素级别的细节。为了理解模型捕获到的信息，研究团队训练了一个随机解码器，它将I-JEPA模型输出的表征映射回像素空间, 从而展示出模型进行预测时的输出结果。例如，在给定的一张图像随机釆样4个目标块，然后再随机釆样一个上下文块，并删除任何重叠的目标块。利用这个策略，目标块相对语义化，而上下文块为了提高处理效率而更稀疏，但信息量大。

预测器的可视化<br>预测器的可视化对于理解I-JEPA模型的作用至关重要。预测器的作用是基于上下文编码器的输出和位置掩蔽标记，预测目标块指定位置掩蔽标记所对应的表征。这里的关键问题是依靠位置掩蔽标记的预测器是否能正确捕获目标位置的不确定性。

下面的例子中，第一列包含原始图像，第二列包含上下文图像，绿色边界框包含来自预测器输出解码的生成模型的样本。预测器正确捕捉了位置的不确定性，所产生的部位的姿态也是正确的，比如鸟的背面和车的顶部。

计算效率大大提高<br>相比其它的方法，I-JEPA具有高度可扩展性。 I-JEPA需要较少的计算量就可以获得很强的效果，而不需要依赖人工设计的数据增强。与MAE之类的方法相比，I-JEPA通过在表征空间计算目标而慢了约7%的迭代时间。然而，由于I-JEPA大约只需要前者1/5的迭代次数就会收敛，所以在实践中仍然可以显著节省计算时间。与基于视觉不变性的方法（如iBOT）相比，I-JEPA也运行得更快。特别是，I-JEPA的巨大模型（ViT-H/14）所需要的计算量少于iBOT的小模型（ViT-S/16）。 I-JEPA在训练中学到的表征也可以直接用于其他任务，而无需进行大量的微调。比如在ImageNet-1K线性探测和半监督评估中，它还优于像素和标记重建方法。

I-JEPA的这个优势让Yann LeCun团队只用了16个A100 GPU在不到72小时的时间内，就训练出了一个6.32亿参数的视觉变换器模型，并在ImageNet的低样本分类上取得了最先进的性能。而每个类别只有12个标记示例。其他方法通常需要高达2到10倍GPU小时，并且使用相同数量的数据进行训练时，错误率也更高。

I-JEPA是一种简单高效的方法来学习图片语义表征，且不依赖人工制作的知识作为额外的辅助。相比于日益闭源的OpenAI，Meta AI研究团队将开源I-JEPA的训练代码和模型检查点，并且下一步将扩展该方法到其他领域，例如图像-文本配对数据和视频数据，这也将是应用和扩展自监督方法来学习世界模型的重要一步。借此，未来的人工智能将具备常识、真正理解世界，走向通往AGI的快车道。

免責聲明：本網站提供的信息僅供一般信息分享目的，並不應被視為投資建議。

返回博客

思钱想后Convo Money

查看全部

美国连锁餐厅猫头鹰Hooters申请破产保护，从性感营销到财务困境的衰退

Hooters对于员工的形象要求十分严格，员工手册中明确规定了着装和外貌标准。例如，热裤不能太紧，不得暴露臀部曲线，员工不能穿孔、穿环，特别是不能佩戴舌环、不得有纹身，绝对不允许露出文胸肩带。若穿袜子，必须选择肉色连裤袜。

美国连锁餐厅猫头鹰Hooters申请破产保护，从性感营销到财务困境的衰退

Hooters对于员工的形象要求十分严格，员工手册中明确规定了着装和外貌标准。例如，热裤不能太紧，不得暴露臀部曲线，员工不能穿孔、穿环，特别是不能佩戴舌环、不得有纹身，绝对不允许露出文胸肩带。若穿袜子，必须选择肉色连裤袜。
“Buy Canada”推动加拿大产品购买热潮，全球化紧张局势或改变消费模式

支持本地产品的“购买加拿大产品”运动迅速蔓延，成为一种抵制外来压力、支持本土经济的力量。这一趋势不仅仅是政治与经济的反应，更反映了消费者在全球不确定性中寻求安全与可持续发展的一种表现。

“Buy Canada”推动加拿大产品购买热潮，全球化紧张局势或改变消费模式

支持本地产品的“购买加拿大产品”运动迅速蔓延，成为一种抵制外来压力、支持本土经济的力量。这一趋势不仅仅是政治与经济的反应，更反映了消费者在全球不确定性中寻求安全与可持续发展的一种表现。
中日韩重启经济对话，特朗普关税政策下的全球经济博弈

随着特朗普政府的关税政策持续演变，美国与全球许多国家的关系愈发紧张，而中国则通过一系列积极的外交手段，逐步拉近与其他国家的关系。近日，甚至连曾经与中国在许多问题上对立的日本与韩国，也开始在经济领域寻找与中国的合作机会。

中日韩重启经济对话，特朗普关税政策下的全球经济博弈

随着特朗普政府的关税政策持续演变，美国与全球许多国家的关系愈发紧张，而中国则通过一系列积极的外交手段，逐步拉近与其他国家的关系。近日，甚至连曾经与中国在许多问题上对立的日本与韩国，也开始在经济领域寻找与中国的合作机会。
美国25%汽车关税引发全球贸易新挑战，需关注政策不确定性与市场波动

随着美国政府宣布对所有非美国制造的汽车征收25%的关税，关税和贸易政策继续成为焦点。这一措施在备受关注的4月2日公告之前发布，预计该公告将详细阐明对其他国家征收互惠关税的框架。

美国25%汽车关税引发全球贸易新挑战，需关注政策不确定性与市场波动

随着美国政府宣布对所有非美国制造的汽车征收25%的关税，关税和贸易政策继续成为焦点。这一措施在备受关注的4月2日公告之前发布，预计该公告将详细阐明对其他国家征收互惠关税的框架。
加拿大人跨境美国旅游下降，或加剧美国500亿美元旅游赤字?

美国的旅游业面临着前所未有的挑战，尤其是在跨境旅游和国际游客数量的下降上。虽然美国一直是全球旅游的重要目的地，但近期多重因素的交织使得这一趋势发生了变化，美国的旅游吸引力正在遭遇严峻考验。

加拿大人跨境美国旅游下降，或加剧美国500亿美元旅游赤字?

美国的旅游业面临着前所未有的挑战，尤其是在跨境旅游和国际游客数量的下降上。虽然美国一直是全球旅游的重要目的地，但近期多重因素的交织使得这一趋势发生了变化，美国的旅游吸引力正在遭遇严峻考验。
Deepseek带动恒生科技指数AI股，中概股复活背后的信心时代| 播客Podcast

DeepSeek 是「中国版斯普特尼克时刻」——1957 年10 月4日，苏联成功发射了世界上第一颗人造卫星「斯普尼特1 号」，这一事件引发了美国及西方世界的巨大危机感和紧迫感，也是冷战期间美苏太空竞赛的开始。

Deepseek带动恒生科技指数AI股，中概股复活背后的信心时代| 播客Podcast

DeepSeek 是「中国版斯普特尼克时刻」——1957 年10 月4日，苏联成功发射了世界上第一颗人造卫星「斯普尼特1 号」，这一事件引发了美国及西方世界的巨大危机感和紧迫感，也是冷战期间美苏太空竞赛的开始。
零售巨头Costco，在全球经济大环境下逆势增长的秘诀?

Costco的起源来自于1976年成立的美国仓储式超市鼻祖“Price Club”，Price Club通过收取少量会员费，为会员提供高品质的低价商品。 Costco的创办人之一Jim Sinegal/吉姆·辛纳格曾在Price Club担任高管工作，并将其经验带入了Costco的创建过程。

零售巨头Costco，在全球经济大环境下逆势增长的秘诀?

Costco的起源来自于1976年成立的美国仓储式超市鼻祖“Price Club”，Price Club通过收取少量会员费，为会员提供高品质的低价商品。 Costco的创办人之一Jim Sinegal/吉姆·辛纳格曾在Price Club担任高管工作，并将其经验带入了Costco的创建过程。
快手四季财报，GMV年增速14%，相比上季略有下降？

第四季度GMV为4621亿，年增速14%，相比上季略有下降，高基数市场有一定预期。第四季业务表现也不好，但直播电商方面表现较差。快手去年就推出了泛货架转换模式，但目前GMV比刚达到30%，节俭且不算快。

快手四季财报，GMV年增速14%，相比上季略有下降？

第四季度GMV为4621亿，年增速14%，相比上季略有下降，高基数市场有一定预期。第四季业务表现也不好，但直播电商方面表现较差。快手去年就推出了泛货架转换模式，但目前GMV比刚达到30%，节俭且不算快。

NaN -Infinity

查看全部

流科百世Convo Tech

查看全部

AI赋能新一代脑机接口，让瘫痪失语者通过意念实时“说话”

该研究开发了一种创新的脑机接口设备，结合了人工智能AI模型训练，植入至一名47岁女性患者的大脑，将她在大脑中想象的言语活动实时转换为声音输出，从而恢复了患者的自然对话能力。这名患者因脑干中风导致四肢和躯干瘫痪，已无法说话或发声长达18年。

AI赋能新一代脑机接口，让瘫痪失语者通过意念实时“说话”

该研究开发了一种创新的脑机接口设备，结合了人工智能AI模型训练，植入至一名47岁女性患者的大脑，将她在大脑中想象的言语活动实时转换为声音输出，从而恢复了患者的自然对话能力。这名患者因脑干中风导致四肢和躯干瘫痪，已无法说话或发声长达18年。
麻省理工学院推出VIK系统加速交互式设备原型设计，推动体素技术革新

VIK系统是在麻省理工学院比特与原子中心多年研究的基础上开发的，之前该团队已研发出一种名为体素的离散蜂窝组件。每个体素由铝材制成，釆用立方体和八面体的晶格结构（包含八个三角形面和六个方形面），其强度非常高，能够支撑高达228公斤的重量。

麻省理工学院推出VIK系统加速交互式设备原型设计，推动体素技术革新

VIK系统是在麻省理工学院比特与原子中心多年研究的基础上开发的，之前该团队已研发出一种名为体素的离散蜂窝组件。每个体素由铝材制成，釆用立方体和八面体的晶格结构（包含八个三角形面和六个方形面），其强度非常高，能够支撑高达228公斤的重量。
SpaceX“龙”飞船成功接回滞留宇航员，揭示太空探索面临的挑战与机遇

美国东部时间3月18日凌晨，SpaceX的“龙”飞船成功搭载包括因波音737“星际客机”飞船故障滞留国际空间站的美国宇航员威尔莫尔和威廉姆斯在内的四名宇航员，从国际空间站脱离，启程返回地球。

SpaceX“龙”飞船成功接回滞留宇航员，揭示太空探索面临的挑战与机遇

美国东部时间3月18日凌晨，SpaceX的“龙”飞船成功搭载包括因波音737“星际客机”飞船故障滞留国际空间站的美国宇航员威尔莫尔和威廉姆斯在内的四名宇航员，从国际空间站脱离，启程返回地球。
“地平线：零之曙光”女演员呼吁警惕AI取代真人，游戏配音行业面临挑战

地平线：零之曙光/Horizon Zero Dawn游戏中标志性角色之一埃洛伊/Aloy的配音及动作捕捉演员阿什莉·伯奇/Ashly Burch对一项泄露的索尼实验表示了强烈质疑。该实验展示了埃洛伊的配音和表演完全由人工智能AI生成，而非由她本人或任何真人演员进行。

“地平线：零之曙光”女演员呼吁警惕AI取代真人，游戏配音行业面临挑战

地平线：零之曙光/Horizon Zero Dawn游戏中标志性角色之一埃洛伊/Aloy的配音及动作捕捉演员阿什莉·伯奇/Ashly Burch对一项泄露的索尼实验表示了强烈质疑。该实验展示了埃洛伊的配音和表演完全由人工智能AI生成，而非由她本人或任何真人演员进行。

NaN -Infinity

查看全部

观点Opinion

查看全部

中國惠州房產中介貸款騙局，為愛買房“殺豬槃”騙局？

“我的前女友叫劉佳”、“前女友叫劉佳”、“劉佳是我前女友”.。以上這些男士的前女友竟然都叫“劉佳”，而更離奇的是，這些男士還都是同一棟樓的業主，他們都表示自己是前女友“劉佳”介紹來買房的。這一切看似巧合，實則隱藏着不為人知的騙局。

中國惠州房產中介貸款騙局，為愛買房“殺豬槃”騙局？

“我的前女友叫劉佳”、“前女友叫劉佳”、“劉佳是我前女友”.。以上這些男士的前女友竟然都叫“劉佳”，而更離奇的是，這些男士還都是同一棟樓的業主，他們都表示自己是前女友“劉佳”介紹來買房的。這一切看似巧合，實則隱藏着不為人知的騙局。
美国性勒索与网路犯罪：青少年如何避免成为下一个受害者？

在数字化时代，网络犯罪的形式愈加多样且隐蔽，其中“性勒索”/sextortion已成为一个日益严重的问题。这类网络犯罪不仅涉及个人隐私的泄露，还会对受害者的心理健康和社会生活造成深远影响。 “性勒索”/Sextortion犯罪在现代技术的推动下，呈现出爆发式增长。

美国性勒索与网路犯罪：青少年如何避免成为下一个受害者？

在数字化时代，网络犯罪的形式愈加多样且隐蔽，其中“性勒索”/sextortion已成为一个日益严重的问题。这类网络犯罪不仅涉及个人隐私的泄露，还会对受害者的心理健康和社会生活造成深远影响。 “性勒索”/Sextortion犯罪在现代技术的推动下，呈现出爆发式增长。
加州洛杉矶野火的“囚犯消防员”

加州洛杉矶囚犯参与了构筑防火线、清除废墟及易燃物等工作，弥补了加州消防队伍的不足。然而，他们的低薪待遇却令人震惊。囚犯消防员的收入在每天5.8美元至10.2美元之间，而相比之下，加州的最低工资标准为每小时16.5美元。

加州洛杉矶野火的“囚犯消防员”

加州洛杉矶囚犯参与了构筑防火线、清除废墟及易燃物等工作，弥补了加州消防队伍的不足。然而，他们的低薪待遇却令人震惊。囚犯消防员的收入在每天5.8美元至10.2美元之间，而相比之下，加州的最低工资标准为每小时16.5美元。
从吉他少年到海嘎小学教师，顾亚用音乐敲开乡村孩子通往世界的大门

2014年，在家人的“怂恿”下，27岁的顾亚参加了乡镇特岗教师的招聘考试，意外地来到了这个偏远的村庄。海嘎村的孩子们大多没有见过吉他，但他们天生拥有出色的嗓音和节奏感。顾亚毅然申请从大湾镇的腊寨小学调动，前往海嘎村当起了老师。

从吉他少年到海嘎小学教师，顾亚用音乐敲开乡村孩子通往世界的大门

2014年，在家人的“怂恿”下，27岁的顾亚参加了乡镇特岗教师的招聘考试，意外地来到了这个偏远的村庄。海嘎村的孩子们大多没有见过吉他，但他们天生拥有出色的嗓音和节奏感。顾亚毅然申请从大湾镇的腊寨小学调动，前往海嘎村当起了老师。

NaN -Infinity

查看全部

胡说北道Convo Ave(播客)

查看全部

从中国经济看背后困境及发展新构想?

中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施，中国经济可能有一个全新的契机注入新的动力，推动经济稳定健康发展。

从中国经济看背后困境及发展新构想?

中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施，中国经济可能有一个全新的契机注入新的动力，推动经济稳定健康发展。
在变革中的抉择：当今大环境下如何实现职业规划与人生价值？

随着时代的变迁，人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同，有些人追求的是即时的快乐和成就感，而有些人则看重长期的进步和自我超越。

在变革中的抉择：当今大环境下如何实现职业规划与人生价值？

随着时代的变迁，人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同，有些人追求的是即时的快乐和成就感，而有些人则看重长期的进步和自我超越。
再见爱人：探索现代婚姻中的情感困境

芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子，麦琳、李行亮，葛夕、刘爽三对情感关系10年以上的夫妻，以“婚姻纪实观察”为切口，呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

再见爱人：探索现代婚姻中的情感困境

芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子，麦琳、李行亮，葛夕、刘爽三对情感关系10年以上的夫妻，以“婚姻纪实观察”为切口，呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。
抖音短剧新风潮：中老年人成为新的增长点?

近日，不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十，闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事，成了当下短剧创作的“新流量密码”。

抖音短剧新风潮：中老年人成为新的增长点?

近日，不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十，闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事，成了当下短剧创作的“新流量密码”。

NaN -Infinity

查看全部

免费订阅优质资讯