Meta首席人工智能科學家Yann LeCun的AI世界模型正式推出: 自監督視覺模型,可像人一樣理解世界并作出預測?

Meta首席人工智能科学家Yann LeCun的AI世界模型正式推出: 自监督视觉模型,可像人一样理解世界并作出预测?

發布日期:

科技 Tech


要点:
Yann LeCun所提出的“世界模型”: 它先学习世界运作方式,而后形成一个内部模型,再通过这个内部模型来更快速地学习,为完成复杂任务做出计划,并且随时应对不熟悉的新情况。而具体到I-JEPA,其在补全图像的过程中,它比较的是图像的抽象表征,而不是比较像素本身。这个方式与我们人类认识世界的方式颇为一致。

致力于传播优质的中国知识内容、构建全球新共识。我们将通过一系列时事资讯、精品课程、论坛、节目、咨询报告等内容产品,提供关于当代中国的最新的舆论思潮、深入的社会观察、亮眼的科技成就等优质信息。我们已与五大洲十多个国家、百余个研究机构、媒体机构、政治团体、民间组织建立合作关系。希望通过我们的工作在海外分享中国经验,讲述中国故事,客观分析我们共同面对的挑战和机遇,携手全球青年寻找全球化发展的新共识。
联系我们// Substack // Twitter // YouTube // 相关文章

自从ChatGPT问世以来,生成式模型炙手可热。但是这些模型单纯根据概率生成内容,因而无法解决幻觉问题,经常一本正经地胡说八道,让人诟病。

这也是人工智能领域的大咖Yann LeCun长期以来对GPT颇为不屑的原因,甚至断言GPT模式活不过5年。那么在Yann LeCun看来究竟哪条技术路线才是人工智能的正途呢?答案在本周揭晓了。他所领衔的Meta AI刚刚发布了基于图像的联合嵌入预测架构/Image based Joint-Embedding Predictive Architecture,简称I-JEPA。


点击查看研究论文

这个模型正是Yann LeCun之前所提出的“世界模型”:它先学习世界运作方式,而后形成一个内部模型,再通过这个内部模型来更快速地学习,为完成复杂任务做出计划,并且随时应对不熟悉的新情况。而具体到I-JEPA,其在补全图像的过程中,它比较的是图像的抽象表征,而不是比较像素本身。这个方式与我们人类认识世界的方式颇为一致。认知学习理论认为,生物系统中的表征学习的关键在于内部模型逐渐做出调整以预测感官输入的信息,这构成了表征学习背后的驱动机制。而这个理念正是完全自监督学习的核心理念,即去除一部分输入信息后,学习怎样预测缺失的那部分内容。

非生成式的自监督学习<br>在学习外部世界的表征时,通常使用的是自监督学习的方式,使用未标记的数据,如图像和声音,而不是标记过的数据集。

自监督学习一般有3种架构:联合嵌入式架构、生成式架构、联合嵌入式预测架构。

当输入x和y兼容时,联合嵌入式架构学习输出相似的嵌入;而当输入不兼容时,则输出不同的嵌入。生成式架构学习的是使用解码器网络直接从兼容信号x来重构信号y。联合嵌入式预测架构学习的是使用预测器网络来从兼容信号x来预测信号y的嵌入。

联合嵌入式预测架构
I-JEPA作为一种联合嵌入式预测架构的自监督学习方法,可以学习高度语义化的图像表征,而无需依赖手工设计的数据增强技术。 I-JEPA的关键是使用掩蔽策略,即随机遮挡输入图像的部分区域,然后训练模型根据剩余的上下文预测被遮挡的区域。这促使模型去学习有意义的表征,从而捕捉图像的基本结构。此外,I-JEPA将这种掩蔽策略与视觉Transformer相结合:使用单个上下文块来预测来自同一图像的表征,上下文编码器是一个视觉Transformer,它只处理可见的上下文。而预测器可以接收上下文编码器的输出,并根据目标的位置来预测目标块的表征。实验结果证明了这种方法在生成语义表征方面的有效性。

这种方式就与生成式模型不同。生成式模型会擦除图像的一部分或隐藏段落中的一些单词,再尝试预测缺失的部分。在这个过程中,生成式模型往往会试图填补每一段缺失的信息,陷入琐碎而无关紧要的细节中,比如生成图片时产生千奇百怪的人手。

相反,I-JEPA用更像人类的方式来预测缺失的信息,用抽象的目标来去掉不需要的像素细节。这样做,I-JEPA的预测器可以根据一些可看到的上下文,为图像建立一个模型,也就是有了大局观,这会帮助它预测图像中看不到的区域的更高级别的信息,而不是执着于像素级别的细节。为了理解模型捕获到的信息,研究团队训练了一个随机解码器,它将I-JEPA模型输出的表征映射回像素空间, 从而展示出模型进行预测时的输出结果。例如,在给定的一张图像随机釆样4个目标块,然后再随机釆样一个上下文块,并删除任何重叠的目标块。利用这个策略,目标块相对语义化,而上下文块为了提高处理效率而更稀疏,但信息量大。

预测器的可视化<br>预测器的可视化对于理解I-JEPA模型的作用至关重要。预测器的作用是基于上下文编码器的输出和位置掩蔽标记,预测目标块指定位置掩蔽标记所对应的表征。这里的关键问题是依靠位置掩蔽标记的预测器是否能正确捕获目标位置的不确定性。

下面的例子中,第一列包含原始图像,第二列包含上下文图像,绿色边界框包含来自预测器输出解码的生成模型的样本。预测器正确捕捉了位置的不确定性,所产生的部位的姿态也是正确的,比如鸟的背面和车的顶部。

计算效率大大提高<br>相比其它的方法,I-JEPA具有高度可扩展性。 I-JEPA需要较少的计算量就可以获得很强的效果,而不需要依赖人工设计的数据增强。与MAE之类的方法相比,I-JEPA通过在表征空间计算目标而慢了约7%的迭代时间。然而,由于I-JEPA大约只需要前者1/5的迭代次数就会收敛,所以在实践中仍然可以显著节省计算时间。与基于视觉不变性的方法(如iBOT)相比,I-JEPA也运行得更快。特别是,I-JEPA的巨大模型(ViT-H/14)所需要的计算量少于iBOT的小模型(ViT-S/16)。 I-JEPA在训练中学到的表征也可以直接用于其他任务,而无需进行大量的微调。比如在ImageNet-1K线性探测和半监督评估中,它还优于像素和标记重建方法。

I-JEPA的这个优势让Yann LeCun团队只用了16个A100 GPU在不到72小时的时间内,就训练出了一个6.32亿参数的视觉变换器模型,并在ImageNet的低样本分类上取得了最先进的性能。而每个类别只有12个标记示例。其他方法通常需要高达2到10倍GPU小时,并且使用相同数量的数据进行训练时,错误率也更高。

I-JEPA是一种简单高效的方法来学习图片语义表征,且不依赖人工制作的知识作为额外的辅助。相比于日益闭源的OpenAI,Meta AI研究团队将开源I-JEPA的训练代码和模型检查点,并且下一步将扩展该方法到其他领域,例如图像-文本配对数据和视频数据,这也将是应用和扩展自监督方法来学习世界模型的重要一步。借此,未来的人工智能将具备常识、真正理解世界,走向通往AGI的快车道。

致力于传播优质的中国知识内容、构建全球新共识。我们将通过一系列时事资讯、精品课程、论坛、节目、咨询报告等内容产品,提供关于当代中国的最新的舆论思潮、深入的社会观察、亮眼的科技成就等优质信息。我们已与五大洲十多个国家、百余个研究机构、媒体机构、政治团体、民间组织建立合作关系。希望通过我们的工作在海外分享中国经验,讲述中国故事,客观分析我们共同面对的挑战和机遇,携手全球青年寻找全球化发展的新共识。
联系我们// Substack // Twitter // YouTube // 相关文章


返回博客
1 / 8
  • AI與量子計算:誰將引領未來科技?

    AI与量子计算:谁将引领未来科技?

    多年来,科技公司多年投入数十亿美元于量子计算机,寄希望于它们能在金融、药物研发、物流等多个领域带来颠覆性变革,尤其是在物理和化学领域,这种期待更为强烈,因为量子力学的独特效应在这些领域中发挥着重要作用。

    AI与量子计算:谁将引领未来科技?

    多年来,科技公司多年投入数十亿美元于量子计算机,寄希望于它们能在金融、药物研发、物流等多个领域带来颠覆性变革,尤其是在物理和化学领域,这种期待更为强烈,因为量子力学的独特效应在这些领域中发挥着重要作用。

  • 金剛石晶片的崛起,或引發全球AI半導體競爭新角逐

    金刚石晶片的崛起,或引发全球AI半导体竞争新角逐

    全球各国都在积极加快金刚石在半导体领域的研发步伐,并将其视为未来科技创新的关键材料。从高效能晶片散热解决方案到量子计算和光电应用,金刚石的潜力被各大研究机构和企业广泛看好。

    金刚石晶片的崛起,或引发全球AI半导体竞争新角逐

    全球各国都在积极加快金刚石在半导体领域的研发步伐,并将其视为未来科技创新的关键材料。从高效能晶片散热解决方案到量子计算和光电应用,金刚石的潜力被各大研究机构和企业广泛看好。

  • “微塑膠”成科學界關注焦點,或對人體健康造成潛在威脅

    “微塑胶”成科学界关注焦点,或对人体健康造成潜在威胁

    许多工业生产过程中,尤其是涉及塑胶制造、加工和拆卸的行业,都会产生大量的塑胶废料。这些废料往往被不当处置或遗弃,经过时间的推移,这些废弃塑胶在风力、雨水等自然条件下分解成微塑胶颗粒,进入土壤和水体。

    “微塑胶”成科学界关注焦点,或对人体健康造成潜在威胁

    许多工业生产过程中,尤其是涉及塑胶制造、加工和拆卸的行业,都会产生大量的塑胶废料。这些废料往往被不当处置或遗弃,经过时间的推移,这些废弃塑胶在风力、雨水等自然条件下分解成微塑胶颗粒,进入土壤和水体。

  • 古羅馬混凝土的“耐用秘密”

    古罗马混凝土的“耐用秘密”

    古罗马人以其卓越的建筑和工程技术而闻名。公元128年建成的万神殿/Pantheon是古罗马的一座杰出建筑,拥有世界上最大的无钢筋混凝土圆顶,至今依然完好如初。而与此形成鲜明对比的是,许多现代混凝土结构在短短几十年内就出现了损坏。

    古罗马混凝土的“耐用秘密”

    古罗马人以其卓越的建筑和工程技术而闻名。公元128年建成的万神殿/Pantheon是古罗马的一座杰出建筑,拥有世界上最大的无钢筋混凝土圆顶,至今依然完好如初。而与此形成鲜明对比的是,许多现代混凝土结构在短短几十年内就出现了损坏。

1 / 4
  • “AI虛擬伴侶”導致14歲美國少年自殺,人工智能時代背後的情感孤獨

    “AI虚拟伴侣”导致14岁美国少年自杀,人工智能时代背后的情感孤独

    “我想念你,妹妹。”、“我也想念你,亲爱的哥哥。” 这段对话发生在14岁塞维尔/Sewell Setzer生命的最后一天。在与AI初创公司Character.AI的聊天机器人进行长时间对话后,他在2月28日选择结束自己的生命,开枪自杀身亡。

    “AI虚拟伴侣”导致14岁美国少年自杀,人工智能时代背后的情感孤独

    “我想念你,妹妹。”、“我也想念你,亲爱的哥哥。” 这段对话发生在14岁塞维尔/Sewell Setzer生命的最后一天。在与AI初创公司Character.AI的聊天机器人进行长时间对话后,他在2月28日选择结束自己的生命,开枪自杀身亡。

  • 网络成瘾,沉迷直播間:當今快節奏生活的快感與陷阱?

    网络成瘾,沉迷直播间:当今快节奏生活的快感与陷阱?

    繁忙的社会中,身边的人虽然众多,但真正理解和倾诉的却少之又少。在虚拟中,人们通过短暂的直播互动获得了一时的快乐,然而这并不能真正填补心灵深处的空白。最终,直播所提供的陪伴,无法替代那种深入的、持久的人际关系。

    网络成瘾,沉迷直播间:当今快节奏生活的快感与陷阱?

    繁忙的社会中,身边的人虽然众多,但真正理解和倾诉的却少之又少。在虚拟中,人们通过短暂的直播互动获得了一时的快乐,然而这并不能真正填补心灵深处的空白。最终,直播所提供的陪伴,无法替代那种深入的、持久的人际关系。

  • 從Mr. Beast的崛起到三只羊的隕落:超級網紅為博眼球的背后

    从Mr. Beast的崛起到三只羊的陨落:超级网红为博眼球的背后

    网红文化已经成为一种不可忽视的社会现象和经济力量。随着发展,一些拥有数百万甚至千万人气的超级网红,为了追求流量和关注度,忽视了内容质量和创作者的道德底线,导致劣迹网红频频出现,给整个行业带来了显著的负面影响。

    从Mr. Beast的崛起到三只羊的陨落:超级网红为博眼球的背后

    网红文化已经成为一种不可忽视的社会现象和经济力量。随着发展,一些拥有数百万甚至千万人气的超级网红,为了追求流量和关注度,忽视了内容质量和创作者的道德底线,导致劣迹网红频频出现,给整个行业带来了显著的负面影响。

  • 酒店暗藏攝像頭,偷拍黑色產業鏈

    酒店暗藏摄像头,偷拍黑色产业链

    酒店和民宿频繁发生暗藏摄像头的事件,使我们不得不深思:偷拍背后究竟蕴藏着怎样的利益链条?这些偷拍行为不仅严重侵犯了个人隐私,也对社会的道德标准提出了挑战。这一现象的蔓延,迫使人们对行业监管和法律法规的有效性产生质疑。

    酒店暗藏摄像头,偷拍黑色产业链

    酒店和民宿频繁发生暗藏摄像头的事件,使我们不得不深思:偷拍背后究竟蕴藏着怎样的利益链条?这些偷拍行为不仅严重侵犯了个人隐私,也对社会的道德标准提出了挑战。这一现象的蔓延,迫使人们对行业监管和法律法规的有效性产生质疑。

1 / 4
  • 在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

  • 再見愛人:探索現代婚姻中的情感困境

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

  • 抖音短劇新風潮:中老年人成為新的增長點?

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

  • 京東楊笠事件背后:愚昧的社會何去何從?

    京东杨笠事件背后:愚昧的社会何去何从?

    临近双十一,没想到第一场公关战就炸在了京东身上。而更万万没想到的是,翻车的点不是价格,也不是带货主播,而是更尖锐更为敏感的“男女性别”话题,还把脱口秀演员杨笠推向了风口浪尖。

    京东杨笠事件背后:愚昧的社会何去何从?

    临近双十一,没想到第一场公关战就炸在了京东身上。而更万万没想到的是,翻车的点不是价格,也不是带货主播,而是更尖锐更为敏感的“男女性别”话题,还把脱口秀演员杨笠推向了风口浪尖。

1 / 4