要点:
近年来随着测序技术的进步,导致数据量暴增,随之而来的数据噪声和批次效应显现。此外还有多模态数据的整合等挑战。针对单细胞转录组的数据,AI大模型就有了用武之地。它通过自监督学习和微调两个阶段,学习基因之间的编码关系,降低数据维度和噪声,增强模型鲁棒性。
致力于传播优质的中国知识内容、构建全球新共识。我们将通过一系列时事资讯、精品课程、论坛、节目、咨询报告等内容产品,提供关于当代中国的最新的舆论思潮、深入的社会观察、亮眼的科技成就等优质信息。我们已与五大洲十多个国家、百余个研究机构、媒体机构、政治团体、民间组织建立合作关系。希望通过我们的工作在海外分享中国经验,讲述中国故事,客观分析我们共同面对的挑战和机遇,携手全球青年寻找全球化发展的新共识。
联系我们// Substack // Twitter // YouTube // 相关文章
AlphaFold2是一种由DeepMind开发的用于预测蛋白质结构的机器学习算法,它可以从蛋白质数据银行/PDB的训练数据集中,基于其氨基酸序列推断出蛋白质的三维构象。在CASP14比赛中,AlphaFold2表现非常出色,超过了所有其他方法。迄今为止,AlphaFold2已经被用于为21种模式生物做蛋白质结构预测,还有预测SwissProt和UniRef90数据库中的所有蛋白质的构象,并生成了超过35万个蛋白质结构模型。
自从2021年推出以来,AlphaFold2已经对生物研究产生了巨大影响。它既能够研究不同蛋白质组中的蛋白质结构-功能关系、相互作用、配体结合位点、错义变异和结构元素,还可以通过提供初始模型或改善低分辨率数据来作为实验方法(如冷冻电镜和X射线晶体学)的补充。
AlphaFold2的应用潜力显然不止于此。中国科学院遗传与发育生物学研究所高彩霞团队首次运用AlphaFold2的蛋白结构预测功能来辅助蛋白聚类,并开发出一系列堿基编辑工具,拓展了AlphaFold 2的应用范围。
日前,该研究以“ Discovery of deaminase functions by structure-based protein clustering ” 为题,在线发表于“细胞”期刊上。
开创性的尝试
蛋白质功能的解析以及在生物工程中的应用,在极大地推动着生命科学的发展。传统的酶挖掘,仅基于氨基酸序列信息来对蛋白质功能和进化轨迹进行分类和预测。然而,一维的序列信息无法完全阐明蛋白质的功能特性。由于蛋白质功能最终由三维构象,即蛋白质折叠决定,因此在蛋白质挖掘和聚类分类过程中,了解蛋白质结构至关重要。
高彩霞团队使用AlphaFold2来预测整个蛋白质家族的结构,并根据预测出来的结构的相似性对蛋白质进行聚类。在该项研究中,团队对脱氨酶蛋白进行分析,并发现了许多之前未知的性质。
脱氨酶样蛋白可以催化核苷酸和堿基的去氨基化。它们在突变、核酸代谢和其他生物过程中起着重要作用,还被用来作为可编程DNA和RNA的堿基编辑器。但是有个问题一直困扰着研究者们,那就是很难基于氨基酸序列来确定脱氨酶各种蛋白质家族之间的关系。所以AlphaFold2对三维结构的预测能力使其成为解决这个问题的利器。
预测结果让人意想不到的是,在双链DNA脱氨酶毒素A 样脱氨酶/DddA-like支系中,大多数蛋白质并不是双链DNA脱氨酶。研究团队设计了尺寸最小的单链特异性胞嘧啶脱氨酶,这样能够将高效的胞嘧啶堿基编辑器/CBE打包到单个腺相关病毒/AAV中。随后,对该支系的一种脱氨酶进行的分析发现它能够在大豆植物中进行强有力的编辑,而原来CBE无法在大豆植物中使用。这些发现极大地扩展了堿基编辑器在医疗和农业中的应用前景。
根据AlphaFold2预测的结构进行聚类
高彩霞团队利用AlphaFold2根据氨基酸序列预测了重注区域的蛋白质结构,并按照结构相似性进行了聚类分析。这样就能够在植物和人类细胞中检测这些蛋白质的ssDNA和dsDNA胞嘧啶去氨基化活性。团队还利用结构相似性矩阵比较了242种蛋白质(238 种胞嘧啶脱氨酶和4 种JAB 蛋白)的预测结构,这些蛋白质分属于16个脱氨酶家族和1 个外类群。矩阵中不同颜色的区域反映了不同家族蛋白质之间的相似度差异。随后,根据蛋白质结构的特征,它们被划分为不同的脱氨酶家族。
评估脱氨酶活性<br>随后的研究发现,SCP1.201脱氨酶类群的一些蛋白质具有脱氨酶活性,可以让单链DNA底物脱氨。这些蛋白质被称为双链DNA 脱氨酶毒素A 样脱氨酶/DddA-like。然而,研究人员发现这些蛋白质也可以用于双链DNA 的基因编辑。对SCP1.201类群的489个脱氨酶进行重新分析表明,这些蛋白质可以被分为不同的亚类,具有独特的核心结构特征。其中,SCP1.201类群中的Sdd蛋白质具有脱氨单链DNA的活性,而不是双链DNA。因此,这些蛋白质应该被重新定义为Sdd,而不是DddA-like。
这些结果说明,基于蛋白质结构的分类方法比基于一维氨基酸序列的分类方法更有效,可以为基因编辑提供新的机会,同时可以更准确地评估脱氨酶的功能关系。
新发现的Ddd蛋白<br>研究人员将13个属于Ddd亚族的脱氨酶克隆到双链DNA胞嘧啶堿基编辑器/DdCBE中,在HEK293T细胞内评估了在内源在JAK2和SIRT6位点的dsDNA堿基编辑。有趣的是,研究发现Ddd1、Ddd7、Ddd8和Ddd9的编辑效率与DddA相当或更高,而Ddd1和Ddd9在50-GC堿基序列上的编辑活性明显高于DddA。此外,研究还发现新发现的dsDNA靶向脱氨酶可以编辑之前DddA无法接近的胞嘧啶堿基序列。这个发现扩展了DdCBE的实用性和靶向范围。通过评估新发现的Ddd蛋白质和Sdd蛋白质的编辑活性,研究人员发现它们可以更准确地编辑胞嘧啶堿基序列,为基因编辑工具的开发提供了新途径。
Sdd蛋白质在堿基编辑中的独特性<br>接下来的研究发现,在人类和稻米细胞中,不同的Sdd-CBEs在所有测试的基因组靶点上显示出不同的编辑模式。通过靶向报告锚定位置测序,研究人员发现与传统的CBEs相比,Sdd蛋白质具有更高的编辑效率、不同的脱氨酶基序偏好和编辑窗口。研究还评估了Sdd蛋白质的Cas9独立的非靶向效应,并发现Sdd6表现出最高的靶向/非靶向编辑比率,使其成为高保真堿基编辑的备选方案之一。
研究团队使用AI辅助来制作Sdd蛋白质,并缩短其长度,于是得到了小型化的脱氨酶。它们小巧并具有相同、甚至更高的编辑效率。这些小型化的脱氨酶可以允许构建单个AAV封装的SaCas9-CBEs。这突显了Sdd蛋白质在堿基编辑中的潜力以及AI在蛋白质工程中的作用。
SddCBE在堿基编辑中的应用<br>在水稻植物基因组编辑中,mini-Sdd7比农业中最常用的hA3A-CBE具有更高的效率和较低的毒性。在大豆中,研究团队使用瞬时堿基编辑/transient base editing来评估在根细胞中的编辑百分比,并发现mini-Sdd7在所有测试位点上的胞嘧啶堿基编辑水平显著增加,编辑效率高达67.4 %。此外,团队还成功地使用Sdd7获得了经过堿基编辑的大豆植物,这让在大豆植物中实现高效的堿基编辑成为可能,可以服务于将来的农业育种工作。
AI为生命科学带来了新机遇<br>本研究釆用结构预测为基础的方法,对胞嘧啶脱氨酶类超家族进行了蛋白质分类和挖掘的概念验证探索。研究表明,AlphaFold2预测的结构可以很好地将脱氨酶分类为不同类群,这些类群具有不同的蛋白质折叠和催化功能。在此基础之上可以设计的精准基因组编辑工具。这种由AI辅助的策略可以应用于任何蛋白质数据集的高通量分类和功能分析。
基于人工智能的蛋白质结构预测和分类将为具有可变序列和低序列保守性的蛋白质分类提供新的视角。而这只是AI为科研所带来的许多新机遇之一。在生命科学领域,除了这里提到的用于研究蛋白质结构的AlphaFold,AI正大显身手。
在生物制药方面,机器学习、深度学习等AI技术正在替代以往的大量实验,对药物结构、功效等进行快速分析,以达到缩短试验周期、节省成本、促进新药发现、提升试验成功率等目的。
而在组学研究上,近年来随着测序技术的进步,导致数据量暴增,随之而来的数据噪声和批次效应显现。此外还有多模态数据的整合等挑战。针对单细胞转录组的数据,AI大模型就有了用武之地。它通过自监督学习和微调两个阶段,学习基因之间的编码关系,降低数据维度和噪声,增强模型鲁棒性。类似的,空间组学技术也面临数据量大、数据缺失以及需要定位细胞位置等挑战。在这里,大模型可以利用迁移学习和空间信息Embedding,用于空间转录组数据的细胞类型注释。研究人员利用人工智能技术,特别是深度学习技术,分析和挖掘单细胞测序数据和空间组学数据。大模型在多个数据集上显示出优异的性能,为生命大数据的理解和应用提供新的思路和手段。这些或许将根本性地改变生物制药,甚至生命科学研究的面貌。