编辑推荐:
格拉德斯通研究所、麻省理工学院和哈佛大学Broad研究所以及达纳法伯癌症研究所(Dana-Farber Cancer Institute)的研究人员已经转向人工智能(AI),这能帮助他们了解相互连接的人类基因的大型网络是如何控制细胞功能的,以及这些网络的破坏是如何导致疾病的。
格拉德斯通研究所、麻省理工学院和哈佛大学布罗德研究所以及达纳法伯癌症研究所的研究人员已经转向人工智能(AI),希望这能帮助他们了解相互连接的人类基因的大型网络如何控制细胞功能,以及这些网络的破坏如何导致疾病。
大型语言模型,也被称为基础模型,是一种人工智能系统,它从大量的通用数据中学习基础知识,然后应用这些知识来完成新的任务——这个过程被称为迁移学习 (Transfer Learning)。随着ChatGPT的发布,这些系统最近获得了主流的关注,ChatGPT是一个基于OpenAI模型构建的聊天机器人。
在发表在《自然》杂志上的这项新研究中,Christina Theodoris博士开发了一个理解基因相互作用的基础模型。这个新模型被称为Geneformer,它从大量人体组织的基因相互作用数据中学习,并将这些知识用于预测疾病中可能出现的问题。
Theodoris团队使用Geneformer来阐明心脏细胞在心脏病中是如何出错的。然而,这种方法也可以治疗许多其他细胞类型和疾病。
“Geneformer在生物学的许多领域都有广泛的应用,包括发现可能的疾病药物靶点,这种方法将极大地提高我们设计网络纠正疗法的能力,这些疗法一直受到有限数据的阻碍。”
Theodoris是在与X. Shirley Liu博士(Dana-Farber癌症研究所功能癌症表观遗传学中心前主任)和Patrick Ellinor博士(Broad研究所心血管疾病倡议主任)合作的博士后研究期间设计Geneformer的,他们都是这项新研究的作者。
全新网络视角
许多基因在活跃时,会引发分子活动的级联反应,从而触发其他基因调节它们的活动。其中一些基因反过来影响其他基因,或者回过头来抑制第一个基因。因此,当科学家勾勒出几十个相关基因之间的联系时,得到的网络图通常看起来像一张纠结的蜘蛛网。
如果说以这种方式绘制出一小部分基因是混乱的,那么试图理解人类基因组中所有2万个基因之间的联系则是一项艰巨的挑战。但如此庞大的网络图谱能帮助研究人员深入了解整个基因网络是如何随着疾病而变化的,以及如何逆转这些变化。
Theodoris说,“如果一种药物靶向网络中的一个外围基因,它可能对细胞的功能产生很小的影响,或者只是控制疾病的症状。但通过恢复在神经网络中起核心作用的基因的正常水平,你可以治疗潜在的疾病过程,并产生更大的影响。”
人工智能“迁移学习”
通常,为了绘制基因网络,研究人员依赖于包含许多相似细胞的庞大数据集。他们使用人工智能系统的一个子集,称为机器学习平台,来找出数据中的模式。例如,机器学习算法可以在来自心脏病患者和非心脏病患者的大量样本上进行训练,然后学习区分患病样本和健康样本的基因网络模式。
然而,生物学中的标准机器学习模型被训练成只能完成单一任务。为了让模型完成不同的任务,它们必须在新数据上从零开始重新训练。因此,如果第一个例子中的研究人员现在想要从健康的细胞中识别出患病的肾脏、肺或脑细胞,他们需要重新开始,用这些组织的数据训练一个新的算法。
问题是,对于某些疾病,没有足够的现有数据来训练这些机器学习模型。
在这项新研究中,Theodoris、Ellinor和他们的同事利用一种被称为“迁移学习”的机器学习技术来解决这个问题,将Geneformer训练成一个基础模型,其核心知识可以转移到新的任务中。
首先,他们“预先训练”了Geneformer,让它对基因如何相互作用有一个基本的了解,方法是向Geneformer提供来自各种人体组织的大约3000万个细胞的基因活性水平的数据。
为了证明迁移学习方法是有效的,科学家们随后对Geneformer进行了微调,预测基因之间的联系,或者降低某些基因的水平是否会导致疾病。由于Geneformer在预训练过程中获得的基本知识,它能够以比其他方法更高的准确性做出这些预测。
此外,即使只展示了非常少量的相关数据示例,Geneformer也能够做出准确的预测。
Theodoris说:“这意味着Geneformer可以应用于预测研究进展缓慢的疾病,因为我们无法获得足够大的数据集,比如罕见疾病和那些难以在临床取样的影响组织的疾病。”
心脏病案例
Theodoris的团队接下来开始使用迁移学习来推进心脏病的发现。他们首先要求Geneformer预测哪些基因会对心肌细胞(心脏中的肌肉细胞)的发育产生有害影响。
在该模型确定的顶级基因中,许多已经与心脏病有关。
Theodoris说:“事实上,这个模型预测了我们已经知道的对心脏病非常重要的基因,这给了我们更多的信心,相信它能够做出准确的预测。”
然而,Geneformer发现的其他潜在的重要基因,如TEAD4基因,以前并没有与心脏病相关。当研究人员在实验室中从心肌细胞中去除TEAD4时,这些细胞不再能够像健康细胞那样强劲地跳动。
因此,Geneformer利用迁移学习得出了一个新的结论:即使没有提供TEAD4缺失细胞的任何信息,它也正确地预测了TEAD4在心肌细胞功能中的重要作用。
最后,研究小组要求Geneformer预测哪些基因应该成为目标,使患病的心肌细胞在基因网络水平上与健康细胞相似。当研究人员在受心肌病(一种心肌疾病)影响的细胞中测试两个拟议的靶标时,他们确实发现,使用CRISPR基因编辑技术去除预测的基因可以恢复患病心肌细胞的跳动能力。
Theodoris说,“在了解正常基因网络和患病基因网络的过程中,Geneformer能够找出哪些特征可以在健康和患病状态之间切换,迁移学习方法使我们能够克服患者数据有限的挑战,有效地识别患病细胞中药物靶向的可能蛋白质。”
“使用Geneformer的一个好处是能够预测哪些基因可以帮助细胞在健康和疾病状态之间切换,我们能够在Broad研究所的实验室中验证这些预测。”
研究人员计划扩大Geneformer分析的细胞数量和类型,不断提高其分析基因网络的能力。他们还将这个模型开源,以便其他科学家可以使用。
Theodoris说,“使用标准方法,您必须为每个新应用程序从头开始重新训练模型,我们的方法真正令人兴奋的是,Geneformer关于基因网络的基本知识现在可以用来回答许多生物学问题,我们期待着看到其他人用它来做什么。”
Transfer learning enables predictions in network biology
生物通 版权所有