编辑推荐:
与ChatGPT理解人类语言的方式相同,哥伦比亚大学计算生物学家开发的一种新的人工智能模型捕捉细胞的语言,以准确预测它们的活动
使用一种新的人工智能方法,哥伦比亚大学Vagelos内外科医学院的研究人员可以准确地预测任何人类细胞内基因的活性,从本质上揭示细胞的内部机制。最新一期的《自然》杂志描述了这个系统,它可能会改变科学家们了解从癌症到遗传疾病等一切事物的工作方式。
“可预测的通用计算模型可以快速准确地揭示生物过程。这些方法可以有效地进行大规模计算实验,促进和指导传统的实验方法,”系统生物学教授、这篇新论文的资深作者Raul Rabadan说。
传统的生物学研究方法善于揭示细胞如何执行它们的工作或对干扰作出反应。但是他们无法预测细胞是如何工作的,或者细胞是如何对变化做出反应的,比如致癌突变。
Rabadan说:“拥有准确预测细胞活动的能力将改变我们对基本生物过程的理解。它将把生物学从一门描述看似随机过程的科学转变为一门可以预测控制细胞行为的潜在系统的科学。”
近年来,来自细胞的大量数据的积累和更强大的人工智能模型开始将生物学转变为一门更具预测性的科学。2024年诺贝尔化学奖授予了利用人工智能预测蛋白质结构的开创性工作的研究人员。但事实证明,利用人工智能方法预测细胞内基因和蛋白质的活动更为困难。
新的人工智能方法预测任何细胞中的基因表达
在这项新研究中,Rabadan和他的同事们试图利用人工智能来预测哪些基因在特定细胞中是活跃的。这些关于基因表达的信息可以告诉研究人员细胞的身份以及细胞如何发挥其功能。
Rabadan说:“以前的模型是根据特定细胞类型的数据进行训练的,通常是癌细胞系或其他与正常细胞几乎没有相似之处的细胞。”Rabadan实验室的研究生Xi Fu决定采用一种不同的方法,用从正常人体组织中获得的数百万个细胞的基因表达数据来训练机器学习模型。输入包括基因组序列和显示基因组哪些部分可访问和表达的数据。
总体方法类似于ChatGPT和其他流行的“基础”模型的工作方式。这些系统使用一组训练数据来识别潜在的规则,语言语法,然后将这些推断出的规则应用于新的情况。拉巴丹说:“这里是完全一样的:我们在许多不同的细胞状态下学习语法,然后我们进入一个特定的条件——它可能是一个患病的细胞类型,也可能是一个正常的细胞类型——我们可以试着看看我们从这些信息中预测模式的效果如何。”
Fu和Rabadan很快招募了一组合作者,包括共同第一作者Alejandro Buendia,他现在是斯坦福大学的博士生,以及卡内基梅隆大学的Shentong Mo,来训练和测试这个新模型。
在对来自130多万个人类细胞的数据进行训练后,该系统变得足够精确,可以预测它从未见过的细胞类型中的基因表达,其结果与实验数据非常吻合。
新的人工智能方法揭示了儿童癌症的驱动因素
接下来,研究人员展示了他们的人工智能系统的力量,他们要求它揭示仍然隐藏的病变细胞生物学,在这种情况下,是一种遗传性儿科白血病。
Rabadan说:“这些孩子遗传了一个突变的基因,目前还不清楚这些突变到底是怎么回事。”
利用人工智能,研究人员预测,突变会破坏决定白血病细胞命运的两种不同转录因子之间的相互作用。实验室实验证实了人工智能的预测。了解这些突变的影响揭示了驱动这种疾病的特定机制。
人工智能可以揭示基因组中的“暗物质”
新的计算方法也将允许研究人员开始探索基因组的“暗物质”——一个借用自宇宙学的术语,指的是基因组的绝大部分,它不编码已知的基因——在癌症和其他疾病中的作用。
“在癌症患者身上发现的绝大多数突变都在所谓的基因组黑暗区域。这些突变不影响蛋白质的功能,大部分尚未被探索。Rabadan说。“我们的想法是,利用这些模型,我们可以研究突变,并阐明那部分基因组。”
Rabadan已经在与哥伦比亚大学和其他大学的研究人员合作,探索从脑癌到血癌的不同癌症,学习正常细胞的调节语法,以及细胞在癌症发展过程中的变化。
这项工作还为了解癌症以外的许多疾病开辟了新的途径,并有可能确定新的治疗目标。通过向计算机模型展示新的突变,研究人员现在可以深入了解和预测这些突变是如何影响细胞的。
随着人工智能在生物学领域的其他最新进展,Rabadan认为这项工作是一个主要趋势的一部分:“这确实是生物学的一个新时代,非常令人兴奋;将生物学转变为一门预测科学。”
生物通 版权所有