编辑推荐:
研究人员创建了一个机器学习模型来预测和生成蛋白质定位,这对理解和治疗疾病具有重要意义。
蛋白质是维持细胞运转的主力,我们的细胞中有成千上万种蛋白质,每一种都有特定的功能。研究人员早就知道,蛋白质的结构决定了它的功能。最近,研究人员开始认识到蛋白质的定位对其功能也至关重要。细胞充满了隔间,帮助组织它们的许多居民。除了点缀生物学教科书的著名细胞器外,这些空间还包括各种动态的、无膜的隔间,这些隔间将某些分子集中在一起执行共享功能。因此,了解特定蛋白质的定位位置,以及它与谁共定位,对于更好地了解蛋白质及其在健康或患病细胞中的作用是有用的,但研究人员缺乏一种系统的方法来预测这些信息。
与此同时,蛋白质结构的研究已经进行了半个多世纪,人工智能工具AlphaFold达到了顶峰,该工具可以根据蛋白质的氨基酸代码预测蛋白质结构,氨基酸代码是蛋白质内部的线性构建块串,折叠后形成蛋白质结构。AlphaFold和类似的模型已经成为广泛使用的研究工具。
蛋白质还包含氨基酸区域,这些区域不会折叠成固定的结构,但对于帮助蛋白质加入细胞中的动态区室非常重要。麻省理工学院的Richard Young教授和他的同事们想知道,这些区域的密码是否可以用来预测蛋白质的定位,就像其他区域用来预测结构一样。其他研究人员已经发现了一些编码蛋白质定位的蛋白质序列,一些人已经开始开发蛋白质定位的预测模型。然而,研究人员并不知道蛋白质在任何动态区室的定位是否可以根据其序列来预测,他们也没有与AlphaFold类似的预测定位的工具。
现在,Young,也是怀特海生物研究所的成员;年轻的实验室博士后亨利·基尔戈;Regina Barzilay,麻省理工学院电气工程与计算机科学系人工智能与健康杰出教授,计算机科学与人工智能实验室(CSAIL)首席研究员;和同事们已经建立了这样一个模型,他们称之为ProtGPS。在2月6日发表在《科学》杂志上的一篇论文中,基尔戈和巴兹雷实验室的研究生伊塔马尔·钦恩、彼得·米哈埃尔和伊兰·米特尼科夫共同撰写了第一作者,这个跨学科团队首次展示了他们的模型。研究人员表明,ProtGPS可以预测蛋白质将定位于12种已知的区室类型中的哪一种,以及与疾病相关的突变是否会改变这种定位。此外,研究小组开发了一种生成算法,可以设计新的蛋白质定位到特定的隔室。
杨说:“我希望这是迈向一个强大平台的第一步,使人们能够研究蛋白质来进行他们的研究,这有助于我们了解人类是如何发展成复杂的有机体的,突变是如何破坏这些自然过程的,以及如何产生治疗假设和设计药物来治疗细胞功能障碍。”
研究人员还通过细胞实验验证了该模型的许多预测。
Barzilay说:“能够从计算设计一直到在实验室中尝试这些东西,这真的让我很兴奋。”“在人工智能领域有很多令人兴奋的论文,但其中99.9%从未在真实系统中进行过测试。由于我们与Young实验室的合作,我们能够测试并真正了解我们的算法的效果。”
开发模型
研究人员在两批已知定位的蛋白质上训练并测试了ProtGPS。他们发现,这种方法可以准确地预测蛋白质的最终归宿。研究人员还测试了ProtGPS在蛋白质内部疾病相关突变的基础上预测蛋白质定位变化的能力。根据关联研究,许多突变——基因及其相应蛋白质序列的改变——已被发现有助于或导致疾病,但突变导致疾病症状的方式仍不清楚。
弄清楚突变如何导致疾病的机制是很重要的,因为这样研究人员就可以开发出治疗方法来修复这一机制,预防或治疗疾病。Young和他的同事怀疑,许多疾病相关的突变可能通过改变蛋白质定位而导致疾病。例如,突变可能使蛋白质无法加入包含基本伴侣的隔室。
为了验证这一假设,他们给ProtGOS喂食了20多万种带有疾病相关突变的蛋白质,然后要求它预测这些突变蛋白质的定位位置,并测量从正常蛋白质到突变蛋白质的预测变化程度。预测的巨大变化表明定位可能发生了变化。
研究人员发现,在许多病例中,与疾病相关的突变似乎改变了蛋白质的定位。他们在细胞中测试了20个样本,使用荧光来比较细胞中正常蛋白和突变蛋白的位置。实验证实了ProtGPS的预测。总之,这些发现支持了研究人员的怀疑,即错误定位可能是一种未被充分认识的疾病机制,并证明了ProtGPS作为了解疾病和确定新治疗途径的工具的价值。
“细胞是一个如此复杂的系统,有如此多的成分和复杂的相互作用网络,”米特尼科夫说。“通过这种方法,我们可以扰乱系统,看到结果,从而推动发现细胞中的机制,甚至开发基于此的治疗方法,这是非常有趣的。”
研究人员希望其他人开始使用ProtGPS,就像他们使用像AlphaFold这样的预测结构模型一样,推进蛋白质功能、功能障碍和疾病的各种项目。
从预测到新一代
研究人员对他们的预测模型的可能用途感到兴奋,但他们也希望他们的模型超越预测现有蛋白质的定位,并允许他们设计全新的蛋白质。该模型的目标是组成全新的氨基酸序列,当在细胞中形成时,将定位到所需的位置。产生一种能够真正完成功能的新蛋白质——在这种情况下,定位到特定细胞室的功能——是非常困难的。为了提高模型的成功几率,研究人员限制了他们的算法,只设计与自然界中发现的蛋白质相似的蛋白质。出于逻辑原因,这是药物设计中常用的一种方法;大自然已经花了数十亿年的时间来弄清楚哪些蛋白质序列起作用,哪些不起作用。
由于与Young实验室的合作,机器学习团队能够测试他们的蛋白质生成器是否有效。该模型取得了良好的效果。在第一轮中,它产生了10种旨在定位于核仁的蛋白质。当研究人员在细胞中测试这些蛋白质时,他们发现其中四种强烈定位于核仁,而其他蛋白质也可能对该位置有轻微的偏见。
米哈伊尔说:“我们实验室之间的合作对我们所有人来说都是非常有益的。“我们学会了如何说彼此的语言,在我们的案例中,我们学到了很多关于细胞如何工作的知识,通过有机会实验测试我们的模型,我们已经能够弄清楚我们需要做些什么来实际使模型工作,然后使它更好地工作。”
能够以这种方式产生功能性蛋白质可以提高研究人员开发治疗方法的能力。例如,如果一种药物必须与特定区域内的目标相互作用,那么研究人员可以使用该模型来设计一种药物,使其也定位于该区域。这将使药物更有效,减少副作用,因为药物将花更多的时间与目标结合,更少的时间与其他分子相互作用,导致脱靶效应。
机器学习团队成员对利用他们从这次合作中学到的知识来设计具有定位以外其他功能的新型蛋白质的前景充满热情,这将扩大治疗设计和其他应用的可能性。
Chinn说:“许多论文表明,他们可以设计出一种可以在细胞中表达的蛋白质,但并没有表明这种蛋白质具有特定的功能。”“我们实际上有功能性蛋白质设计,与其他生成模型相比,成功率相对较高。这对我们来说真的很令人兴奋,我们希望以此为基础。”
所有参与的研究人员都认为ProtGPS是一个令人兴奋的开端。他们预计,他们的工具将用于更多地了解定位在蛋白质功能和错误定位在疾病中的作用。此外,他们对扩展模型的定位预测感兴趣,以包括更多类型的隔室,测试更多的治疗假设,并为治疗或其他应用设计功能越来越强的蛋白质。
基尔戈说:“现在我们知道了这种定位蛋白质代码的存在,机器学习模型可以理解这种代码,甚至可以利用它的逻辑创建功能蛋白质,这为许多潜在的研究和应用打开了大门。”
生物通 版权所有