在微观的细胞世界里,线粒体就像一座 “能量工厂”,为细胞的各种活动源源不断地提供能量,它在能量生产和新陈代谢中扮演着核心角色。不仅如此,线粒体还参与众多重要的生理过程,与许多疾病的发生发展紧密相关。因此,对线粒体进行深入研究,并精准调控其功能,在代谢工程和疾病治疗领域具有巨大的潜力。
然而,目前线粒体研究面临着一个棘手的问题。要将特定的蛋白质精准地输送到线粒体中发挥作用,需要借助线粒体靶向序列(MTSs)。但现有的已被充分研究和表征的 MTSs 数量十分有限。这就好比在一条通往宝藏(线粒体功能调控)的道路上,可用的交通工具(MTSs)太少。使用不理想的 MTSs,可能导致蛋白质无法有效输送到线粒体,影响后续的代谢途径和治疗效果;过度依赖单一的 MTSs,还可能引发一系列问题,如饱和线粒体的蛋白质输入机制,甚至影响线粒体的正常功能。所以,开发和研究更多功能多样的 MTSs 迫在眉睫。
为了解决这一难题,美国伊利诺伊大学厄巴纳 - 香槟分校(University of Illinois at Urbana - Champaign)的研究人员展开了一项极具创新性的研究。他们运用变分自编码器(VAE)这一强大的人工智能工具,设计全新的线粒体靶向序列。研究取得了令人瞩目的成果,这一研究成果发表在《Nature Communications》上,为线粒体研究领域带来了新的曙光。
研究人员在开展研究时,运用了多个关键技术方法。首先,他们精心构建了包含大量 MTSs 的数据集,为模型训练提供充足 “养分”。接着,利用 VAE 模型进行训练,该模型能够学习复杂的非线性映射,从序列信息中挖掘关键特征。同时,使用 DeepLoc 2.0 等工具对生成的序列进行功能预测和分析;在实验验证阶段,借助共聚焦显微镜观察蛋白质在细胞内的定位情况 。
下面来看具体的研究结果:
- 创建用于设计人工线粒体靶向序列的变分自编码器:研究人员构建了 VAE 模型,为获取全面的设计空间和有效训练模型,他们整合了来自 Swiss - Prot 数据库的已知 MTSs,并利用 TargetP 2.0 预测新的 MTSs,最终得到一个包含 56,660 个肽的数据集。在训练过程中,通过对模型架构的优化,成功解决了序列多样性低的问题。
- 计算机模拟分析表明生成的 MTSs 具有功能性、高度多样性且在自然界中不存在:利用训练好的 VAE 模型生成人工肽,经 DeepLoc 2.0 分析,90.14% 的肽被预测能靶向线粒体,远高于其他方法设计的序列。与自然存在的 MTSs 相比,生成的 MTSs 在序列上高度多样,平均有 10 - 15 个氨基酸的差异,且在理化性质和结构特征上与天然 MTSs 相似,有效覆盖了天然 MTSs 的序列空间。
- 选择用于体内实验验证的序列的采样算法:为了在不同真核生物中有效验证生成的 MTSs,研究人员设计了一种基于 UniRep 模型嵌入和 k 近邻算法的采样方案。该方案能够根据不同生物中 MTSs 的特征,选择更有可能成功靶向的序列进行实验,提高了实验的成功率和效率。
- VAE 生成的肽在多种真核生物体内靶向线粒体:研究人员将 32 个 VAE 生成的序列与不同的报告基因融合,采用 PfAgo - 基于的组装方法构建质粒,在 HEK293 细胞、本氏烟草(Nicotiana benthamiana)、圆红冬孢酵母(Rhodotorula toruloides)和酿酒酵母(Saccharomyces cerevisiae)中进行实验。结果显示,在不同生物中的靶向成功率为 50 - 100%,证明了这些人工 MTSs 在多种真核生物体内的有效性。
- 潜在空间插值能够设计用于双细胞器工程的靶向多个亚细胞位置的肽:通过对 VAE 生成的肽的分析,发现部分肽可能具有靶向叶绿体和线粒体的双重功能。研究人员进一步训练了 Dual - VAE 模型,并利用潜在空间插值生成了 62 个可能的双靶向序列。分析这些序列发现,它们在理化和结构特征上呈现出从线粒体靶向序列到叶绿体靶向序列的平滑过渡,推测双靶向序列更可能从线粒体靶向序列进化而来。
- 酶的亚细胞定位提高 3 - 羟基丙酸的产量:研究人员以 3 - 羟基丙酸(3 - HP)的代谢工程为例,将 β - 丙氨酸途径的相关酶定位到线粒体中。实验结果表明,与细胞质途径相比,线粒体途径的 3 - HP 产量提高了 62.3%,达到 2.76 g/L,证明了人工 MTSs 在代谢工程中的应用潜力。
- 肽嵌合体提高线粒体靶向效率:以酿酒酵母中的 5 - 氨基乙酰丙酸合酶(HEM1)为模型,研究人员构建了包含不同 MTSs 的嵌合体。实验发现,与天然 MTS 相比,单个和嵌合 MTSs 均显著提高了靶向效率,且随着嵌合 MTSs 数量的增加,靶向效率进一步提升,最多可提高 4.76 倍。
研究结论和讨论部分指出,该研究成功开发了一种基于深度学习的人工智能框架,设计出功能多样的线粒体和新型双靶向序列。这些序列为代谢工程和生物医学应用中蛋白质和药物的输送提供了有力工具,有助于提高生化产物的产量和改善疾病治疗效果。同时,研究还为理解双靶向序列的进化提供了新的视角。然而,研究也存在一些可改进的方向,如优化模型架构,直接整合生物体标签和蛋白质信息;开发高通量检测方法,更高效地筛选和表征人工 MTSs 等。总体而言,这项研究为线粒体生物学的基础研究和实际应用开辟了新的道路,具有重要的科学意义和应用价值。