综述:从序列到结构:深度学习模型在RNA结构预测中的全面综述

时间:2026年2月6日
来源:Current Opinion in Structural Biology

编辑推荐:

RNA结构预测的挑战、方法演进与未来方向。传统方法如物理模型和DCA通过统计分析和距离约束预测结构,但受限于数据稀缺和计算成本。深度学习带来三大范式:基于语言模型的预训练方法(如RNA-FM)、端到端结构预测器、几何距离预测模型,显著提升了预测精度。然而,RNA的高变构性和数据不足仍是瓶颈,需发展先进分词策略和可解释AI技术,并扩大高质量结构数据库规模。

广告
   X   

乌特卡什·乌帕德亚(Utkarsh Upadhyay)、安东·多恩(Anton Dorn)、克里斯蒂安·法贝尔(Christian Faber)、亚历山大·舒格(Alexander Schug)
德国于利希(Jülich)的于利希超级计算中心(Jülich Supercomputing Centre),于利希研究中心(Forschungszentrum Jülich)
RNA结构预测仍然是计算生物学中最具挑战性的问题之一,对理解基因调控、药物设计和合成生物学具有重要意义。尽管深度学习在蛋白质结构预测方面取得了革命性进展,但RNA结构预测仍面临独特挑战,包括训练数据有限、复杂的非典型相互作用以及构象灵活性等问题。本文回顾了从传统基于物理的方法到当前深度学习方法在RNA二级和三级结构预测方面的发展历程。在简要介绍直接耦合分析(Direct Coupling Analysis)和基于物理的模拟等传统方法后,系统地探讨了三种深度学习范式:基于语言模型的方法、端到端结构预测器以及几何距离预测方法。此外,还指出了未来的研究方向,包括改进的标记化策略以解决数据稀缺问题,以及提高模型可解释性的可解释人工智能技术。尽管取得了显著进展,但要实现突破性性能,仍需针对RNA的独特特性进行持续的方法创新,并大幅扩展高质量的结构数据集。

引言

RNA分子在多种生物过程中发挥着关键作用,包括转录调控、细胞信号传导、催化作用和转录后控制,其多样的功能与其结构密切相关[1, 2, 3]。核磁共振(nuclear magnetic resonance)、X射线晶体学(X-ray crystallography)和冷冻电子显微镜(cryo-EM)等实验方法可以提供详细的结构信息[4]。RNA的实验研究是一个庞大且活跃的研究领域,已有许多重要发现[5,6]。然而,由于RNA的高灵活性、构象异质性以及难以结晶的特性,这些方法资源需求高且存在尺寸和分辨率限制。与蛋白质不同,尽管在蛋白质结构预测方面取得了显著进展,RNA结构预测仍面临独特挑战(见图1)。
计算RNA结构预测经历了不同的方法发展阶段。传统方法采用基于物理的粗粒度模型,并结合蒙特卡洛采样(Monte Carlo sampling),例如SimRNA[7],该方法利用统计潜力探索构象空间;还有像FARFAR2这样的从头算片段组装方法,通过整合片段库和螺旋建模来准确预测类似天然状态的RNA三级结构[8]。直接耦合分析(Direct Coupling Analysis, DCA)[9,10]是一个重要的突破,它是一种统计推断方法,可以从多序列比对(MSAs)中识别共同演化的核苷酸对。DCA应用逆Potts模型和最大熵原理来推断直接的进化耦合,这些信息可以作为三级结构建模中的距离约束。
深度学习的出现彻底改变了这一领域,其动力来自于在蛋白质结构预测方面的成功。早期的RNA深度学习方法包括RNAContact[11]和CoCoNet[12],这些方法利用卷积神经网络和特征工程策略来处理有限的注释结构数据。
在这些基础上,近年来出现了基于Transformer架构的自监督技术。例如,BARNACLE[13]通过预训练RNA家族的MSAs,在接触图预测任务上取得了优异性能。最近的研究趋势是直接在序列数据上训练大型语言模型,这些模型无需显式的进化信息即可学习结构表示。
尽管取得了这些进展,RNA结构预测仍面临诸多挑战,导致其性能难以与蛋白质结构预测相媲美。蛋白质结构预测模型[14]的准确度可达到亚2 Å,因为已有超过20万个蛋白质结构用于训练,而RNA方法仅基于约9000个RNA结构进行训练,这些RNA结构仅占蛋白质数据库(PDB)中沉积结构的不到1%,且主要来自大约100个不同的RNA家族。这些根本性限制及其对RNA结构预测的影响已在近期综述中得到全面分析[15,16]。
本文全面分析了RNA结构预测领域最新的深度学习方法进展。我们讨论了推动这些人工智能(AI)模型发展的数据集,总结了前沿的计算方法,分析了它们的性能和局限性,并指出了方法改进的前景。我们的目标是为计算生物学家提供关于这一快速发展的领域当前能力和未来机会的宝贵见解,同时认识到RNA结构预测与其他成功的深度学习应用在结构生物学中的差异。

RNA结构预测的挑战

RNA结构预测面临的计算挑战与蛋白质结构预测截然不同,这给传统算法带来了难以解决的问题,也限制了深度学习方法的有效性。这些挑战源于RNA独特的结构特征和复杂的折叠模式[17],这些特点使其不同于蛋白质的折叠机制。
RNA具有更高的结构灵活性,因为其骨架由八个

传统的RNA结构预测方法

传统的RNA结构预测依赖于计算密集型的模拟软件,如SimRNA[7]、FARFAR2[8]或分子动力学模拟。由于这些方法单独使用时往往准确性不足,因此通常会引入额外的约束条件来辅助预测。接触预测(contact predictions)通常基于进化分析得出,常作为距离约束来指导结构预测。
DCA[9,10]是一种著名的方法

混合与实验整合方法

混合方法结合了多种技术策略,以克服单一技术的局限性,代表了RNA结构预测方法的多样化和新兴趋势。这些方法包括传统的计算方法组合[35]、增强人工智能的实验技术[36]以及基于物理的创新[37,38]。
一个新兴领域是开发用于分子动力学模拟的机器学习力场(MLFFs)

最先进的深度学习方法

RNA结构预测的深度学习方法可以分为三类主要范式:基于语言模型的方法、端到端结构预测器和几何距离预测模型,每种方法针对预测挑战的不同方面(表2)。
基于语言模型的方法利用在大型序列数据集上预训练的Transformer架构来捕捉结构模式。RNA-FM[44]、RNAErnie[45]、RINALMo[46]和NucleicBERT[47]代表了这类方法

未来方向

现代方法显示出解决复杂RNA结构预测问题的潜力,但仍存在需要进一步优化的瓶颈。首先,深度学习模型容易过拟合,即模型可能仅学习训练数据中的特定特征(包括噪声和偏差),而忽略了更普遍的模式。这种过拟合主要是由于数据稀缺或噪声造成的,因此需要大规模、高质量的数据集。先进的标记化技术

数据可用性

本研究期间没有创建或分析新的数据。本文不适用数据共享规定。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。

致谢

A.S.感谢HIDSS4Health——亥姆霍兹健康信息与数据科学学院(Helmholtz Information & Data Science School for Health)的支持。A.S.和A.D.感谢亥姆霍兹协会的Initiative and Networking Fund (INF)在MadRNA项目下的支持。A.S.和C.F.感谢亥姆霍兹协会的Helmholtz Foundation Model Initiative (HFMI)在PROFOUND和Virtual Cell项目下的支持。资助方未参与研究设计、数据收集、数据分析、发表决定或论文准备等过程。

生物通微信公众号
微信
新浪微博


生物通 版权所有