RNA分子在多种生物过程中发挥着关键作用,包括转录调控、细胞信号传导、催化作用和转录后控制,其多样的功能与其结构密切相关[1, 2, 3]。核磁共振(nuclear magnetic resonance)、X射线晶体学(X-ray crystallography)和冷冻电子显微镜(cryo-EM)等实验方法可以提供详细的结构信息[4]。RNA的实验研究是一个庞大且活跃的研究领域,已有许多重要发现[5,6]。然而,由于RNA的高灵活性、构象异质性以及难以结晶的特性,这些方法资源需求高且存在尺寸和分辨率限制。与蛋白质不同,尽管在蛋白质结构预测方面取得了显著进展,RNA结构预测仍面临独特挑战(见图1)。
计算RNA结构预测经历了不同的方法发展阶段。传统方法采用基于物理的粗粒度模型,并结合蒙特卡洛采样(Monte Carlo sampling),例如SimRNA[7],该方法利用统计潜力探索构象空间;还有像FARFAR2这样的从头算片段组装方法,通过整合片段库和螺旋建模来准确预测类似天然状态的RNA三级结构[8]。直接耦合分析(Direct Coupling Analysis, DCA)[9,10]是一个重要的突破,它是一种统计推断方法,可以从多序列比对(MSAs)中识别共同演化的核苷酸对。DCA应用逆Potts模型和最大熵原理来推断直接的进化耦合,这些信息可以作为三级结构建模中的距离约束。
深度学习的出现彻底改变了这一领域,其动力来自于在蛋白质结构预测方面的成功。早期的RNA深度学习方法包括RNAContact[11]和CoCoNet[12],这些方法利用卷积神经网络和特征工程策略来处理有限的注释结构数据。
在这些基础上,近年来出现了基于Transformer架构的自监督技术。例如,BARNACLE[13]通过预训练RNA家族的MSAs,在接触图预测任务上取得了优异性能。最近的研究趋势是直接在序列数据上训练大型语言模型,这些模型无需显式的进化信息即可学习结构表示。
尽管取得了这些进展,RNA结构预测仍面临诸多挑战,导致其性能难以与蛋白质结构预测相媲美。蛋白质结构预测模型[14]的准确度可达到亚2 Å,因为已有超过20万个蛋白质结构用于训练,而RNA方法仅基于约9000个RNA结构进行训练,这些RNA结构仅占蛋白质数据库(PDB)中沉积结构的不到1%,且主要来自大约100个不同的RNA家族。这些根本性限制及其对RNA结构预测的影响已在近期综述中得到全面分析[15,16]。
本文全面分析了RNA结构预测领域最新的深度学习方法进展。我们讨论了推动这些人工智能(AI)模型发展的数据集,总结了前沿的计算方法,分析了它们的性能和局限性,并指出了方法改进的前景。我们的目标是为计算生物学家提供关于这一快速发展的领域当前能力和未来机会的宝贵见解,同时认识到RNA结构预测与其他成功的深度学习应用在结构生物学中的差异。