编辑推荐:
这篇综述系统阐述了机器学习(ML)在解析内在无序蛋白(IDRs)序列-构象集合-功能关系中的前沿应用,涵盖构象集合生成、序列设计、生物物理特性预测及功能关联分析,强调实验-理论-模拟的协同整合与进化约束的特殊性。
内在无序蛋白及区域(IDRs)广泛参与细胞信号传导、转录调控等过程,其功能依赖于动态构象集合而非固定结构。传统结构生物学方法难以解析IDRs的特性,而机器学习(ML)通过整合实验数据、模拟结果和进化信息,正逐步揭示IDRs的序列-集合-功能关系。本文综述了ML在IDR构象采样、功能预测及序列设计中的突破性进展。
IDRs的构象集合采样面临巨大挑战。分子动力学(MD)模拟通过力场优化提升精度,而粗粒化(CG)模型(如CALVADOS)利用贝叶斯参数学习(Bayesian parameter learning)整合实验数据(如SAXS、NMR)和先验知识,显著提高了IDR全局构象的预测准确性。生成模型(如idpSAM、IDPFold)基于扩散模型架构,可直接从序列生成原子级构象集合,但依赖训练数据的质量。
IDR的生物学功能与其构象特性(如链压缩程度、相分离倾向)密切相关。ML模型通过物理驱动的特征(如电荷分布、芳香族残基模式)或进化信息(如蛋白语言模型pLMs)高效预测这些特性。例如,AlphaFold-Multimer可识别IDR与折叠蛋白的结合模式,而对比学习框架能挖掘IDR序列中的功能保守性。相分离预测模型结合CG模拟与主动学习(active learning),揭示了序列特征与 condensate 形成的关联。
IDR设计需平衡动态性与功能特异性。物理模型(如CALVADOS)结合遗传算法(GADIS)可设计具有目标构象或相行为的序列;生成模型(如EvoDiff)通过扩散过程创造新型IDR序列。值得注意的是,多目标贝叶斯优化(multiobjective Bayesian optimization)成功设计了兼具高动态性和相分离能力的IDR,而肽段结合剂设计(如针对SS18-SSX1)展现了IDR靶向治疗的潜力。
ML在IDR研究中将更深度整合多源数据(如临床变异、单细胞测序),推动从分类预测到定量分析的跨越。生成模型与物理力场的结合有望实现IDR的精准设计,而跨尺度模拟将揭示IDR在细胞环境中的复杂行为。这一领域的发展将深化对神经退行性疾病、癌症等IDR相关病理机制的理解。
(注:全文严格基于原文内容缩编,未添加非原文信息。)
生物通 版权所有