编辑推荐:
研究人员开发了D-I-TASSER混合方法,整合多源深度学习势能与迭代穿线片段组装模拟,解决了AlphaFold2/3在复杂多域蛋白质结构预测中的局限性。通过域分割重组协议和人类蛋白质组建模验证,其单域预测TM-score比AlphaFold2提升5%,多域预测提升12.9%,在CASP15盲测中表现最优,为基因组规模应用提供了高精度结构功能预测新工具。
蛋白质结构预测是理解生命机制的关键,但传统方法面临两大挑战:物理力场模拟计算成本高,而纯深度学习模型如AlphaFold2在多域蛋白质和构象多样性建模上存在局限。尤其值得注意的是,真核生物中80%的蛋白质含多个结构域,其精确建模对揭示蛋白质功能至关重要。
为解决这些问题,密歇根大学和天津大学的研究团队开发了D-I-TASSER(Deep-learning-based iterative threading assembly refinement)混合方法。该方法创新性地将深度学习的空间约束预测与蒙特卡洛模拟的物理力场优化相结合,并引入域分割-重组模块,实现了从单域到多域蛋白质的高精度建模。相关成果发表在《Nature Biotechnology》上。
研究团队运用了四项核心技术:1)DeepMSA2通过元基因组数据库构建深度多序列比对;2)LOMETS3元服务器进行模板穿线;3)AttentionPotential/DeepPotential预测距离图谱和氢键网络;4)副本交换蒙特卡洛(REMC)模拟整合多源约束。人类蛋白质组建模涉及19,512条序列的跨尺度分析。
基准测试表现
在500个无同源模板的"困难"单域蛋白测试中,D-I-TASSER平均TM-score达0.870,较传统I-TASSER提升108%。典型案例3fpiA的预测距离图谱与实验结构误差仅0.24Å,最终模型TM-score达0.986。对于148个AlphaFold2表现不佳的靶点,D-I-TASSER优势更显著(TM-score 0.707 vs 0.598)。
多域蛋白质突破
针对230个多域蛋白质的测试显示,D-I-TASSER全链TM-score(0.720)比AlphaFold2高12.9%。典型案例7jtkB通过域分割获得更深的MSA(neff=0.4),使域间距离预测误差从5.91Å降至1.32Å,最终全链TM-score提升至0.934。
CASP15盲测验证
在社区评估的CASP15中,D-I-TASSER(注册名UM-TBM)在单域和多域类别均排名第一。对于自由建模(FM)靶点,其平均TM-score(0.833)比AlphaFold2高18.8%,在22个多域靶点中优势达29.2%。
人类蛋白质组应用
模型覆盖了81%的人类蛋白质域和73%的全长序列,与AlphaFold数据库形成互补。通过COFACTOR功能注释,发现了染色体11富集视觉相关功能(如"视网膜发育"),与已知眼科疾病关联一致。案例Q9BWD1的乙酰辅酶A结合位点预测与实验结构误差仅0.74Å。
这项研究的重要意义在于:1)证明了物理模拟与深度学习融合的可行性,打破了二者对立的传统认知;2)域分割策略解决了多域蛋白预测的核心瓶颈;3)提供的全人类蛋白质组模型和功能注释为疾病机制研究提供了新资源。局限性在于孤儿蛋白(neff<1)预测仍具挑战性,未来可扩展至蛋白质复合体结构预测。
该工作建立的D-I-TASSER服务器和开源工具(https://zhanggroup.org/D-I-TASSER)已向学术界免费开放,其创新方法为结构生物学领域提供了新的研究范式。
生物通 版权所有