QSProteome:社区驱动的蛋白质复合体结构预测与评估平台推动蛋白质组规模结构生物学发展

时间:2025年10月31日
来源:Nucleic Acids Research

编辑推荐:

本刊推荐:为解决蛋白质复合体预测模型缺乏统一评估平台的问题,研究人员开发了QSProteome社区交互平台,整合了35,528个预测复合体结构,提供三维可视化、QSalign验证和STRING互作网络等分析工具。该平台通过游戏化工作流成功优化了1,547个ABC转运蛋白模型,建立了可扩展的蛋白质组规模结构生物学基础设施,显著提升了预测模型的可靠性和生物相关性。

广告
   X   

在结构生物学领域,AlphaFold和ColabFold等人工智能工具的突破性进展,使得蛋白质三维结构预测的准确性达到了接近实验水平的程度。特别是AlphaFold-Multimer扩展版本的出现,让研究人员能够以前所未有的规模预测蛋白质复合体的四级结构。然而,这些预测模型通常以静态坐标文件的形式散落在补充数据或孤立存储库中,缺乏统一的注释、验证指标和生物学背景信息,严重限制了它们的科学价值和应用潜力。
现有的数据库如AlphaFoldDB主要关注单体蛋白质结构,对寡聚化复合体的支持有限;而ModelArchive虽然提供计算模型的存档功能,但交互性和生物学背景整合不足。更关键的是,预测得到的蛋白质复合体结构的生物学相关性难以评估——AlphaFold提供的内部置信度评分(如ipTM、pTM、pLDDT和PAE)并不能完全反映多聚体组装的生理合理性。研究人员迫切需要一种能够系统评估预测复合体质量,并将结构信息与功能注释相结合的综合平台。
针对这一挑战,加州大学圣地亚哥分校Edward A. Catoiu领导的研究团队开发了QSProteome平台,该成果发表于《Nucleic Acids Research》数据库特刊。QSProteome(Quaternary Structural Proteome Repository for Organized and Transparent Evaluation Of Modeling Efforts)是一个开放获取的交互式平台,支持社区范围内的寡聚蛋白质结构组织、注释和评估。
研究人员构建了一个基于亚马逊云服务的可扩展基础设施,集成了自动化处理流水线,能够对用户提交的AlphaFold模型进行系统验证。平台采用模块化设计,包含上传门户、搜索引擎、评估框架和生物学背景整合四大核心功能。每个模型都配备了交互式3D可视化界面、置信度指标、结构比对和功能注释,形成了完整的模型评估体系。
特别值得一提的是平台创新的游戏化工作流程,研究人员以ABC转运蛋白为概念验证,开发了“ABC Game”训练模块,通过结构化任务引导用户识别缺失结构域和分类转运蛋白家族。10名认证用户通过该流程评估了1,547个ABC转运蛋白模型,显著提升了模型质量和注释准确性。
研究结果显示,QSProteome目前已收录35,528个独特的寡聚化模型,覆盖42,375个基因,几乎涵盖了BioCyc和ComplexPortal数据库中所有经过注释的复合体。平台支持222个NCBI分类标识符,整合为153个物种级别分类单元,包括多种重要模式生物。
在模型质量评估方面,QSProteome建立了多层次验证框架。每个模型页面都集成了Mol*可视化工具,显示全局置信度评分(ipTM、pTM)和残基级pLDDT评分。对于同源寡聚体,平台整合了QSalign工具,通过比较预测组装体与实验确定同源物的四级结构保守性来评估生物学相关性。同时,使用MM-align工具将每个模型与PDB中包含相同亚基的结构进行比对。
生物学背景整合是平台的另一大特色。QSProteome从UniProt获取每个建模亚基的注释信息,包括基因名称、蛋白质功能、配体相互作用和辅因子。在复合体水平上,平台整合了ComplexPortal数据,显示复合体名称、功能和生物学角色。此外,每个模型页面还包含交互式STRING网络,结合实验证据和计算预测来评估建模亚基形成生物学相关复合体的可能性。
平台的后端排队系统确保了建模任务的非冗余分配,每个任务在48小时内独家分配给特定用户,有效避免了计算资源的浪费。这种分布式建模方法使得平台在14周内就完成了超过54,000个模型的提交和验证,平均每天新增约400个模型。
在ABC转运蛋白的案例研究中,游戏化工作流程取得了显著成效。经过认证的用户评估发现,在1,547个初始模型中,23.6%被判定为正确,43.8%存在轻微化学计量问题,32.6%缺失一个或多个必需结构域。通过自动化解析和手动校正,研究团队共发现了714种缺失亚基类型和1,248处亚基化学计量校正。
重新校正后,每个模型的平均氨基酸数量从937个增加到1,480个,链间TM评分(ipTM)从0.67提高到0.72,达到了已知高质量复合体的置信度水平。这一改进证明了社区驱动校正工作流程在提升预测模型质量方面的有效性。
QSProteome的讨论部分强调了平台在推动结构生物学发展方面的多重意义。首先,平台建立了首个面向社区来源的计算预测高阶蛋白质复合体的交互式存储库,将CASP式基准测试扩展到大规模应用场景。通过整合MM-align和QSalign等正交比较工具,平台能够对数万个复合体进行系统评估。
其次,平台的可扩展架构支持新兴评分指标的大规模部署,如面向界面的链最小PAE和ipSAE评分。这种灵活性确保平台能够随着预测算法的发展而不断进化,为模型开发者、CASP评估人员和生物学家提供宝贵见解。
更重要的是,QSProteome建立了有组织的、大规模社区建模的 robust 框架。上传门户使研究人员能够无缝贡献模型,而结构化排队系统确保数据库的高效和非冗余扩展。平台与外部数据库的直接集成意味着任何更新(如新注释的复合体或修改的基因化学计量)都会自动纳入建模流水线。
研究团队指出,预测结构模型还可以为完善已有生物学知识提供宝贵见解,特别是在它们暗示意外的亚基组成或化学计量时。游戏化工作流程的成功证明,将AlphaFold预测与游戏式反馈和视觉模板相结合,能够实现高效的、高通量的生物学数据库校正。
展望未来,QSProteome的基础架构为更广泛的应用奠定了基础:除了验证和注释之外,它还可以成为全细胞三维重建和基因组规模大分子表达模型的宝贵资源,其中亚基水平的寡聚化组装是基本构建模块。通过提供这些经过注释、验证和生物学基础验证的“配方”,QSProteome使研究人员能够将真实的分子组件纳入细胞尺度模拟和可视化中。
研究团队已经开始提供公共API,用于检索QSProteome模型、数据和可嵌入的Mol*小部件,这些对应于任何BioCyc、ComplexPortal、UniProt和PDB条目。未来,他们计划开发交互式小部件,允许用户直接从合作伙伴网站提交化学计量校正,并将其传递到分布式建模队列中,以产生AlphaFold 3就绪的输入文件,从而利用外部用户社区加速注释并扩展四级结构蛋白质组覆盖范围。
这项研究得到了Novo Nordisk基金会和美国国立卫生研究院的资助,体现了学术界在推动开放式科学合作方面的持续努力。通过将预测复合体嵌入结构化比较框架,QSProteome不仅作为蛋白质存档库,更作为模型结构持续评估、情境化和改进的平台,为结构生物学和系统生物学研究提供了强大的基础设施支持。

生物通微信公众号
微信
新浪微博


生物通 版权所有