微生物群落中未表征基因产物功能预测:利用共表达模式与多组学数据整合方法FUGAsseM

时间:2025年10月16日
来源:Nature Biotechnology

编辑推荐:

本研究开发了FUGAsseM方法,通过整合宏转录组(MTX)共表达、基因组邻近性、序列相似性和结构域互作等社区多组学数据,系统性预测微生物蛋白质功能。该方法在人类微生物组计划(HMP2/iHMP)数据中成功注释了超443,000个蛋白家族(约82.3%此前未表征),显著拓展了肠道微生物功能图谱,为探索微生物群落功能暗物质提供了可推广的计算工具。

广告
   X   

Abstract
微生物群落中绝大多数基因功能尚未被表征。本研究开发了一种通过评估群落水平多组学数据大规模推断微生物蛋白质推定功能的方法。从人类微生物组计划(HMP2/iHMP)的1,595个肠道宏基因组和800个宏转录组中,我们预测了超过443,000个蛋白质家族的高置信度功能(约82.3%此前未表征),其中包括超过27,000个与已知蛋白质同源性较弱的家族及超过6,000个无同源性的家族。整合序列相似性、基因组邻近性和结构域-结构域互作等信息提升了方法性能。FUGAsseM的实现具有普适性,可在充分研究和未充分表征的群落中预测蛋白质功能,其准确性可与针对单一生物体设计的最先进方法相媲美,同时提供更广的覆盖范围。这项初步研究拓展了人类肠道微生物组的功能景观,允许探索未表征群落中的微生物蛋白质。
Main
微生物蛋白质代表了生命之树所需的全部酶学、结构和其他分子功能(MF),如代谢宿主难以利用的膳食成分、产生免疫调节小分子以及驱动生物地球化学循环。然而,即使在人类肠道微生物组—— arguably 特征最明确的人类微生物群落栖息地中,高达70%的蛋白质仍未表征。这种功能“暗物质”的环境与健康相关性及其巨大规模(例如,人类肠道微生物组多样性中跨越数百万个基因)需要一种可扩展的方法来预测微生物群落中的蛋白质功能。尽管基于培养和其他体外技术为功能洞察提供了金标准,但在类似于其自然环境的培养中快速表征大多数微生物具有挑战性,更不用说以足够高通量的方式进行。同样,蛋白质的实验表征无疑是一个劳动密集型、耗时且昂贵的过程,无法应对每年数千个新蛋白质家族的规模。
MTX-based coexpression patterns capture comprehensive functional activity in microbial communities
为了首先评估人类微生物组中蛋白质功能与基因表达之间的关系,我们筛选了来自HMP2炎症性肠病(IBD)多组学数据库的800个宏转录组。具体而言,我们量化了先前通过MetaWIBELE从1,595个宏基因组中分析的蛋白质家族的表达。在宏转录组中检测到的总共582,744个蛋白质家族由336个物种贡献,每个物种至少有500个蛋白质家族。为了检查这些蛋白质家族的表征水平,我们生成了一组“信息性”生物过程(BP)术语(GO中最大和最多样化的本体方面),其定义受到单生物体方法的启发。在将子术语的注释传播到GO有向无环图(DAG)内的所有祖先术语后,对于给定物种,一个信息性BP术语被定义为包含至少指定数量注释蛋白质(考虑DAG继承)的术语,而其任何子术语单独均未达到此阈值。根据我们先前出版物中定义的新颖性类别,我们将前述MTX蛋白质家族分类为“SC”(与具有信息性BP术语的已表征UniProtKB蛋白质具有强同源性)、“SNI”(与具有非信息性BP术语的已表征UniProtKB蛋白质具有强同源性)、“SU”(与没有任何BP术语的未表征UniProtKB蛋白质具有强同源性)、“UPI”(与未表征UniPar蛋白质具有强同源性)、“RH”(与UniProt蛋白质具有远程同源性)和“NH”(与UniProt蛋白质无同源性)。SC包含83,280个家族(占总数的14.3%)。相反,499,464个家族(占总数的85.7%)在功能上未表征,包括11.9% SNI、60.5% SU、3.6% UPI、8.0% RH和1.7% NH。
作为研究的基线,我们从人类微生物组中常见物种的泛基因组开始。尽管这些生物作为分离株已被充分研究,但它们在典型群落中的泛基因组仍然主要未表征。总体而言,HMP2中60.5%的蛋白质家族在UniProtKB中未注释任何BP术语(即SU)。为了进一步表征SU蛋白质家族,我们包括了分子功能(MF)和细胞组分(CC)术语的注释。我们将SU分层为“SU_MF”(在UniProtKB中具有MF术语注释的SU家族)、“SU_CC”(在UniProtKB中仅具有CC术语注释的SU家族)和“SU_nonGO”(在UniProtKB中没有任何GO注释的SU家族)。在352,527个SU家族中,123,921和51,183个家族分别被标记为SU_MF和SU_CC,而其余77,423个家族缺乏任何GO注释。即使在充分表征的大肠杆菌泛基因组中,也只有37.6%的蛋白质家族注释了BP术语,24.9%未注释任何GO术语。作为阳性对照,大肠杆菌K-12菌株的蛋白质家族注释良好,包括64.6%具有BP术语的家族、24.6%具有MF或CC术语的家族以及仅10.8%无GO注释的家族。即使在充分研究的微生物的泛基因组中,未表征蛋白质的主导地位凸显了在微生物群落中扩展功能预测的必要性。
接下来,作为分配推定功能预测的第一步,我们调查了MTX在孤立情况下功能信息的程度。值得注意的是,在单生物体中,相同代谢或调控途径中的蛋白质倾向于共表达;因此,共表达表明功能相关性,可用于预测途径共同成员资格。在微生物群落中,MTX是迄今为止最广泛可用的全群落转录数据,编码潜在的功能相关性。我们从简单的MTX共表达网络(即跨样本的一对蛋白质表达值计算皮尔逊相关性)开始,正如预期的那样,表征和未表征的蛋白质都显示出具有强连接(R > 0.5)的共表达模式。许多未表征的蛋白质家族与已表征的家族高度相关,它们的相关性与已表征家族内部的相关性相当。为了进一步区分合法的缺乏共表达情况与那些蛋白质表达不佳(例如,低流行度)的情况,我们定义了一组“充分表达”的蛋白质(即在至少10%的总MTX样本中检测到),并测量了未表征蛋白质在这些充分表达蛋白质中与MTX共表达网络中已表征邻居的接近程度。在具有最多新颖(即RH和NH)蛋白质的前25个物种中,许多充分表达的未表征蛋白质在转录水平上与已表征蛋白质强烈相关,表明它们在肠道中的功能相关性。
我们接下来试图将基于MTX的共表达与基于分离株的共表达进行比较,使用来自STRING数据库的HMP2物种分离株数据。总共,前25个具有最多新颖蛋白质的物种中有12个在STRING中可用,这与微生物群落中大部分物种缺乏相应参考分离株的观察一致。在大多数物种(12个中的11个)中,STRING链接的蛋白质在基于MTX的网络中显示出比STRING未链接蛋白质显著更强的相关性。此外,MTX和STRING网络之间的共表达相似性(通过皮尔逊相关性量化)本身与HMP2物种的参考代表性显著相关。也就是说,一个物种的特征越好,其基于MTX和基于STRING的共表达网络越相似。然而,MTX捕获的共表达关系比分离株多得多;只有大肠杆菌和铜绿假单胞菌在STRING(版本11.5)中包含直接表达数据,然后通过同源性转移到336个HMP2物种中的148个。这些发现突出了肠道宏转录组中共表达但功能未表征蛋白质的丰富性。
基于这些初步评估,我们开发了一种方法——FUGAsseM——来系统预测微生物群落背景下未知蛋白质的功能。FUGAsseM建立在一个整合机器学习框架上,直接类似于用于单生物体功能预测任务的框架。它整合了多种类型的社区数据,如来自MTX的共表达模式、宏基因组组装中的邻近性(即基因在contig中彼此靠近出现)、蛋白质的序列相似性(即粗略建模为相同UniRef50簇中的共同成员资格)和预测的结构域-结构域相互作用。对于每个感兴趣的功能,FUGAsseM首先为第一层中的每种数据类型构建一个单独的随机森林(RF)分类器,其效果是将个体测定测量值映射到其功能相关性的置信水平,产生一个预测分数,指示蛋白质家族基于其特定特征集的功能注释的可能性。接下来,它构建一个集成分类器,结合来自所有数据类型的RF预测,为给定功能提供每个蛋白质家族的最终置信度。这个过程评估了每种数据类型在预测每个基因每个功能的功能关联中的相对贡献,确定了它们在分配功能注释中的整体信息性。FUGAsseM设计用于灵活注释来自任何来源的基因集,只要有足够的训练数据可用,使其可广泛适用于不同的功能类别,如GO术语、KEGG途径或MetaCyc模块。在本研究中,我们专注于GO注释作为概念验证应用,利用GO可用的广泛资源展示FUGAsseM的预测性能。
FUGAsseM accurately predicts functions of uncharacterized proteins from microbial communities
为了评估FUGAsseM的预测准确性,我们首先使用交叉验证方法将其基于群落的预测与基于现有分离株数据的预测进行比较。为此,我们使用来自STRING的基于分离株的网络数据(即分离株的共表达和整合网络数据)训练FUGAsseM。仅使用MTX共表达的FUGAsseM(FUGAsseM-MTX)的性能与STRING的分离株共表达相当,具有更广泛适用于群落中检测到的任何生物体的额外优势。通过添加宏基因组组装的contig内的基因组邻近性、序列相似性和结构域-结构域相互作用(即FUGAsseM-full),FUGAsseM的性能进一步改善,这也与STRING整合数据的预测显著相关。这也适用于跨不同GO术语的物种-wise 比较,但再次适用于任何元组学检测到的生物体。因此,FUGAsseM的性能与最先进的数据整合方法相当,但具有直接从全群落谱推断更多物种功能的能力。
FUGAsseM的准确性也与其他最先进的单生物体功能预测方法相当。选择了两种在CAFA3中表现突出的使用序列信息的方法进行基准测试:NetGO2.0和DeepGOPlus。为了进行比较,我们将DeepGOPlus以默认参数设置应用于FUGAsseM处理的十个最丰富物种,并将NetGO2.0应用于五个物种(其基于Web的接口限制)。FUGAsseM准确预测了现有注释,其性能与NetGO2.0、DeepGOPlus和STRING相当。FUGAsseM-MTX实现信息性BP术语预测的平均接收者操作特征曲线下面积(AUROC)为0.71。显著的是,通过聚合其他群落范围数据(即FUGAsseM-full),其AUROC提高到0.95。此外,鉴于蛋白质结构预测领域的巨大进步,我们将FUGAsseM与基于结构同源性的最新方法进行了比较(当可用时)。结果显示,FUGAsseM-MTX与基于结构同源性的预测相当(仅使用MTX协变),而FUGAsseM-full仍然大大优于两种方法。这是首次在群落内多个数据类型和多个生物体之间展示协同作用,也在后续评估中得到证据。
FUGAsseM在预测完全新的注释时也保持其准确性,使用时间上保留的注释集,类似于CAFA的评估。依赖同源性进行预测的方法可能容易受到循环性 induced 过度性能的影响(例如,金标准中的蛋白质X因为与蛋白质Z的同源性被注释到术语Y,而预测器也因为与Z的同源性将X分配到Y)。因此,我们设计了一个受CAFA启发的时间保留评估,使用UniProt注释的HMP2蛋白质,这些蛋白质在第一个时间点(T0:2019_01版本,用于FUGAsseM训练)缺乏实验证据,并在第二个时间点(T1:2022_01版本)添加了实验证据。我们使用在T0可用的HMP2 SC注释训练FUGAsseM,与UniProt中的GO对应(2019_01版本)。然后,我们评估了其在预测在T0和T1之间通过实验验证的新注释的准确性,包括在T1获得新实验验证的“累积证据”和在T0未见且在T1通过实验验证新添加到数据库的“新证据”。
唯一具有足够多新蛋白质注释的生物体被证明是大肠杆菌;然而,对于该分类单元,FUGAsseM的MTX模型和完整模型实现了高性能,平均AUROC为0.80。新实验验证注释在高置信度预测中的富集也具有高度统计学意义。同样,我们使用这种时间保留方法评估了具有基于STRING分离株数据的FUGAsseM。引人注目的是,对于BP预测,FUGAsseM-MTX模型优于STRING的基于分离株的共表达。同时,FUGAsseM完整模型与STRING的整合预测紧密匹配,同时在识别训练数据中不存在的具有实验支持的新注释方面表现出色。
为了进一步评估FUGAsseM的稳健性并最小化同源性基于注释的潜在混淆,我们仅使用来自我们金标准集的实验确认注释评估其性能。FUGAsseM完整模型在实验验证和其他注释方面始终表现出高预测准确性,表明其在减轻这些潜在偏差方面的有效性。此外,与缺乏实验支持的注释相比,FUGAsseM-MTX模型对实验验证注释表现出更高的性能,加强了MTX衍生功能预测的可靠性。这种扩展分析证实了FUGAsseM的性能优势独立于同源性效应而持续存在。
MTX-based coexpression contributes substantially to FUGAsseM predictions
我们进一步探讨了在FUGAsseM完整模型中整合的每种数据类型的贡献重要性。为此,我们评估了第二层RF对于准确GO术语(即成功模型)学习的重要性分数,后者被定义为导致高置信度(即预测概率≥0.75)GO注释预测的模型。基于MTX的共表达和序列相似性都实现了超过0.28的平均重要性分数,超过了第三重要数据类型(基因组邻近性,0.11)的重要性。它们的重要性也远高于邻近性(在同一contig中组装的蛋白质)和预测的结构域-结构域相互作用,突出了基于MTX的共表达在功能预测中的重要作用。
基于MTX的共表达在预测随时间积累新实验证据的注释方面也保持了巨大贡献,借鉴了上述相应的评估。为了避免预测先前基于相同类型证据做出的注释的潜在循环性,我们检查了数据类型对于预测从FUGAsseM训练模型中排除的新注释的重要性。引人注目的是,即使这些注释是使用其他数据类型(例如,序列相似性为0.39)做出的,基于MTX的共表达对预测新的BP注释实现了显著贡献(平均重要性分数≥0.42)。鉴于MF术语通常由单个大分子的行动执行,序列相似性仍然是MF术语预测的高贡献者,与先前的发现一致。这提供了一个有趣的演示,表明MTX共表达可以以类似于单生物体受控条件下转录共表达的方式为功能分配提供信息。
此外,我们使用来自我们金标准集的实验验证注释进行了额外分析,有效减少了基于同源性注释转移的潜在混淆。值得注意的是,在集成模型中,基于MTX的共表达特征比

生物通微信公众号
微信
新浪微博


生物通 版权所有