解锁肺炎克雷伯菌溶原噬菌体数据:利用脱聚酶序列预测荚膜类型特异性的机器学习方法

时间:2025年10月4日
来源:Nature Communications

编辑推荐:

本研究针对肺炎克雷伯菌复杂荚膜多糖阻碍噬菌体侵染的难题,通过挖掘原噬菌体编码的脱聚酶(depolymerase)基因信息,开发了TropiGAT(基于有向无环图)和TropiSEQ(基于序列聚类)两种机器学习模型,成功预测了噬菌体对特定荚膜类型(KL型)的特异性。研究构建了脱聚酶-KL型关联数据库,揭示了噬菌体-宿主相互作用的可预测性,为精准噬菌体疗法和工业应用提供了重要理论基础和技术支撑。

广告
   X   

在抗菌药物耐药性日益严重的今天,噬菌体疗法被视为对抗ESKAPE病原体的重要替代策略。肺炎克雷伯菌(Klebsiella pneumoniae)作为其中一员,其表面覆盖的荚膜多糖(capsular polysaccharide, CPS)成为噬菌体侵染的主要物理屏障。为了突破这一屏障,多数裂解性噬菌体编码脱聚酶(depolymerase),能够特异性降解荚膜多糖。然而,由于细菌荚膜和噬菌体脱聚酶在进化过程中均表现出高度的遗传多样性,且频繁发生水平基因转移(horizontal gene transfer, HGT),使得预测特定脱聚酶的荚膜类型特异性变得异常困难。
近年来,机器学习技术的发展为理解噬菌体-细菌相互作用提供了新工具。蛋白质语言模型(protein language models, PLM)如ESM2能够从氨基酸序列中提取复杂特征,并生成嵌入表示(embedding representations),已在下游任务中展现出强大性能。然而,在治疗应用中,仅能预测到属或种水平的宿主范围远远不够,因为噬菌体通常只感染同一物种中的少数菌株。因此,实现亚种水平的预测精度成为当前研究的重点。
本研究通过利用肺炎克雷伯菌原噬菌体(prophage)中编码的脱聚酶域序列信息,结合机器学习方法,构建了两种预测模型:基于有向无环图的TropiGAT和基于序列聚类的TropiSEQ。研究不仅创建了一个全面的脱聚酶序列与KL型靶标关联数据库,还证明了在亚种水平预测噬菌体-宿主相互作用的可行性,为提升噬菌体在治疗和工业领域的应用潜力提供了重要见解。
研究人员主要运用了以下关键技术方法:从NCBI数据库下载肺炎克雷伯菌基因组并通过Kleborate进行KL分型;使用PhageBoost预测原噬菌体并通过FastANI进行病毒操作分类单元(vOTU)聚类;采用三种方法(DepoScope、HMM扫描和BLASTp)鉴定脱聚酶域;利用ESMfold预测蛋白质结构并通过FoldSeek进行结构域扫描;基于注意力机制的图神经网络(GATv2)和随机森林分类器构建预测模型;使用五个公共感染矩阵进行模型验证。

结果

肺炎克雷伯菌原噬菌体编码脱聚酶的全面分析

研究从NCBI数据库下载了14,601个肺炎克雷伯菌基因组,保留12,003个具有可靠KL型分配的基因组。从中鉴定出77,802个原噬菌体,通过99%ANI和80%覆盖率去冗余后得到16,077个vOTU。通过筛选,最终获得74,302个带有KL标记的原噬菌体。使用三种方法(BLASTp、HMM谱和DepoScope)鉴定出19,600个脱聚酶域序列,去冗余后得到3,908个唯一序列。约80%的原噬菌体未检测到脱聚酶,表明存在原噬菌体退化或替代感染模式。在15,230个携带至少一个脱聚酶的原噬菌体中,72%携带一个,20%携带两个,少数最多携带12个,平均每个原噬菌体携带1.3个脱聚酶。
脱聚酶域呈现多种结构折叠,其中右旋β-螺旋(right-handed β-helix)最为常见(3,178个),其次是n叶β-螺旋桨(n-bladed β-propeller,1,571个),三重螺旋(triple-helix,32个)和α/α环状结构(α/α toroid,29个)占比不足1%。最终数据集包含8,871个原噬菌体,对应128种不同的KL型,分布不均匀,44%集中在KL107、KL64、KL47、KL106、KL17和KL2等六种类型。

TropiGAT和TropiSEQ模型预测性能

TropiGAT采用基于注意力机制的聚合方法,将脱聚酶序列表示为ESM2模型计算的嵌入向量,通过注意力权重聚合后输入前向神经网络进行二分类。每个KL型训练一个独立分类器,注意力聚合法的加权MCC为0.547,显著优于基线平均法(0.528)。模型在训练数据充足的KL型(如KL17、KL102、KL3)上表现优异(MCC>0.8),而在数据稀少的KL型(如KL31、KL6、KL9)上预测能力有限。
TropiSEQ将原噬菌体表示为脱聚酶域簇的存在-缺失二元向量,使用随机森林和逻辑回归进行分类。在聚类阈值0.85时,随机森林表现最佳,加权MCC为0.367。与TropiGAT类似,TropiSEQ在样本量充足的KL型上表现更好,但某些低样本量KL型(如KL7、KL128)也表现出意外的高预测性能(MCC分别为0.57和0.79)。

多标签预测的集成策略

研究采用集成策略整合两种模型的预测结果,比较了两种训练数据策展策略:使用唯一脱聚酶集和基于感染事件加权的数据分布。在25个实验验证的右旋β-螺旋脱聚酶测试中,TropiGAT将11对脱聚酶-KL对排名前10,TropiSEQ将14对排名前10,两者结合后16对(64%)进入前10预测,显示协同价值。最终集成方案结合了TropiGAT(基于唯一脱聚酶训练)和TropiSEQ(基于加权数据训练)。
两种方法表现出互补性:例如脱聚酶KP32gp37(靶向KL3)被TropiGAT排名第三但被TropiSEQ排除前15;而depoKP36(靶向KL63)被TropiSEQ排名第一但被TropiGAT排名第23。特别值得注意的是,克雷伯菌噬菌体vB_KpnP_KpV74的脱聚酶被TropiSEQ对KL2和KL13排名第一和第二,这两种KL型已知存在交叉反应性。

裂解噬菌体预测性能的基准测试

研究从三个公开感染矩阵(Ferriol-Gonzales等2024、Beamud等2023、Townsend等2021)生成综合数据集,包含89种KL型。重新注释后鉴定出126个噬菌体中的249个脱聚酶域序列,包括139个右旋β-螺旋、75个n叶β-螺旋桨、34个三重螺旋和1个α/α环状结构。
与序列聚类方法SpikeHunter和蒙特卡洛模拟随机预测相比,TropiSEQ在164个螺旋脱聚酶中正确关联48个(排名第一),优于SpikeHunter(44/164)和TropiGAT(25/164)。扩展到前5预测时,TropiSEQ正确关联76个,TropiGAT关联49个,而SpikeHunter因基于聚类的设计无法产生多标签预测。在前15预测中,TropiGAT逐步召回62个脱聚酶,TropiSEQ召回78个,总体成功关联100/164个螺旋脱聚酶。
TropiSEQ表现出更高的排名精度(正确标签平均排名1.8 vs TropiGAT的3.6),且在低代表性KL型上表现稳健。TropiGAT则展示了超越序列相似性的预测能力,能够准确预测与训练数据无同源性的脱聚酶-KL相互作用。

脱聚酶折叠类型对荚膜特异性预测的影响

不同脱聚酶折叠类型的预测性能存在显著差异。螺旋脱聚酶(右旋β-螺旋和三重螺旋)的正确关联率高于n叶β-螺旋桨:TropiSEQ和TropiGAT分别正确关联48%和38%的螺旋脱聚酶,而对n叶β-螺旋桨仅正确关联22%和43%。n叶β-螺旋桨的正确预测平均排名也显著更高(性能较差):TropiSEQ为4.21,TropiGAT为6.34,而螺旋脱聚酶分别为1.78和3.56。
MCC分数分析显示,TropiGAT中螺旋脱聚酶平均MCC为0.10,n叶β-螺旋桨为0.02;TropiSEQ中分别为0.20和0.0065,表明模型对螺旋脱聚酶的预测效率显著更高。尽管如此,某些KL型(如KL21、KL27、KL52、KL57)的n叶β-螺旋桨仍表现出较强的预测性能,表明其可预测性可能依赖于特定残基和结构特征,而非简单的序列同一性。

脱聚酶-KL关联簇分析

研究鉴定出989个脱聚酶域簇,其中550个与96种KL型关联,110个簇(20%)与≥2种KL型关联。最常见关联包括KL106-KL107(共享7个簇)和KL47-KL64(共享5个簇)。大多数簇规模较小:180个为单例,115个包含两个序列,最大簇包含156和153个序列。
TropiGAT使用注意力聚合层为原噬菌体内的脱聚酶域分配权重,当注意力权重>0.5且预测感染概率>0.8时,认为关联显著,由此将1,627个脱聚酶域映射到82种KL型。比较两种模型的预测发现,1,761个脱聚酶-KL关联中有1,318个(74.8%)一致。观察到5%(79/1,627)的脱聚酶存在交叉反应性,其中两个n叶β-螺旋桨分别靶向8种和5种KL型,三个右旋β-螺旋各靶向4种KL型。这些交叉反应性脱聚酶可能具有广谱活性,突出了其进一步功能和治疗应用的潜力。

讨论与结论

本研究提出了一个创新框架,通过在肺炎克雷伯菌中利用原噬菌体数据建模噬菌体-细菌相互作用,解决了该领域的关键挑战。开发的预测模型能够基于脱聚酶域序列确定噬菌体荚膜趋向性,展示了多项关键能力:在单个脱聚酶水平解析预测、识别交叉反应性脱聚酶以及准确预测与训练数据无序列同源性的脱聚酶的KL型。
TropiGAT和TropiSEQ作为二分类器,在训练数据充足的KL型(如KL2、KL17、KL47、KL64、KL106和KL107)上表现出高预测性能,这些KL型与高风险肺炎克雷伯菌克隆相关,在临床测序数据中出现频繁,使针对它们的模型在此场景中特别相关。模型即使在训练样本不足的KL型上也显示出令人鼓舞的结果,如KL103和KL157分别仅有11和13个训练样本,但在裂解噬菌体序列评估中获得了0.697和1.0的MCC分数。
研究还发现不同脱聚酶折叠类型的可预测性存在显著差异。右旋β-螺旋作为最特征化的多糖降解脱聚酶折叠,其稳定三聚体结构通常靶向一种或少数几种KL型。而n叶β-螺旋桨在噬菌体中的特性仍不明确,其预测能力较弱可能源于训练数据稀缺、结构多样性以及功能多样性等因素。携带n叶β-螺旋桨的噬菌体往往靶向更多KL型(平均3.1 vs 1.9),支持该折叠在感染谱广度中起关键作用的观点。
研究的局限性包括仅关注脱聚酶域序列而忽略了其他因素(如尾纤维蛋白和次级细菌受体)在宿主识别中的作用,以及依赖初始细菌菌株充分代表种群多样性。未来工作可通过整合这些因素,利用能够生成数十万kb上下文窗口的基因组基础模型,构建统一模型来编码荚膜及其修饰信息。这样的模型将通过促进从充分代表的KL型到样本较少KL型的知识转移,以及整合下游过程(如噬菌体复制、宿主防御系统)数据来提升预测能力。
总之,本研究通过将先进机器学习模型与进化视角相结合,创新性地建模了噬菌体-细菌相互作用。脱聚酶序列的重要作用和多功能性使本研究的范围超越治疗应用,在工业领域也具有潜在效用。

生物通微信公众号
微信
新浪微博


生物通 版权所有