研究从三个公开感染矩阵(Ferriol-Gonzales等2024、Beamud等2023、Townsend等2021)生成综合数据集,包含89种KL型。重新注释后鉴定出126个噬菌体中的249个脱聚酶域序列,包括139个右旋β-螺旋、75个n叶β-螺旋桨、34个三重螺旋和1个α/α环状结构。与序列聚类方法SpikeHunter和蒙特卡洛模拟随机预测相比,TropiSEQ在164个螺旋脱聚酶中正确关联48个(排名第一),优于SpikeHunter(44/164)和TropiGAT(25/164)。扩展到前5预测时,TropiSEQ正确关联76个,TropiGAT关联49个,而SpikeHunter因基于聚类的设计无法产生多标签预测。在前15预测中,TropiGAT逐步召回62个脱聚酶,TropiSEQ召回78个,总体成功关联100/164个螺旋脱聚酶。TropiSEQ表现出更高的排名精度(正确标签平均排名1.8 vs TropiGAT的3.6),且在低代表性KL型上表现稳健。TropiGAT则展示了超越序列相似性的预测能力,能够准确预测与训练数据无同源性的脱聚酶-KL相互作用。
本研究提出了一个创新框架,通过在肺炎克雷伯菌中利用原噬菌体数据建模噬菌体-细菌相互作用,解决了该领域的关键挑战。开发的预测模型能够基于脱聚酶域序列确定噬菌体荚膜趋向性,展示了多项关键能力:在单个脱聚酶水平解析预测、识别交叉反应性脱聚酶以及准确预测与训练数据无序列同源性的脱聚酶的KL型。TropiGAT和TropiSEQ作为二分类器,在训练数据充足的KL型(如KL2、KL17、KL47、KL64、KL106和KL107)上表现出高预测性能,这些KL型与高风险肺炎克雷伯菌克隆相关,在临床测序数据中出现频繁,使针对它们的模型在此场景中特别相关。模型即使在训练样本不足的KL型上也显示出令人鼓舞的结果,如KL103和KL157分别仅有11和13个训练样本,但在裂解噬菌体序列评估中获得了0.697和1.0的MCC分数。研究还发现不同脱聚酶折叠类型的可预测性存在显著差异。右旋β-螺旋作为最特征化的多糖降解脱聚酶折叠,其稳定三聚体结构通常靶向一种或少数几种KL型。而n叶β-螺旋桨在噬菌体中的特性仍不明确,其预测能力较弱可能源于训练数据稀缺、结构多样性以及功能多样性等因素。携带n叶β-螺旋桨的噬菌体往往靶向更多KL型(平均3.1 vs 1.9),支持该折叠在感染谱广度中起关键作用的观点。研究的局限性包括仅关注脱聚酶域序列而忽略了其他因素(如尾纤维蛋白和次级细菌受体)在宿主识别中的作用,以及依赖初始细菌菌株充分代表种群多样性。未来工作可通过整合这些因素,利用能够生成数十万kb上下文窗口的基因组基础模型,构建统一模型来编码荚膜及其修饰信息。这样的模型将通过促进从充分代表的KL型到样本较少KL型的知识转移,以及整合下游过程(如噬菌体复制、宿主防御系统)数据来提升预测能力。总之,本研究通过将先进机器学习模型与进化视角相结合,创新性地建模了噬菌体-细菌相互作用。脱聚酶序列的重要作用和多功能性使本研究的范围超越治疗应用,在工业领域也具有潜在效用。