编辑推荐:
为应对全球抗生素耐药性(AMR)危机,研究人员整合全基因组测序(WGS)与机器学习(ML),开发出可预测多重耐药机制的模型。研究表明,深度学习(DL)算法在解析复杂基因型-表型关系中表现突出,但需提升模型可解释性以推动临床应用。该研究为精准诊断和抗菌管理提供了创新工具。
论文解读
抗生素耐药性(AMR)已成为全球公共卫生领域的重大威胁。随着细菌通过基因突变和水平基因转移不断演化出新的耐药机制,传统药物研发的速度已远远落后于耐药菌的出现。此外,现有的抗生素敏感性测试(AST)方法不仅耗时耗力,而且难以全面捕捉耐药性的复杂分子机制。在这一背景下,研究人员迫切需要一种能够快速、精准预测AMR并揭示其分子基础的新技术。为此,来自美国的研究团队在《TRENDS IN Microbiology》上发表了一篇综述,系统探讨了多组学技术与机器学习(ML)在AMR预测中的应用潜力。
在这项研究中,研究团队首先指出,传统的基于规则的方法在处理复杂的AMR机制时显得力不从心,而机器学习算法则能够通过整合多模态数据集,自动识别出隐藏在海量数据中的规律。特别是深度学习(DL)算法,尽管其模型可解释性较差,但在捕捉基因型与表型之间的非线性关系方面表现出色。例如,卷积神经网络(CNN)能够高效处理基因组序列数据,从而显著提高预测准确性。
为了克服单一物种数据不足的问题,研究人员提出了一种跨物种的通用模型。该模型通过整合大肠杆菌(Escherichia coli)、结核分枝杆菌(Mycobacterium tuberculosis)、沙门氏菌(Salmonella enterica)和金黄色葡萄球菌(Staphylococcus aureus)中与环丙沙星耐药相关的单核苷酸多态性(SNPs)和可移动基因元件,实现了对多种物种的耐药性预测。尽管在测试不同属的物种如肺炎克雷伯菌(Klebsiella pneumoniae)时表现不佳,但这一研究为开发更广泛的通用模型奠定了基础。
在深入挖掘耐药机制方面,研究人员采用了分层多深度学习框架(HMD-ARG)。该框架结合了基因组数据和序列比对技术,利用多层CNN对基因进行分类,不仅能够识别抗生素抗性基因(ARGs),还能揭示其背后的耐药机制、可移动基因元件及其影响的抗生素类别。然而,HMD-ARG需要组装完整的基因组序列作为输入,计算负担较大。为此,后续研究引入了蛋白质语言模型(PLMs),如预训练的ProteinBERT,通过整合转录组数据,成功注释了特定ARGs中的氨基酸基序,显著提升了模型的生物学解释性。
除了基因组学,研究人员还探索了转录组学、蛋白质组学和代谢组学等多组学技术在AMR预测中的应用。例如,一项研究通过整合转录组数据和基因组ML模型,显著提高了铜绿假单胞菌(Pseudomonas aeruginosa)的耐药性预测性能。此外,基质辅助激光解吸电离飞行时间质谱(MALDI-TOF)和表面增强拉曼光谱(SERS)等光谱技术也被用于量化蛋白质和代谢物,从而识别与耐药性相关的生物标志物。这些技术的结合不仅提高了预测的准确性,还为实时检测细菌细胞内的耐药性生物标志物提供了可能。
在模型可解释性方面,研究人员采用了多种策略来提升模型的透明度。例如,通过引入注意力机制或使用Shapley值分析模型输出,研究人员能够识别出对预测结果贡献最大的特征。这些方法不仅有助于理解模型的决策过程,还能为临床医生提供更具生物学意义的解释,从而增强他们对模型预测结果的信任。
为了推动多组学数据与ML在临床中的应用,研究团队还开发了多个用户友好的工具和在线平台,如HMD-ARG和BV-BRC(细菌和病毒生物信息学资源中心)。这些平台将计算预测与湿实验室研究相结合,极大地促进了跨学科合作。然而,要实现更广泛的临床应用,仍需克服模型可重复性和普适性等挑战。为此,研究人员强调了元数据完整性的重要性,建议在模型训练过程中纳入隔离来源和宿主属性等因素,以提高预测的准确性。
综上所述,这项研究通过整合多组学技术与机器学习,显著提升了AMR预测的准确性和生物学解释性。研究结果表明,跨物种通用模型和分层多深度学习框架在解析复杂耐药机制方面具有巨大潜力。此外,多组学数据的整合和可解释性策略的引入,为临床医生提供了更全面的决策支持工具。未来,随着技术的不断进步和跨学科合作的深入,多组学与机器学习有望在AMR诊断和抗菌管理中发挥更大的作用,从而有效遏制耐药菌的传播,保护全球公共卫生安全。
主要技术方法
研究人员采用了多种机器学习方法,包括随机森林(RF)、支持向量机(SVM)、逻辑回归(LR)、梯度提升(GB)、k-最近邻(KNN)、决策树(DT)、AdaBoost、轻梯度提升机(LightGBM)、多层感知器(MLP)、卷积神经网络(CNN)和蛋白质语言模型(PLMs)。此外,还使用了基质辅助激光解吸电离飞行时间质谱(MALDI-TOF)和表面增强拉曼光谱(SERS)等技术来获取多组学数据。
研究结果
通过整合多组学数据和机器学习方法,研究人员成功开发了多种预测模型,显著提高了抗生素耐药性(AMR)预测的准确性。具体而言,跨物种通用模型在预测多种细菌的耐药性方面表现出色,而分层多深度学习框架(HMD-ARG)则能够深入解析耐药机制。此外,蛋白质语言模型(ProteinBERT)的应用进一步提升了模型的生物学解释性。多组学数据的整合不仅提高了预测的准确性,还为实时检测耐药性生物标志物提供了可能。
研究结论和讨论
这项研究表明,机器学习与多组学技术的结合在抗生素耐药性(AMR)预测中具有巨大潜力。跨物种通用模型和分层多深度学习框架(HMD-ARG)为解析复杂耐药机制提供了有效工具,而蛋白质语言模型(ProteinBERT)的应用则增强了模型的生物学解释性。此外,多组学数据的整合和可解释性策略的引入,为临床医生提供了更全面的决策支持工具。然而,要实现更广泛的临床应用,仍需克服模型可重复性和普适性等挑战。未来,随着技术的不断进步和跨学科合作的深入,多组学与机器学习有望在AMR诊断和抗菌管理中发挥更大的作用,从而有效遏制耐药菌的传播,保护全球公共卫生安全。
生物通 版权所有