抗生素抗性基因在环境微生物组中的扩散是公共卫生面临的重大且日益增长的威胁,迫切需要精确高效的工具进行抗性风险监测。现有方法往往依赖于基于重叠群的定量或缺乏全面的风险指数,限制了其准确性和实用性。为应对这一挑战,研究人员开发了 MetaRanker 这一新型计算流程。
MetaRanker 的核心在于对抗生素抗性进行综合风险评估。它将 ARGs、MGEs 和 VFs 定义为风险元素。其工作流程如下:首先对质量控制后的宏基因组读长和组装的 contigs 进行处理,使用 BLASTn 对 contigs 进行 RE 注释,并基于注释信息提取 RE 片段,利用其在 contigs 上的物理共定位构建共现向量和样本级共现矩阵。通过 CD-HIT 对冗余 RE 片段进行聚类以生成非冗余 RE 集,再使用 BWA(短读长)或 Minimap2(长读长)将该集合回比到读长上以计算覆盖深度,进而基于片段长度和测序深度计算相对丰度,形成风险丰度矩阵。其风险模型为:对于一个 contig C,其风险向量为 Q(C) = [qARG (C), qMGE (C), qVF (C)],代表该 contig 上 ARG、MGE 和 VF 的注释计数。样本的共现矩阵 R 是一个 m×3 的矩阵(m 为含有 RE 的 contig 数量)。共现分数定义为所有 RE 注释总数除以 m,反映危险 contigs 上的 RE 密度。每个 RE 的聚合碱基数(bRE )是其所有片段长度(lRE )与测序深度(dRE )乘积之和,相对丰度(d̅RE )则是其在所有读长总碱基中的比例。样本的风险向量 r⃗ 由三种 RE 的加权相对丰度求和后乘以其权重因子得出。为了标准化并使大多数风险模量值介于 1 和 100 之间,固定权重因子设定为 wARG = 5×104 ,wMGE = 1×104 ,wVF = 2×104 。风险模量定义为风险向量的模长,最终的综合风险指数 RI = 风险模量 × 共现分数。该指数整合了 RE 的丰度及其潜在共转移能力,提供了样本抗生素抗性风险的统一度量。
MetaRanker 的参考数据库整合了综合抗生素抗性数据库(CARD)、毒力因子数据库(VFDB)和集成了 ISfinder、TnCentral、INTEGRALL 和 PlasmidFinder 的 MGE 数据库,并通过聚类和去重叠确保了分类的明确性,最终构建的集成数据库大小仅为 29.6 MB。
通过模拟样本和真实样本(共计 353 个)的验证,MetaRanker 展现了出色的性能。在模拟梯度污染样本中,其风险指数与污染程度高度正相关(R2 ≈ 1),而 MetaCompare 2.0 的生态风险得分和人类健康风险得分则相关性有限。对下采样数据的评估显示,MetaRanker 的风险指数随测序深度增加而趋于稳定,并估算出不同环境样本的最低测序需求(人类肠道/粪便约 0.5 Gb,市政废水 3-5 Gb,自然环境样本 5-10 Gb 或更多)。在对 48 个真实样本的分析中,MetaRanker 的风险指数显示中等的组内一致性,但其值的离散度更大,表明其具有更强的风险区分能力。此外,与 MetaCompare 2.0 相比,其运行时间减少了 50% 以上,计算效率显著提升。
MetaRanker 的风险元素定量准确性通过与两种传统方法(基因预测和直接读长比对)比较得到验证,结果显示高度一致(R2 > 0.8306,ICC(3,1) > 0.95)。同时,该工具对组装工具的选择具有鲁棒性,使用 Megahit 和 MetaSPAdes 得到的风险指数高度一致。
MetaRanker 在多样环境样本中的应用展示了其卓越的风险区分能力。分析显示,城市样本(UE,RI=81.01)的 RI 显著高于野外样本(WE,RI=2.60);医院样本(HO,RI=114.51)的 RI 显著高于市政污水(MS,RI=51.82),凸显了医院作为抗性基因传播热点的关键角色。污水处理显著降低了 RI(从进水的 51.82 降至出水的 13.23),但出水的残余风险仍远高于自然环境背景值。人类粪便(HF)与医院样本风险无显著差异,提示了临床与社区环境的抗性组库共享。三维风险空间可视化进一步显示,RE 丰度更高的样本风险模量更大(距原点更远),共现分数更高的样本则具有更大的水平基因转移潜力。
对 343 个短读长样本的高风险 RE 分析揭示,氨基糖苷类、磺胺类和四环素类抗性基因在丰度、共现频率和流行率方面均表现突出,反映了这些广谱抗生素的广泛使用。在移动遗传元件中,转座子和插入序列占主导地位。毒力因子则主要与假单胞菌属相关,编码载体蛋白和鞭毛组件等。这一高风险的 RE 图谱为抗生素管理提供了重要依据。
MetaRanker 的优势和意义在于它提供了一个用户友好、可本地部署、整合了丰度与共现信息的统一风险指数评估框架,支持长短读长测序数据,计算高效,且比现有工具具有更强的风险区分能力。其精确的读长定量计算、固定的权重因子以及综合计算公式(风险模量乘以共现分数),使得其风险指数能够更灵敏地反映样本间的风险差异。该工具还能识别和可视化携带多个共定位 RE 的 contigs,为研究水平基因转移事件提供了便利。
其在环境监测和临床应用中具有广阔前景。MetaRanker 的风险指数可作为环境监测和循证决策的实用指标,用于评估污水处理效果、追踪不同生态系统中的抗性趋势、识别热点,并优化抗生素管理。在临床上,该工具也可用于患者样本分析,辅助耐药感染诊断和指导个体化治疗。
MetaRanker 经过了广泛验证,在固定参数下结果一致,与标准基因定量方法结果吻合,并且完全兼容第三代测序数据,尽管长读长数据因重叠群更长而系统地获得更高的共现分数。其四步定量流程(注释、筛选、去冗余、比对)和在不同组装工具下的稳定性已得到验证。
其局限性包括:为优化计算效率进行了激进的序列聚类(85% 一致性)并去除了跨数据库重叠条目,这可能会遗漏密切相关的变异体或多功能元件,但其风险评估准确性不受影响。MetaRanker 不区分生态风险与人类健康风险,这符合“一体化健康”理念,且避免了因物种分箱困难而带来的额外测序负担。未来的发展方向包括:基于共现模式或现有风险分级方案的精炼 RE 权重分配、整合宿主微生物组(如 ESKAPE 病原体)信息以增强风险预测、增强致病性数据库,以及探索使用宏基因组组装基因组(MAGs)进行共现分析等。
总而言之,MetaRanker 作为一个高效、准确的宏基因组样本抗生素抗性组风险评估计算流程,整合了 ARGs、MGEs 和 VFs 的丰度与共现信息,为环境监测和风险管理提供了一个强大且可扩展的解决方案。
打赏