评估水平基因转移检测中的集成学习方法

时间:2026年5月30日
来源:Scientific Reports

编辑推荐:

水平基因转移(HGT)被广泛认为是抗生素耐药性(AMR)传播的主要驱动因素,而基因组岛(GIs)是促进其传播的驱动因素之一。检测GIs对于改善AMR监测至关重要。已开发了许多用于GIs检测的计算方法,包括机器学习(ML)领域的近期进展。其他领域的多项研究表明,

广告
   X   

水平基因转移(HGT)被广泛认为是抗生素耐药性(AMR)传播的主要驱动因素,而基因组岛(GIs)是促进其传播的驱动因素之一。检测GIs对于改善AMR监测至关重要。已开发了许多用于GIs检测的计算方法,包括机器学习(ML)领域的近期进展。其他领域的多项研究表明,ML模型的性能取决于数据表示。在其他基因组学任务中,集成学习中结合多种数据表示已被证明可以提高性能。然而,这种方法尚未在GIs检测中得到评估。为此,研究人员研究了在集成学习中整合多样化数据表示的有效性,以进行GIs检测,特别是针对分类任务。然后,研究人员评估了其在定位通过HGT获得的基因簇——即GIs——在基因组序列中的适用性。研究人员实现了一个两阶段集成选择策略来确定数据表示的最佳组合。研究人员的集成选择策略表明,在集成分类器中结合低相关性的数据表示,在分类任务中产生比单一表示略高的召回率(Recall),但该改进不具统计学显著性。尽管如此,集成分类器在定位GIs方面并未表现更好,这表明其跨任务泛化能力仍然受限。这一发现为未来研究通过重新定义GIs检测问题公式来推进该领域提供了机会。
### 研究背景与问题
水平基因转移(HGT)是细菌进化中的关键过程,通过该过程遗传物质在生物体之间传递,而非通过亲代-子代遗传。HGT在塑造微生物基因组、驱动适应性和促进性状(如抗生素耐药性(AMR))传播方面起着至关重要的作用。HGT的很大一部分由基因组岛(GIs)促进或已经促进。已知移动遗传元件(MGEs),如质粒、原噬菌体和整合元件,可促进基因组岛(GIs)的动员,这些GIs是通过HGT获得的不同染色体区域。这些GIs通常编码新功能,包括毒力因子和AMR基因。因此,检测GIs对于理解基因组进化、微生物生态学和公共卫生至关重要。此外,追踪促进AMR基因传播的传播因子可以改进AMR监测系统。

现有的方法主要基于组成分析、比较基因组学或两者的结合,近期机器学习(ML)方法也取得了进展。先前的研究表明,机器学习(ML)在检测水平基因转移(HGT)方面的有效性受到数据表示的影响。研究中识别出一种显著的数据表示用于HGT检测。然而,研究人员也识别出了其他数据表示。这些数据表示与占主导地位的数据表示相关性低,但展现出相当的效能。这表明整合这些数据表示可能增强HGT模式的学习。根据基因组中的功能,基因组信息在不同尺度上编码,从十碱基对到百万碱基对不等。这些基因组信息可以通过不同的数据表示进行量化,例如GC含量。通过从多个表示视角审视基因组序列,可以更全面、整体地捕捉其结构和信号。结合多种数据表示使模型能够利用互补信息,减轻遗漏关键信号的风险,并在增强子预测、甲基化位点识别和基因组变异分类等任务中提高预测准确性。此外,整合来自不同性质(包括基于组成和物理化学性质)的各种数据表示已被证明可以提高抗菌肽(AMP)的预测能力。这一发现表明,类似的策略可能对检测HGT有效。

结合数据表示有两种方法:混合(hybrid)和融合(fusion)。混合方法将多种数据表示组合成一个单一特征集来训练单个模型。融合方法为每种数据表示使用单独的模型,然后使用集成学习(ensemble learning)组合其输出。先前的一项研究将不同的数据表示作为特征组合来训练支持向量机(SVM)模型,证明了混合方法对于检测更广泛的HGT事件至关重要。集成学习整合了多个模型的优势,以产生更可靠和准确的预测,提供了一个潜在有效的解决方案。研究表明,集成模型在各种生物任务中优于个体模型。然而,尚无研究评估集成学习对HGT检测的有效性。

本研究中,研究人员研究了使用集成学习方法结合多种数据表示(特别是低相关性和高性能的数据表示)进行GIs检测的有效性。本研究专注于将GIs作为基因组内的一个独特染色体区域进行检测,而非特定的MGEs。研究人员使用了44种数据表示和5种机器学习模型作为集成分类器的基分类器。由于使用了大量数据表示和基分类器,研究人员采用了两阶段集成选择策略。首先,研究人员修剪了集成分类器的候选者。“候选者”是基于特定数据表示编码的数据集训练的基分类器。然后,研究人员应用了集成增长方法来选择最优的候选者子集。研究人员比较了不同的集成方法,并考察了使用异质(heterogeneous)和同质(homogeneous)基分类器的差异。最后,研究人员评估了集成分类器在分类任务和GI边界预测任务上的性能。

### 主要研究方法
本研究使用了Benbow数据集,该数据集包含来自167个细菌基因组的GIs和非GIs序列,其中147个基因组用于训练,20个基因组用于测试,共3135条序列。研究人员首先利用iLearnPlus工具包将序列转换为44种数据表示。接着,为每种数据表示训练了5种基分类器(朴素贝叶斯、逻辑回归(LR)、决策树(DT)、支持向量机(SVM)和随机森林(RF)),并采用分层分组5折交叉验证(重复5次)来评估性能,为每种组合选择最佳分类器作为候选。然后,实施了一个两阶段集成选择策略:第一阶段通过多目标优化(最大化多样性并最小化错误率)进行集成剪枝,采用Cohen‘s kappa系数衡量多样性,应用帕累托前沿(pfront)和凸包(chull)解选择候选者;第二阶段通过集成增长方法,使用软投票(voting_soft)、硬投票(voting_hard)和堆叠(stacking)三种集成方法,从剪枝后的候选者中选出最优子集构建集成分类器。最终,评估所选集成分类器与最佳单一分类器在分类任务和GI边界预测任务上的性能。

### 研究结果
**不同数据表示和分类器的性能**
通过对44种数据表示和5种分类器的组合进行交叉验证,研究人员发现随机森林(RF)对数据表示的变化更稳健,而支持向量机(SVM)在较长的基于k-mer的表示上性能优于RF。为避免重复,研究人员为每种表示选择最佳分类器,得到44个候选者。

**集成分类器**
研究人员采用两阶段策略构建集成分类器。第一阶段(剪枝)通过帕累托前沿和凸包解将候选者数量限制为20。第二阶段(增长)使用三种集成方法选择最优子集。结果显示,投票策略(voting_soft, voting_hard)的性能随基分类器数量增加先升后降,而堆叠(stacking)方法的性能相对稳定。最佳集成分类器(投票软策略)由RCKmer-7/SVM和Subsequence/RF组成。与最佳单一分类器(RCKmer-7/SVM)相比,集成分类器在分类任务上召回率(Recall)略高,但经过校正重复k折交叉验证检验和Bonferroni-Holm校正后,差异无统计学显著性。

**异质与同质基分类器比较**
研究比较了使用异质基分类器(不同数据表示搭配不同分类器)与同质基分类器(相同分类器)构建的集成分类器性能。结果表明,在所有集成方法和解决方案中,异质基分类器性能显著优于同质基分类器,但决策树、随机森林和SVM除外。

**评估集成分类器**
在分类任务评估中,两个集成分类器(投票软和堆叠)比单一分类器捕获了更多阳性样本。在Benbow测试集的20个物种上,集成分类器总体优于单一分类器,但在6个物种上被单一分类器或Subsequence/RF超越。集成分类器(投票软和堆叠)的召回率分别为0.966和0.978,高于单一分类器(0.959),且bootstrap置信区间显示在召回率、F1分数、MCC和准确率上均优于单一分类器,但McNemar检验未显示统计学显著差异。

**边界预测任务评估**
为评估集成分类器定位GIs边界的能力,研究人员采用Banerjee等人开发的流水线,用滑动窗口(默认窗口大小10,000 bp,阈值0.5和0.8)扫描基因组。评估发现,投票软集成方法在此任务中表现最差(MCC仅0.22),而堆叠集成方法略优于单一默认超参数分类器(MCC 0.59 vs 0.58)。使用最佳超参数的单一分类器在几乎所有评估指标上超越了所有其他基线方法。图示显示,在不同阈值和窗口大小下,投票软集成分类器性能对阈值敏感且始终不如单一分类器;堆叠集成分类器在阈值0.8时与单一分类器性能相当,且在窗口大小≥9,000 bp时性能接近单一分类器。在大肠杆菌O157:H7的案例中,最佳单一分类器预测了更多GI边界,而投票软集成减少了预测并遗漏了部分真实GI,堆叠集成则可能预测出新的GI区域。

### 讨论与结论
本研究探讨了在集成学习中结合不同数据表示用于水平基因转移(HGT)检测的有效性。结果表明,结合低相关性的数据表示(如RCKmer-7和Subsequence)可以提升性能,集成分类器在分类任务中能捕获更多阳性样本,但改进未达统计显著性。研究揭示了异质基分类器通常优于同质基分类器。然而,关键发现是,尽管集成分类器在分类任务中表现良好,但在GI边界预测任务中并未表现出更好的性能,甚至在某些情况下更差。这突显了当前基于机器学习的GI检测流程存在局限性:首先,为分类任务训练的模型并不直接适用于全基因组扫描任务;其次,当前将问题分解为分类和边界预测两个任务的框架可能不理想;最后,评估边界预测时在核苷酸水平计算精确重叠可能掩盖了模型的真实潜力。研究人员推测,投票软方法对阈值敏感是因为其简单平均了原始概率,而堆叠方法通过元学习器学习组合方式,因而更稳健。

基于此,本研究得出以下结论:在集成学习中结合不同的、尤其是低相关的数据表示对HGT检测有价值;集成分类器能捕获更多阳性样本,但跨任务泛化能力有限。这强烈提示需要重新思考HGT检测的问题定义,例如将其重构为全基因组扫描或回归问题,而非当前的两步流水线。未来研究应致力于开发能够感知基因组上下文的学习模型,并建立更可靠的基准数据集和评估框架,以推动该领域的发展。

生物通微信公众号
微信
新浪微博


生物通 版权所有