优化Kraken系列工具过滤标准以提升古宏基因组数据分类谱分析的准确性

时间：2026年5月18日

来源：Frontiers in Microbiology

编辑推荐：

分类谱分析是古宏基因组分析的关键组成部分，但其容易产生假阳性识别。特别是来自Kraken系列的分类学工具，如Kraken2和KrakenUniq，对过滤选项的选择高度敏感。为解决此问题，研究人员已提出了多种过滤方法。在本研究中，研究人员利用模拟的微生物和环境古

分类谱分析是古宏基因组分析的关键组成部分，但其容易产生假阳性识别。特别是来自Kraken系列的分类学工具，如Kraken2和KrakenUniq，对过滤选项的选择高度敏感。为解决此问题，研究人员已提出了多种过滤方法。在本研究中，研究人员利用模拟的微生物和环境古宏基因组数据，对Kraken系列工具的不同过滤策略进行了全面的基准测试。研究人员基于重建真实情况的敏感性与特异性之间的平衡（F1分数）评估了这些方法，并提出了一种针对古宏基因组数据集中特定测序深度的优化阈值设定策略。

古宏基因组学中Kraken工具过滤策略的优化与评估

一、研究背景、问题与研究目的

分类学分析是研究古今微生物群落、揭示生态系统演变的重要工具。Kraken系列工具（如Kraken2和KrakenUniq）因其高敏感性和灵活性，在古宏基因组学领域得到广泛应用。然而，这些工具会产生非常详细的分类学分析输出，若不经适当过滤，其结果可能难以解读且包含大量假阳性。现有研究表明，过滤策略的选择会极大影响分析结果的特异性与敏感性。但以往的研究多侧重于比较不同分类学工具本身，而工具间性能的差异可能更多源于其不同的输出过滤阈值和置信度评分机制，而非分类算法本身的根本差异。因此，对Kraken工具输出结果的最佳过滤策略进行系统性评估，尤其是在古宏基因组学这一面临低覆盖度、短读长、DNA降解和现代污染等特殊挑战的领域，显得尤为重要。本研究旨在通过全面的基准测试，评估Kraken系列工具的不同过滤方法，并为古宏基因组数据集提供一种优化的过滤策略，以在敏感性与特异性之间取得最佳平衡。该项研究发表在《Frontiers in Microbiology》期刊上。

二、关键研究方法概要

为评估不同过滤方法，研究人员利用gargammel工具生成了三套模拟的古宏基因组数据集：常规微生物数据集、病原体富集微生物数据集以及环境（沉积物）古DNA数据集。前两者模拟了古斯堪的纳维亚人样本中典型的微生物组成，后者则模拟了多种生物贡献均衡及单一物种（如猛犸象）占主导的两种情景。所有模拟的古DNA读段均加入了脱氨基损伤和Illumina测序错误。随后，使用KrakenUniq和Kraken2（采用k-mer大小为31的非冗余NCBI NT数据库）对模拟读段进行分析。研究人员基于F1分数，对六种不同的Kraken过滤指标（包括独有k-mer数量(K)、分配的读段数(R)、k-mer覆盖率(C)及其组合与改进的E值等）在广泛的阈值范围内进行了基准测试。此外，还使用六个来自三个已发表研究的真实数据集样本对结论进行了验证。

三、研究结果

结果

优化过滤标准以提升真实性重建

为了通过KrakenUniq优化真实性（ground truth）重建，研究人员在同时应用覆盖深度（分配读段数）和覆盖广度（独有k-mer数）过滤器的条件下，探索了一系列阈值。常规微生物数据集的二维F1分数热图显示，仅凭独有k-mer数量就足以达到最高的F1分数，无需对分配读段数进行过滤。具体而言，至少1000个独有k-mer和0个分配到分类单元的读段这一阈值提供了最佳过滤效果。在微生物病原体富集数据集和环境/沉积物古DNA数据集上也观察到了类似结论，其最佳独有k-mer阈值分别为1000和1500，而分配读段数阈值仍接近0。

评估个体过滤指标的性能

研究人员进一步研究了单个Kraken过滤指标如何影响分类学分配准确性。对六个不同的过滤器进行的分析显示，在所有三个模拟数据集中，F1分数均呈现先急剧上升达到峰值，随后逐渐下降或趋于平稳的趋势。这表明相对严格的过滤阈值（保守策略）通常比宽松策略更有益。在所有测试的过滤器中，K-过滤器（独有k-mer数量）在所有数据集中产生的F1分数最高，而K/R过滤器和改进的E值过滤器产生的F1分数则最低。E值过滤器在常规和病原体富集数据集上表现与K、R、C过滤器相当，但其阈值（0.001–0.1）的含义更难以直观解释。

过滤指标间相关性分析

对KrakenUniq各指标生成的斯皮尔曼（Spearman）相关性热图分析显示，分配到分支的读段百分比、分配到分类单元的读段总数、分配到分类单元的读段数以及独有k-mer数量之间存在高度相关性（相关系数约0.7至0.9）。相比之下，k-mer覆盖率以及k-mer重复数的相关性较弱。这解释了为何基于独有k-mer数或分配读段数进行过滤，在真实性重建上产生了相似的F1分数。

KrakenUniq与Kraken2的对比

尽管KrakenUniq依赖于独有k-mer数量，而Kraken2使用独有/唯一的最小哈希（minimizers）数量，但在数据库使用相同参考基因组并进行详尽过滤优化后，两者的性能大体相当，KrakenUniq仅显示出轻微的优势。值得注意的是，Kraken2要达到与KrakenUniq相当的准确度，所需的独有/唯一最小哈希器最优数量至少是KrakenUniq独有k-mer最优数量的2-3倍。

测序深度对最优阈值的影响

研究发现，独有k-mer的最优阈值与测序深度存在显著的线性关联，应针对深度测序的宏基因组样本进行调整。最优独有k-mer数量随测序深度近似线性增加，其关系遵循以下近似公式：最优独有k-mer数 ~ 0.002 * 测序深度，即大约每100,000个读段对应200个独有k-mer。这个简单的比例关系在分析深度测序的宏基因组样本时具有指导意义。

四、讨论与结论

讨论

本研究系统评估了KrakenUniq和Kraken2输出的不同过滤策略。结果表明，基于独有k-mer数量的过滤是优化分类分配准确性的最有效策略。在同时应用K和R过滤器时，K过滤器在F1分数上的影响占主导地位，R过滤器的贡献微乎其微，甚至可能降低重建精度。这意味着多维过滤（如使用所有KrakenUniq指标）可能并不占优势，单独的K过滤器就足以实现最佳性能。然而，如果只使用K以外的单一指标（如R或C）进行过滤，则仍应使用适中的阈值以最大化重建精度。

本研究专注于Kraken系列工具的过滤策略比较，而非对所有可用分类学工具进行全面基准测试，主要原因在于不同工具基于根本不同的原理、过滤器和分析策略，进行公平比较极具挑战性。Kraken系列工具因其计算效率和高灵活性（如允许构建自定义数据库）而在古宏基因组学界占据主导地位。

此外，本研究基于模拟数据集，虽然有利于受控比较，但可能无法完全捕捉真实世界宏基因组样本的全部复杂性。尽管如此，对少量真实数据集样本的验证表明，F1分数随过滤阈值变化的整体趋势与模拟数据一致，支持了研究结论的稳健性。数据库选择（此处为NCBI NT）也可能引入偏差，但其在物种多样性上的优势对于本研究涵盖广泛生命树至关重要。

结论

本研究详细考察了Kraken系列分类学分析工具的不同过滤策略，并提供了强有力的证据，表明在古宏基因组学中，基于独有k-mer数量进行过滤是分类学分析的最佳策略。通过应用这种方法，研究人员可以在最小化假阳性分类分配的同时，提高微生物和环境谱分析的准确性。此外，KrakenUniq和Kraken2的可比性能凸显了过滤优化相对于分类学工具选择的重要性。这些发现有助于完善宏基因组数据分析的最佳实践，并为适应不同测序深度和研究设计的过滤策略提供了实用指南。