LorBin：通过多尺度自适应聚类与评估实现长读长宏基因组的高效分箱

时间：2025年10月25日

来源：Nature Communications

编辑推荐：

本研究针对长读长测序数据中未知物种识别和物种分布不平衡的挑战，开发了无监督分箱工具LorBin。该工具通过变分自编码器特征提取、双阶段多尺度自适应DBSCAN&BIRCH聚类及评估决策模型，在模拟和真实微生物组中生成的高质量MAGs数量提升15-189%，新分类单元识别能力提高2.4-17倍，为物种丰富的自然微生物组研究提供了高效解决方案。

随着长读长测序技术的革命性进展，宏基因组学领域迎来了前所未有的发展机遇。这项技术不仅能够实现更完整的微生物基因组组装，还为解析复杂微生物群落的结构和功能提供了强大工具。然而，当前的分箱方法在面对自然微生物组时仍存在明显局限——它们难以有效识别未知物种，且对物种分布极度不平衡的样本处理效果不佳。这种不平衡性在自然微生物组中尤为常见，往往表现为少数优势物种与大量稀有物种共存的现象，而传统分箱工具恰恰在捕捉这些稀有物种基因组时表现乏力。

为解决这些挑战，南京农业大学韦中等研究团队在《Nature Communications》上发表了题为"LorBin: efficient binning of long-read metagenomes by multiscale adaptive clustering and evaluation"的研究成果。该研究开发的LorBin工具采用创新的三模块架构：首先通过自监督变分自编码器(VAE)处理未知分类单元并提取超长contig的嵌入特征；其次采用面向复杂物种分布的双阶段多尺度自适应DBSCAN和BIRCH聚类算法；最后通过评估-决策模型进行重聚类以提高质量控制的置信度和完整MAGs的数量。

在技术方法层面，研究团队重点优化了特征提取和聚类两个核心环节。他们利用104例真实人肠道样本和CAMI II模拟数据集，通过PacBio HiFi测序技术获取长读长数据，采用hifiasm进行contig组装，并运用Minimap2进行序列比对。特征提取阶段比较了对抗自编码器(AAE)、连体网络(SemiAE)和变分自编码器(VAE)三种编码器的性能，最终选择VAE进行k-mer和丰度特征的嵌入学习。聚类阶段从12种算法中筛选出DBSCAN和BIRCH进行双阶段多尺度自适应聚类，结合基于单拷贝基因的簇质量评估模型和重聚类决策模型完成最终分箱。

分箱性能优化

研究团队通过系统比较发现，VAE在特征提取效率上显著优于其他编码器，在CPU和GPU环境下分别快2.3-25.9倍。双阶段聚类策略通过DBSCAN和BIRCH的互补效应，比单一聚类方法产生更多高质量和中质量分箱(hmBins)。评估-决策模型通过分析簇的边界、重叠和形状特征，有效提升了分箱质量，其中完整度及其与纯度的差值被确定为重聚类决策的主要贡献因素。

合成数据集基准测试

在包含5种生境49个样本的CAMI II模拟数据集上，LorBin在呼吸道、胃肠道、口腔、皮肤和泌尿生殖道分别恢复了246、266、422、289和164个高质量分箱(hBins)，较第二优的分箱工具SemiBin2提升7.5-22.7%。在聚类准确度方面，LorBin比竞争方法提高24.4-109.4%，同时在高F1分数和调整兰德指数(ARI)指标上表现最优。

不平衡数据集处理能力

通过构建从0.9(均等分布)到0.3(高度优势)的微生物均匀度梯度实验，LorBin在五种不同生境中均保持最高的轮廓系数，面积 under the silhouette coefficient curve平均值达0.20±0.01，显著优于其他分箱工具，证明其对物种分布不平衡样本的强大适应能力。

真实数据集表现

在104例真实人肠道PacBio HiFi宏基因组数据中，LorBin重建了224个高质量分箱和455个中质量分箱，hmBins数量比其他分箱工具平均提高106.1±30.0%和115.6±72.8%。值得注意的是，LorBin处理的分箱大小范围最广，成功利用了约29k个contig，这得益于其对不平衡宏基因组的优异处理能力。通过Transformer分类器对簇凸性分析发现，24.9%的hmBins形成凸簇，17.2%为凹簇，体现了LorBin对复杂形状簇的适应能力。

新分类单元发现

taxonomic分析显示，LorBin成功恢复了34个独特物种，是第二优工具SemiBin2的2.4倍。在物种、属和门水平上均表现出更高的多样性，其中部分hmBins无法通过GTDB注释，提示可能存在新物种。LorBin的相对serendipity达到20.4-63.5%，表明其在发现自然微生物组中稀有、新颖和未知物种方面的卓越能力。

讨论与展望

LorBin的创新性主要体现在四个方面：通过多尺度自适应聚类框架有效处理稀有和低丰度物种；发现更多独特和新颖分类单元；通过评估和重聚类步骤提高分箱质量和可靠性；在运行效率上显著优于现有工具。其核心优势源于密度-based DBSCAN和层次-based BIRCH聚类算法的互补整合，使工具能够适应不同形状、大小和均匀度的簇结构。

尽管取得了重要进展，研究团队也指出了若干未来改进方向：目前主要依赖单拷贝基因作为重聚类的质量评估指标，未来可整合覆盖相关性系数和k-mer共现模式等多基因组特征；针对超大规模数据集，需要进一步优化分布式计算策略；移动遗传元件(MGEs)的分箱仍是挑战，需要开发专门算法；此外，增强AI模型的可解释性，理解潜在空间中簇形状与基因组特征的关联，将有助于提升分箱准确性。

该研究通过自监督学习、自适应聚类和重聚类策略的有机整合，最大化了宏基因组测序数据的价值。LorBin作为一种准确、可扩展且适用于多种生境的分箱工具，为微生物发现和 microbiome研究提供了强有力的技术支持，特别是在处理含有未知分类单元和物种分布不平衡的自然样本方面展现出显著优势。未来将该工具扩展至宏转录组和宏表观基因组分析，将进一步深化对微生物相互作用、基因表达和代谢潜力的理解。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部