为解决这些挑战,南京农业大学韦中等研究团队在《Nature Communications》上发表了题为"LorBin: efficient binning of long-read metagenomes by multiscale adaptive clustering and evaluation"的研究成果。该研究开发的LorBin工具采用创新的三模块架构:首先通过自监督变分自编码器(VAE)处理未知分类单元并提取超长contig的嵌入特征;其次采用面向复杂物种分布的双阶段多尺度自适应DBSCAN和BIRCH聚类算法;最后通过评估-决策模型进行重聚类以提高质量控制的置信度和完整MAGs的数量。在技术方法层面,研究团队重点优化了特征提取和聚类两个核心环节。他们利用104例真实人肠道样本和CAMI II模拟数据集,通过PacBio HiFi测序技术获取长读长数据,采用hifiasm进行contig组装,并运用Minimap2进行序列比对。特征提取阶段比较了对抗自编码器(AAE)、连体网络(SemiAE)和变分自编码器(VAE)三种编码器的性能,最终选择VAE进行k-mer和丰度特征的嵌入学习。聚类阶段从12种算法中筛选出DBSCAN和BIRCH进行双阶段多尺度自适应聚类,结合基于单拷贝基因的簇质量评估模型和重聚类决策模型完成最终分箱。分箱性能优化研究团队通过系统比较发现,VAE在特征提取效率上显著优于其他编码器,在CPU和GPU环境下分别快2.3-25.9倍。双阶段聚类策略通过DBSCAN和BIRCH的互补效应,比单一聚类方法产生更多高质量和中质量分箱(hmBins)。评估-决策模型通过分析簇的边界、重叠和形状特征,有效提升了分箱质量,其中完整度及其与纯度的差值被确定为重聚类决策的主要贡献因素。合成数据集基准测试在包含5种生境49个样本的CAMI II模拟数据集上,LorBin在呼吸道、胃肠道、口腔、皮肤和泌尿生殖道分别恢复了246、266、422、289和164个高质量分箱(hBins),较第二优的分箱工具SemiBin2提升7.5-22.7%。在聚类准确度方面,LorBin比竞争方法提高24.4-109.4%,同时在高F1分数和调整兰德指数(ARI)指标上表现最优。不平衡数据集处理能力通过构建从0.9(均等分布)到0.3(高度优势)的微生物均匀度梯度实验,LorBin在五种不同生境中均保持最高的轮廓系数,面积 under the silhouette coefficient curve平均值达0.20±0.01,显著优于其他分箱工具,证明其对物种分布不平衡样本的强大适应能力。