基于结构比对的微生物基因组保守基因簇从头发现工具Spacedust的开发与应用

时间:2025年9月16日
来源:Nature Methods

编辑推荐:

为解决微生物基因组功能注释率低的瓶颈问题,Ruoshi Zhang团队开发了基于Foldseek结构比对的基因簇发现工具Spacedust。该研究通过对1,308个细菌基因组进行全比对分析,系统鉴定了72,843个保守基因簇,覆盖58%的基因,可精准识别95%的已知抗病毒防御系统(PADLOC标注)和生物合成基因簇(BGCs)。其创新的聚类P值(Pclu)和排序P值(Pord)统计方法,为微生物功能模块的从头发现提供了高效解决方案。

广告
   X   

微生物组学研究近年来通过宏基因组测序技术取得了重大进展,然而约40%的微生物基因仍缺乏功能注释,严重限制了从海量数据中挖掘生物学洞见的能力。在原核生物和病毒中,参与相同生物学过程的基因往往以保守基因簇(conserved gene clusters)的形式共定位,这种基因组背景信息为功能预测提供了重要线索。但现有工具存在三大局限:依赖序列比对导致远程同源检测灵敏度不足、需要预建参考数据库限制新基因簇发现、计算效率低下难以应对大规模基因组分析。

为突破这些限制,德国马克斯·普朗克研究所的Ruoshi Zhang、Milot Mirdita和Johannes Söding团队开发了Spacedust——一款基于蛋白质结构比对的基因簇从头发现工具。该研究通过整合Foldseek结构比对算法和创新的统计模型,实现了对微生物基因组中功能关联基因模块的高灵敏度检测,相关成果发表于《Nature Methods》。

关键技术方法包括:1)使用Foldseek进行快速敏感的蛋白质结构比对,结合MMseqs2序列搜索;2)设计聚类P值(评估基因邻近性)和排序P值(评估基因顺序保守性)的联合统计模型;3)对1,308个属水平非冗余细菌基因组(含420万基因)进行全比对分析;4)采用贪婪聚合层次聚类算法识别保守基因簇;5)通过PADLOC和AntiSMASH等工具验证抗病毒防御系统与BGCs的检测效能。

Spacedust算法设计

研究团队开发的双重统计模型通过公式Pclu≈m!2/((m-k)!2kq0k计算聚类显著性,用Pord=(1-n/k)/(2nn评估顺序保守性。算法从单基因簇开始迭代合并,直至联合评分S(C)=-logPclu-logPord+log(1-logPclu-logPord)达到最优。这种设计可容忍基因插入/缺失和微重组事件,识别部分保守的基因邻域。

细菌参考数据库分析

对1,308个代表性细菌基因组的全比对仅需72小时,鉴定出72,483个非冗余基因簇,覆盖58%的基因(35%未注释基因)。与KEGG模块对比显示,相邻基因对(i,i+4)的功能关联预测准确率显著高于随机基线(AUC=0.85)。

功能模块识别案例

在集胞藻PCC6803基因组中,Spacedust成功识别出光合系统II(PSII)基因簇(rubredoxin-ycf48-psbEFLJ)和藻胆体杆状复合体操纵子(cpcA-cpcB-cpcD-cpcC-cpcC2)。

对抗病毒防御系统的检测灵敏度达95%(5,255/5,520),对BGCs的F1分数(0.61)显著优于ClusterFinder(0.44)、DeepBGC(0.39)和GECCO(0.43)。

CRISPR-Cas新亚型发现

通过查询已知的17个III-E型CRISPR-Cas系统(含Cas7-11融合蛋白),在GTDB数据库中新发现7个实例,其中3个完整保留了所有组分。

该研究的创新性体现在三方面:1)首次将结构比对应用于基因簇发现,突破序列相似性限制;2)开发的统计模型可量化部分保守基因簇的显著性;3)开源工具Spacedust实现了大规模基因组的快速分析。这些进展为解析微生物"暗物质"基因功能、发现新型抗病毒系统和次级代谢途径提供了强大工具。研究者通过Google Colab笔记本进一步降低了使用门槛,将推动微生物组功能注释研究进入新阶段。

生物通微信公众号
微信
新浪微博


生物通 版权所有