基于RNA-Seq和CNV数据的动态Bernstein GCN算法用于泛癌症亚型分类

时间:2026年1月19日
来源:IEEE Transactions on Computational Biology and Bioinformatics

编辑推荐:

癌症亚型分类需捕捉多组学复杂交互,传统模型难以有效表征。本研究提出动态伯恩斯坦图卷积网络(DB-GCN),采用自适应谱传播和伯恩斯坦多项式实现拓扑感知学习,无需特征分解。DB-GCN支持单组学(RNA)或多组学(RNA+CNV)输入,通过基因-相互作用图构建模型,结合伯恩斯坦图流与组学多隐层感知机双流设计,同时捕捉局部和全局特征。在28个TCGA亚型中,DB-GCN在STRING、BioGRID和Co-expression数据集上分别达到86.05%、85.86%和85.88%的准确率,并通过SHAP分析发现KLK11、OR4F15等潜在生物标志物,其中12个前50基因关联KEGG癌症通路。该框架为泛癌亚型分类和生物标志物挖掘提供准确且可解释的图基解决方案。

广告
   X   

摘要:

癌症亚型分类需要捕捉复杂的多组学相互作用,而这些相互作用通常难以被传统的机器学习模型有效表示。图卷积网络(GCNs)利用了生物拓扑结构,但通常依赖于固定的传播机制,这限制了其对不同图结构的适应能力。本研究提出了动态伯恩斯坦图卷积网络(DB-GCN),这是一种新颖的架构,它采用自适应的谱传播方法,利用伯恩斯坦多项式实现无需特征分解的拓扑感知学习。DB-GCN支持单组学(RNA)和多组学(RNA+CNV)数据输入,该框架将基因表示为节点,将基因-基因、蛋白质-蛋白质以及共表达网络中的相互作用表示为边。双流设计结合了伯恩斯坦图流和多组学多层感知器,以捕获局部和全局特征。在针对28种TCGA亚型的泛癌症实验中,DB-GCN在STRING数据集上的准确率为86.05% ± 0.83%,在BioGRID数据集上的准确率为85.86% ± 0.98%,在2000基因多组学数据集上的准确率为85.88% ± 0.71%。基于SHAP的分析识别出了潜在的生物标志物基因,如KLK11、OR4F15和UBE2DNL,其中前50个基因中有12个属于KEGG癌症通路。这些结果表明,DB-GCN为泛癌症亚型分类和精准肿瘤学中的生物标志物发现提供了一个准确且可解释的基于图的框架。

生物通微信公众号
微信
新浪微博


生物通 版权所有