为此,同济大学张勇团队在《Cell Genomics》发表了题为“ChromBERT: A foundation model for learning the syntax of transcriptional regulatory networks”的研究论文,开发了基于Transformer架构的基因组调控基础模型ChromBERT。该模型通过预训练学习6,391个人类cistrome的组合结合模式,生成可解释的转录调控网络嵌入,并通过提示微调技术实现在未见细胞类型中的精准预测。
关键技术方法包括:基于Cistrome Data Browser收集大规模ChIP-seq/ATAC-seq数据并质量控制;使用FlashAttention-2优化长序列处理;采用提示微调策略整合DNase-seq或单细胞转录组数据;通过嵌入相似性分析识别关键调控因子。
ChromBERT提升未见细胞类型中的cistrome插补性能
通过DNase-seq提示微调,ChromBERT-D在241个测试cistrome上的平均AUPRC达到0.554,显著优于基线方法(0.271)。模型能准确预测细胞类型特异性结合位点,即使在染色质可及性相似的区域也能区分不同细胞类型的调控因子结合模式。与Avocado相比,ChromBERT在57个cistrome上表现出更优性能(AUPRC: 0.659 vs 0.514)。