为突破这些技术瓶颈,研究团队在《Nature Communications》发表了题为"scLong: a billion-parameter foundation model for capturing long-range gene context in single-cell transcriptomics"的突破性研究。该工作构建了首个涵盖全基因组尺度的大规模基础模型,通过对4800万单细胞进行预训练,使模型参数规模达到十亿级别。scLong的创新性体现在两个维度:其一采用全局自注意力机制,首次实现对人类基因组中28,000个基因(含低表达基因)的完整建模,能够捕捉基因间的长程依赖关系;其二通过图卷积网络(GCN)整合Gene Ontology知识图谱,将基因功能语义关系嵌入特征表示。这种"数据驱动+知识驱动"的双轨策略,使模型在遗传/化学扰动响应预测、癌症药物反应预报等7项任务中全面超越现有基准模型。