多模态学习实现单细胞数据的对话式探索:CellWhisperer人工智能模型的开发与应用

时间:2025年11月12日
来源:Nature Biotechnology

编辑推荐:

本研究针对单细胞RNA测序(scRNA-seq)数据解读复杂、依赖专业知识的挑战,开发了名为CellWhisperer的多模态人工智能模型。该模型通过对比学习整合超百万个转录组与AI生成的文本注释,构建了转录组与自然语言的联合嵌入空间,并基于微调的大语言模型(LLM)实现对话式单细胞数据交互分析。研究证实CellWhisperer在零样本预测细胞类型、疾病和组织来源等任务中表现优异,其与CELLxGENE浏览器的集成进一步降低了单细胞数据分析门槛,为生物医学研究提供了直观的AI驱动探索范式。

广告
   X   

在当今生物医学研究领域,单细胞RNA测序(scRNA-seq)技术能够以前所未有的分辨率揭示细胞异质性,但海量数据的解读始终是制约其广泛应用的关键瓶颈。研究者需同时掌握生物信息学技能与领域专业知识,传统分析工具又受限于固定流程与复杂语法。如何让生物学家像与同事对话般自由探索单细胞数据,成为亟待突破的难题。
发表于《Nature Biotechnology》的这项研究给出了革命性方案:CellWhisperer——首个支持自然语言对话的单细胞数据分析人工智能系统。该研究通过多模态学习连接转录组与文本,使研究者能直接用“展示肠道中的组织驻留T细胞”等自然语言查询数据,并获得基于生物学知识的对话式解读。
研究团队通过三大技术支柱实现这一突破:首先,利用大语言模型(LLM)对基因表达综合数据库(GEO)和CELLxGENE Census中超百万个转录组进行AI辅助注释,构建高质量训练数据集;其次,采用对比语言-图像预训练(CLIP)架构的变体,通过冻结Geneformer转录组模型与可训练BioBERT文本模型,建立转录组-文本联合嵌入空间;最后,基于Mistral 7B大语言模型开发对话引擎,通过10万余组AI生成的对话微调模型,使其能结合转录组嵌入信息回答生物学问题。
多模态AI连接转录组与文本
研究通过LLM辅助 curation 从GEO和CELLxGENE Census生成108万余对转录组-文本数据,训练出的嵌入模型在跨模态检索中达到AUROC值0.927。当以“感染”为查询词投射至GEO转录组嵌入空间时,模型精准突出免疫反应相关细胞簇(图1c),证明其能捕捉生物学语境特征。
CellWhisperer预测多样化细胞特征
在Tabula Sapiens数据集零样本预测20种常见细胞类型时达到AUROC 0.94(图2b-c),对免疫细胞数据集预测性能更达AUROC>0.99。模型仅通过转录组-文本关联学习,无需见过专家标注的基因集,即能推断基因集标签与表达富集间的关联(扩展数据图2b-d)。
胚胎发育中器官标志基因识别
对人类胚胎scRNA-seq数据的元分析显示,CellWhisperer通过简单器官名称查询(如“心脏”)即可识别发育动态(图3a-b)。其发现的心脏标志基因与已知标记基因重叠显著(比值比3.3),且新发现的标志基因在文献共提及分析中验证有效(图3c-d)。空间表达验证进一步证实这些基因在心脏祖细胞区富集(图3e)。
集成聊天框的交互式分析
与CELLxGENE Explorer整合后(图4a),用户可通过“描述这些细胞”等指令获取集群的生物学描述(图4b-c)。对结肠上皮炎症反应的分析中,模型快速识别LGR5+上皮干细胞并发现其在炎症组织中减少(图5c-f),而传统生物信息学分析需400行代码及多工具协作方能复现结果(图5g-l)。
本研究开创了自然语言驱动单细胞分析的新范式,通过多模态AI打破专业壁垒。虽然当前版本存在LLM固有的“幻觉”风险且依赖公共数据覆盖度,但其模块化设计为后续模型升级预留空间。随着多尺度AI模型的发展,自然语言有望成为连接分子、细胞、器官等多层次生物数据的通用接口,推动生物医学研究进入更智能、包容的人机协作时代。

生物通微信公众号
微信
新浪微博


生物通 版权所有