综述:AI与大数据在肿瘤学中的应用:以医生为中心的新兴临床与研究视角

时间:2026年1月31日
来源:Cancer Innovation

编辑推荐:

本综述从临床医生视角系统阐述人工智能(AI)与大数据技术如何重塑肿瘤学实践。文章聚焦机器学习(ML)、深度学习(DL)与大语言模型(LLMs)在整合多模态数据(影像、病理、基因组学、电子病历)方面的核心价值,涵盖筛查诊断、精准治疗、患者管理等全流程,同时深入探讨数据异构性、模型可解释性、隐私保护等实施挑战,为开发符合临床需求的AI策略提供前瞻性视角。

广告
   X   

AI与大数据技术驱动的肿瘤学变革
肿瘤异质性强、数据量指数级增长、医疗资源分布不均等挑战正推动肿瘤学领域对人工智能(AI)与大数据技术的迫切需求。中国每年新发癌症病例约457万例,占全球23.7%,临床医生面临巨大的诊疗压力与研究挑战。AI技术与大数据平台的协同整合,为提升肿瘤诊疗精度、优化治疗方案提供了全新范式。
核心AI技术的方法学突破
机器学习(ML)通过监督学习(如生存预测)、无监督学习(如肿瘤亚型聚类)和强化学习(如放疗剂量优化)等方法,在高维数据处理中展现显著优势。例如,基于放射组学特征的非小细胞肺癌(NSCLC)风险分层模型AUC>0.80。
深度学习(DL)凭借卷积神经网络(CNNs)在医学影像分析中实现突破:肺癌CT病灶检测AUC达0.949,乳腺癌淋巴结转移识别AUC达0.996。U-Net架构对放射组学数据的筛查准确率达93%,术中实时视频分析还能提升手术精准度。
大语言模型(LLMs)在文献综述、医患沟通、科研设计等方面发挥重要作用。ChatGPT、Grok等通用模型与DeepSeek、Qwen等中文优化模型,为处理本土化医疗数据提供支持。专门针对医疗场景优化的DISC-MedLLM和中医肿瘤辅助模型“仲景”,进一步拓展了专业应用场景。
大数据平台的资源整合价值
从传统平台(SEER、TCGA、COSMIC)到新兴平台(cBioPortal、UK Biobank、CKB),大数据平台通过整合多组学、影像、临床文本等资源,为AI模型训练提供基础。值得注意的是,中国国家癌症中心数据库(NCCD)等本土平台,为开展符合中国人群特征的研究提供关键支持。
表1详细比较了20个主流肿瘤学数据库的数据覆盖范围与特点。例如TCGA覆盖33种癌症的1.1万样本,但更新缓慢;而GEO虽包含600万样本但标准化程度低。平台选择需根据研究目标平衡数据规模、人群代表性与临床注释深度。
临床实践场景的赋能效果
在乳腺癌筛查中,AI系统分析CBIS-DDSM数据集乳腺X线影像,对微钙化灶检测AUC达0.84,超越放射科医生61.4%的判读水平。动态增强MRI的DL模型可实现病灶快速分割(AUC=0.85),显著减少不必要的活检。
病理诊断方面,深度学习神经网络(DNNs)基于TCGA全幻灯片图像准确分类肺癌类型,并能识别传统病理难以察觉的基因驱动突变模式。通过分析肿瘤DNA甲基化数据,AI对脑瘤亚型分类精度显著优于传统组织学方法。
精准治疗环节,AI整合多组学数据优化诊疗全流程: Jiang等人整合1226例乳腺癌患者基因组、转录组、蛋白质组等数据,提出luminal型乳腺癌分子分型新标准;U-Net架构自动勾画乳腺MRI病灶边界(AUC>0.90),提升放疗规划效率;CURATE.AI平台根据前列腺特异性抗原(PSA)等生物标志物动态调整卡培他滨剂量,改善患者生活质量。
患者管理层面,LLMs提供个性化健康教育与情感支持,ML平台整合可穿戴设备与电子病历(EHRs)数据,定制化护理计划使患者自我管理效率提升,显著降低医院管理成本。
科研创新加速器作用
LLMs助力研究人员快速生成文献综述与试验方案,多模态AI突破传统研究局限。例如图1展示的“医生中心闭环框架”中,AI与大数据形成“数据-预测-反馈”动态优化循环。单细胞多组学技术(scRNA-seq+scATAC-seq)结合图神经网络,精准识别乳腺癌微环境中癌症相关成纤维细胞(CAFs)亚群;跨队列数据整合有效识别关键驱动基因。
在生物响应预测方面,AlphaFold3通过统一深度学习框架精准预测蛋白质-配体相互作用,为药物设计提供新工具。随机森林与支持向量机在GDSC数据集预测化疗反应AUC达0.90,DNNs在CCLE数据集预测药物敏感性AUC达0.91。
实施挑战与应对策略
数据质量方面,平台间数据碎片化与标准化不足影响分析可靠性。隐私合规挑战突出,中国《数据安全法》与美国第14117号行政令对跨境数据流动设限。技术壁垒表现为临床医生缺乏数据科学背景,AI系统与医院信息系统(HIS/ PACS)集成度低。
解决方案包括:采用联邦学习(FL)实现隐私保护下的多中心协作;通过差分隐私、同态加密技术降低数据泄露风险;开发用户友好界面(如cBioPortal可视化工具);借助SHAP、梯度加权类激活映射(Grad-CAM)等可解释性工具提升模型透明度。需明确AI仅作为辅助工具,决策权始终由医生掌握。
未来展望:医生角色的演进
多模态AI、生成式AI与边缘计算将成为技术发展重点。本土化与国际化的并行推进尤为关键:联邦学习支持的中国人群特色模型开发,边缘计算在基层医院的实时诊断应用,将促进医疗资源均衡分配。
医生角色正从技术使用者向共同创造者转变。通过参与模型特征优化、结果重标注等环节,医生确保AI系统与临床需求对齐。这种“医生-AI-大数据”协同生态系统的建立,将最终推动肿瘤精准医疗向更高效、更人性化的方向发展。

生物通微信公众号
微信
新浪微博


生物通 版权所有