用于急性胰腺炎不良临床结局早期预测的多模态人工智能

时间:2026年6月3日
来源:Abdominal Radiology

编辑推荐:

背景:传统临床评分系统与对比增强计算机断层扫描(CECT)解读在早期急性胰腺炎(AP)不良结局预测中的准确性有限。这会导致患者管理欠佳,并凸显出改进分诊方法的必要性。为此,研究人员开发了一种多模态人工智能(AI)框架,整合临床参数、影像组学以及深度学习(DL)

广告
   X   

背景:传统临床评分系统与对比增强计算机断层扫描(CECT)解读在早期急性胰腺炎(AP)不良结局预测中的准确性有限。这会导致患者管理欠佳,并凸显出改进分诊方法的必要性。为此,研究人员开发了一种多模态人工智能(AI)框架,整合临床参数、影像组学以及深度学习(DL)模型,以预测早期AP中的不良临床结局。

方法:在这项回顾性三级医疗中心、影像富集型队列研究中,纳入了入院后72 h内接受CECT检查的AP患者。不良临床结局定义为30 d内死亡、进入重症监护病房(ICU)或需要有创干预。研究人员基于CECT图像构建了影像组学模型(同时采用胰腺及胰周特征)和DL模型,用于预测不良结局。通过整合影像变量与实验室变量构建多模态模型。模型性能与3名独立放射科医师的预后性影像评估结果以及既有临床评分系统(Ranson和Glasgow-Imrie)进行了比较。

结果:共纳入284例AP患者,其中140例(49.3%)出现不良临床结局。传统临床评分的判别能力有限,Ranson评分的曲线下面积(AUC)为0.61,Glasgow-Imrie评分的AUC为0.67。3名资深放射科医师进行的纯影像评估显示预测性能一般(平均AUC = 0.629;敏感度 = 42.5%,特异度 = 83.2%),且观察者间一致性为中等水平(Fleiss κ = 0.650;组内相关系数(ICC) = 0.653)。仅基于影像的影像组学和DL模型取得了更高的判别能力(AUC分别为0.77和0.76)。将实验室参数整合入影像组学模型后,预测性能进一步提升(AUC由0.77提高至0.80),而DL模型与融合模型未见实质性改善。

结论:该多模态AI框架通过结合定量CECT特征与临床数据,相较于传统临床及影像严重度评分系统,提高了早期AP不良结局的预测能力。这些结果应被视为初步发现,在考虑临床应用前仍需开展前瞻性多中心验证。
本文发表于《Abdominal Radiology》,研究聚焦于急性胰腺炎(AP)早期风险分层这一临床关键问题。AP是常见的胰腺急性炎症性疾病,起病急、进展快,虽然多数病例病程较轻且具有自限性,但仍有相当比例患者会迅速进展为持续性器官衰竭、感染性胰腺坏死等严重状态,显著增加病死率与并发症负担。因此,如何在发病早期识别高危患者、尽早实施强化监测和干预,是临床管理中的核心需求。现有Ranson和Glasgow-Imrie等临床评分体系依赖入院后48 h内连续指标,早期预警价值有限;而基于CECT的传统影像学严重度评估又常与真实临床进程不完全一致,即影像表现重者未必结局差,影像改变轻者也可能出现严重不良事件。正因如此,单一模态、规则驱动的传统方法已难以满足复杂临床场景下的精准预测需求,促使研究人员探索融合影像、实验室及临床信息的数据驱动方法。

基于这一背景,研究人员构建并评估了一个以CECT为核心的多模态人工智能框架,用于急性胰腺炎早期不良临床结局预测。研究目标包括:建立影像组学、深度学习(DL)及混合融合模型;检验临床/实验室信息与影像特征整合后能否提升预测能力;将AI模型与有经验放射科医师的视觉评估及传统临床评分进行对照;并借助可解释人工智能(XAI)方法提高模型透明性。研究最终表明,传统临床评分与单纯人工阅片的预测能力均较有限,而基于CECT的影像组学和DL模型表现更优;其中,影像组学与实验室指标结合后的多模态模型取得最佳性能,AUC达到0.80。研究提示,定量影像特征能够补充系统炎症和器官功能异常相关生物标志物,从而改善早期风险分层。该结论的意义在于,多模态定量分析有望推动AP从静态严重度分级转向面向临床结局的精准预测,但在进入常规实践前仍需前瞻性、多中心外部验证。

在技术方法方面,研究采用回顾性单中心三级医疗队列,纳入2012年1月至2025年12月期间入院后72 h内接受CECT的284例AP患者,并要求临床记录完整,以便计算Ranson与Glasgow-Imrie评分及确认30 d结局。研究人员对胰腺和胰周水肿区域进行人工三维分割,提取影像组学特征,并建立3D DenseNet-264深度学习模型;进一步将影像特征与白细胞计数(WBC)、尿素氮/肌酐比值、C反应蛋白(CRP)、乳酸脱氢酶(LDH)和白蛋白等实验室变量整合,构建多模态模型与堆叠融合模型。模型评估采用分层五折交叉验证,并以受试者工作特征曲线(ROC)、AUC、校准曲线、决策曲线及SHapley Additive exPlanations(SHAP)分析进行综合评价。

研究结果部分可概括如下。

Data collection
研究定义的不良临床结局为症状出现后30 d内发生以下至少一项:入住ICU、需要干预治疗或全因死亡。干预包括内镜逆行胰胆管造影(ERCP)、经皮引流、内镜或外科坏死组织清除、胆道支架置入、胰管支架置入及开腹手术等。该复合终点旨在覆盖具有明确临床意义的病情恶化事件,用于建立更贴近实际临床决策的早期风险预测模型。

CT image acquisition and image interpretation
研究使用Canon TSX-305 A/5K和Brilliance-Philips扫描仪完成CECT采集,并从影像归档与通信系统(PACS)中回顾性提取图像。两名具有5年经验的腹部放射科医师分别使用LIFEx 7.4.3软件对胰腺及胰周水肿区域进行体积三维分割,且相互盲法;另由1名具有15年经验的高级腹部放射科医师确认分割质量与一致性。该步骤为后续影像组学特征提取和深度学习建模提供了标准化感兴趣区。

Intra-observer reliability and inter-observer agreement for segmentation
通过Dice相似系数(DSC)及Cohen’s κ系数评估分割重复性。结果显示,胰腺和胰周区域的观察者间DSC分别为82.9%和74.8%,观察者内DSC分别为87.1%和80.5%;两类区域的Cohen’s κ均超过0.70。说明研究中的人工分割具有较好一致性,为模型训练中的影像表征稳定性提供了方法学支持。

Radiologist-based imaging-only assessment for outcome analysis
3名具有5至7年经验的放射科医师在仅知晓研究终点、不掌握临床资料的条件下,对CECT进行盲法二分类预后评估。其判断依据包括胰周炎症范围、胰腺坏死及其他腹部CECT胰外表现,基本遵循Balthazar计算机断层扫描严重度指数(CTSI)的思路。结果显示,人工视觉评估的平均AUC约为0.63,平均敏感度仅42.5%,多数投票AUC为0.61,且观察者间一致性为中等水平。该结果说明,早期AP中仅依赖人工影像解读难以可靠识别后续会发生不良结局的患者,尤其对隐匿性高风险病例较不敏感。

Radiomics analysis
研究人员将所有CECT图像重采样至1.0 × 1.0 × 1.0 mm3各向同性体素,并进行灰度归一化处理。随后利用PyRadiomics 3.0.1从胰腺与胰周水肿区域提取一阶统计、形状和纹理等特征,并进一步计算小波变换及高斯-拉普拉斯滤波特征,每个区域1409个特征,共2818个特征。鉴于特征维度高于样本规模,研究采用两阶段特征筛选策略,包括方差过滤、结局相关性分析、特征间相关性去除、基于重复交叉验证的稳定性筛选以及L1正则化Logistic回归;同时通过二次多项式扩展捕捉非线性关系。结果表明,仅使用影像特征的影像组学模型AUC为0.77,整体性能优于传统评分和人工阅片;在加入实验室指标后,模型AUC进一步升至0.80,准确率、敏感度和特异度均同步改善,提示影像组学特征与实验室变量之间存在较强互补性。

Deep learning analysis
研究在CECT体数据上应用平滑后的胰腺掩膜,对目标区域进行裁剪与重采样,输入尺寸为96 × 96 × 128体素,并从头训练三维DenseNet-264网络。训练过程中采用Adam优化器、交叉熵损失和随机空间旋转增强,同时使用掩膜限制的全局平均池化以强化胰腺组织相关特征聚合。结果显示,纯影像DL模型AUC为0.76,具有较高特异度和阳性预测值(PPV),性能与影像组学模型接近,但在整合实验室参数后总体获益有限,AUC仅边际变化,未超过影像组学-临床模型。

Fusion model development
研究进一步采用基于堆叠(stacking)的融合框架,将DL输出logits、影像组学决策分数及实验室变量组合为多模态特征向量,并以Logistic回归作为元学习器。尽管该融合设计理论上能够集成不同模型优势,但结果显示其AUC约为0.76,无论是否加入实验室变量均未超越单独的影像组学模型。该结果提示,在早期AP中,DL与影像组学可能捕捉到部分重叠的信息,复杂融合并未带来额外增益。SHAP分析进一步指出,对模型预测影响较大的特征包括胰腺区域的original_shape_MeshVolume、original_glrlm_RunLengthNonUniformity、wavelet-LLL_firstorder_Skewness,以及胰周水肿区域的lbp-2D_firstorder_Mean和wavelet-HLH_glszm_GrayLevelNonUniformity,这些特征主要反映组织异质性、水肿复杂性、胰腺形态改变和坏死演变等早期病理过程。

Statistical analysis and comparative performance
在284例患者中,140例发生不良临床结局,占49.3%。传统评分体系中,Ranson评分AUC为0.61,Glasgow-Imrie评分AUC为0.67,判别力均有限。相比之下,影像组学和DL模型均取得更高AUC。加入WBC、尿素氮/肌酐比值、CRP、LDH及白蛋白后,影像组学多模态模型获得最明显提升,AUC增加2.84个百分点至0.80,且差异具有统计学意义。决策曲线与校准曲线分析显示,影像组学单模态模型和多模态模型均具备可接受的临床净获益和较好的校准性能。

讨论部分指出,本研究的核心贡献在于证明了基于CECT的定量人工智能分析,尤其是影像组学联合常规实验室指标的多模态框架,较传统临床评分和人工视觉评估更适合用于早期AP不良结局预测。研究强调,放射科医师在早期影像中更容易识别明显高危表现,因此特异度较高,但对于后续发生恶化而初始影像改变较轻的病例,敏感度明显不足。相较之下,AI模型能够从细微、复杂且人眼难以整合的影像纹理与空间模式中提取风险信号。研究还认为,所纳入的实验室指标具有明确生物学基础:WBC反映早期全身炎症激活,尿素氮(BUN)和肌酐(Cr)相关指标提示血容量不足和肾灌注不良,LDH反映细胞损伤与组织坏死,CRP为经典炎症标志物,低白蛋白则与持续性器官衰竭及死亡风险相关。这些指标与定量影像特征联合后,可更全面表征AP早期的局部结构异常与全身炎症/器官功能状态。与此同时,研究也明确指出局限性,包括缺乏外部独立验证队列、复合终点内部异质性、研究对象限于早期接受CECT者、人工三维分割限制推广性、实验室指标仅采用单时间点数据,以及放射科医师评估未整合临床信息等。因此,当前结果仍应视为初步证据。

研究结论部分可译为:本研究表明,将基于CECT的影像组学与DL模型同临床数据整合的多模态框架,可实现AP不良结局的早期且准确预测。该方法联合利用影像特征以及反映全身炎症与器官功能障碍的指标,而非仅依赖延迟获得的实验室数值或定性影像判读。通过聚焦具有明确临床后果的终点,该框架突破了传统严重度分级模式,迈向以结局为导向的多模态风险分层。早期识别高危患者对于分诊、监测强度调整及循证干预的及时启动具有直接临床意义。在该方法被考虑用于临床实施或常规决策支持前,仍需开展前瞻性多中心验证。

生物通微信公众号
微信
新浪微博


生物通 版权所有