基于人工智能模型的bpMRI前列腺癌与前列腺炎病灶检测及模型性能比较研究

时间:2026年1月19日
来源:Frontiers in Urology

编辑推荐:

本研究探讨人工智能(AI)模型在双参数磁共振成像(bpMRI)中对前列腺癌(PCa)和前列腺炎的病灶检测性能。研究采用Faster R-CNN和九种分类模型,结果显示AI模型对PI-RADS 5级(P5)病灶和前列腺炎具有高诊断准确性(T2A序列达96%-99%),且与放射科医生评估高度一致(κ=0.86)。研究表明AI可作为临床决策支持工具,提升前列腺疾病诊断效率。

广告
   X   

研究背景与意义
前列腺癌是男性第二大致命癌症,准确诊断对治疗决策至关重要。传统诊断方法包括前列腺特异性抗原(PSA)检测、直肠指检(DRE)和经直肠超声(TRUS)引导的系统性活检,但这些方法存在局限性。PSA缺乏癌症特异性,其水平在良性前列腺增生(BPH)和前列腺炎等非癌性疾病中也会升高。TRUS活检则因解剖覆盖限制和随机系统性取样方式导致较高的假阴性率。
多参数磁共振成像(mpMRI)技术的发展革命性地改变了前列腺癌诊断流程。自2010年代以来,mpMRI已成为前列腺癌诊断、局部分期和治疗计划的标准成像方法。前列腺影像报告和数据系统(PI-RADS)的引入进一步提高了诊断精确性和报告一致性。近年来,人工智能(AI)技术在医学影像领域展现出 transformative 潜力,特别是在前列腺癌的自动图像分析、模式识别和临床决策支持系统方面。
研究方法设计
本研究为回顾性队列研究,遵循STARD(诊断准确性研究报告标准)指南。通过G*Power 3.1软件进行效能分析,确定最小样本量为138例患者,最终纳入153例2017年1月至2023年12月期间经组织病理学确诊为前列腺癌或前列腺炎的患者。
患者纳入标准包括:年龄45-85岁;MRI后6周内接受系统性12针TRUS引导活检或MRI靶向活检并获得组织病理学确认;完整的双参数MRI序列(T2加权和DWI/ADC);无前列腺手术、放疗或激素治疗史;MRI时PSA水平2.5-50 ng/mL。排除标准包括:图像不完整或运动伪影评分>2(5分制);髋关节假体等金属植入物导致显著磁敏感伪影;MRI与活检间隔超过6周;存在其他恶性肿瘤;组织病理学取样不足(系统性活检<10针)。
影像采集与处理
所有患者使用3.0T MR设备(GE Discovery MR750w)和32通道相控阵体线圈进行双参数MR成像。标准成像协议包括:T2加权涡轮自旋回波序列(TR=4068 ms,TE=130 ms,视野180×180 mm,矩阵320×320,层厚3.5 mm无间隔)和扩散加权回波平面成像序列(TR=4600 ms,TE=90 ms,视野240×240 mm,矩阵128×128,层厚4 mm,b值50、800、1400)。ADC图采用单指数拟合自动生成。
图像标注由两名分别具有3年和5年前列腺MRI经验的专科放射科医生独立完成,最终由一名15年经验的资深放射科医生验证 discrepancies。评估者间可靠性通过Cohen's kappa系数(κ=0.82,表明基本一致)和组内相关系数(ICC=0.89,95% CI:0.84-0.93,表明优秀可靠性)评估。
图像处理包括将T2图像标准化为512×512像素,ADC图像标准化为256×256像素,并进行零均值和单位方差归一化。数据增强采用OpenCV库的convertScaleAbs函数,参数设置(alpha=2,beta=0和alpha=1.5,beta=25)以增强对比度和亮度变化,同时应用随机旋转(±15度)和水平翻转(概率=0.5)。增强后的图像经专家放射科医生确认无前列腺组织形态 distortion。
AI模型架构与训练
研究采用Faster R-CNN模型架构,包括在ImageNet上预训练的ResNet-50骨干网络、带有3×3卷积层的区域提议网络(RPN)和Fast R-CNN检测头。RPN使用三种锚点尺度(128²、256²、512²)和三种纵横比(1:2、1:1、2:1)。采用非极大值抑制,交并比(IoU)阈值为0.7以减少冗余检测。训练超参数包括:学习率0.001(第60和80轮次衰减),动量0.9,权重衰减0.0001,批次大小4,轮次90,基于验证损失的早停耐心值10轮次。
分类模型采用九种架构的迁移学习:InceptionV3、Xception、DenseNet201、EfficientNetV2L、VGG16、VGG19、NASNetLarge、MobileNetV2和ResNet50。所有模型移除原始分类头,添加新最终层结构:全局平均池化+Dropout(比率=0.5)+全连接层(256单元,ReLU激活)+Dropout(比率=0.3)+全连接层(2单元)+Softmax。前20轮次微调最后30%层,之后解冻所有层继续训练。
模型训练采用分层拆分策略,Faster R-CNN训练-测试比例为80%-20%,分类模型为70%训练、15%验证和15%测试。通过5折分层交叉验证评估模型稳定性和泛化能力。
研究结果分析
Faster R-CNN模型在T2加权图像中对P5病灶达到96%准确度(95% CI:93.2-98.8%)、96%精确度和98% F1分数。对前列腺炎类别达到99%准确度(95% CI:96.7-100%)和91% F1分数。但在T2序列中未能检测到任何P4病灶(敏感度=0%)。在ADC-DWI序列中,对P5病灶达到90%准确度(95% CI:85.4-94.6%)和94% F1分数,对前列腺炎病灶达到97%准确度(95% CI:93.8-100%)和88% F1分数。P4类别性能仍较低,仅30%敏感度和43% F1分数。
与放射科医生性能比较显示,AI模型与经验丰富的放射科医生达成高度一致(Cohen's κ=0.86,95% CI:0.79-0.93,p<0.001)。AI模型在T2加权图像中正确识别区域解剖定位率达98.1%,仅一例将外周区(PZ)病灶误判为移行区(TZ)。PI-RADS评分结果在放射科医生和AI模型间具有92%-96%的一致性。AI模型在癌症病例分类中达到100%准确度,高于放射科医生的97.9%,但差异无统计学意义(p=0.314,McNemar检验)。
分类模型性能评估显示,数据增强后所有模型性能提升。InceptionV3、Xception、DenseNet201和EfficientNetV2L在T2序列中数据增强后所有指标均达100%。正常数据集中最低性能为ResNet50模型(82.5%准确度)。在ADC-DWI序列中,DenseNet201模型即使在正常数据集中也表现最高性能(99.1%准确度),数据增强后获得优异结果。
AUROC值进一步评估分类模型的判别能力。T2序列中AUROC得分:DenseNet201(0.98)、EfficientNetV2L(0.99)、InceptionV3(0.99)、MobileNetV2(0.92)、NASNetLarge(0.83)、ResNet50(0.76)、VGG16(0.98)、VGG19(0.97)和Xception(0.96)。ADC-DWI序列中AUROC值:DenseNet201(0.99)、EfficientNetV2L(0.96)、InceptionV3(0.99)、MobileNetV2(0.82)、NASNetLarge(0.90)、ResNet50(0.64)、VGG16(0.96)、VGG19(0.86)和Xception(0.97),进一步证实DenseNet201和InceptionV3跨模态的优越判别性能。
讨论与临床意义
本研究结果需置于医学影像AI应用更广泛背景下考量。Faster R-CNN在肺结节检测等领域已展示高精度,在脑膜瘤肿瘤分类中达到100%准确度,胶质瘤分类达87.5%准确度。特别在前列腺癌检测方面,本性能指标与或超过近期多项研究。
DWI和ADC值在病灶表征和肿瘤侵袭性评估中起关键作用。前列腺癌通过破坏腺体组织取代小管,肿瘤组织因细胞密度更大而ADC值低于健康外周区。本研究准确度范围(90%-96%)超过文献报道值,尽管直接比较受患者群体和参考标准差异限制。
模型性能批判性分析显示积极方面和主要弱点。P4病灶分类存在显著问题,主要源于有限P4病例数(T2测试集仅2例,ADC-DWI中10例)和这些病灶测量挑战性,需要基于大小与P5病灶区分。因此分类模型中更适当地将P4和P5病灶合并为"癌症"标签评估。
临床整合考虑因素包括:AI系统应作为决策支持工具而非放射科医生解读替代。工作流程涉及:初始AI分析提供概率分数和解剖定位;放射科医生在AI辅助下审查,高亮关注区域;结合AI输出与临床背景和放射科医生专业知识的最终解读。
研究局限性与优势
研究存在多个重要限制:153例患者样本量相对于当前多中心研究较小;P4样本量少导致模型无法有效识别此类中等风险病灶;模型在独立数据集上性能未验证;部分增强数据集中100%准确度引发过拟合担忧;未进行前瞻性临床试验评估真实环境性能;未评估扫描仪间变异性;未评估图像质量变化和运动伪影对模型性能影响。
研究优势包括:采用Faster R-CNN架构在DWI-ADC和T2序列中分别评估区域解剖结构的全面分析;结果与15年经验专家放射科医生评估直接比较;无需对比剂序列实现高性能,提供更短扫描时间、消除钆风险和经济性等实际益处;多架构系统比较为特定临床任务的不同深度学习方法相对性能提供见解。
未来研究方向
准确检测P4病灶的模型开发是关键优先事项,因P5病灶往往表现更局部侵袭性行为。当前发现泛化性需多机构验证研究确认跨多样化人群、成像设备和协议性能。AI辅助解读工作流程的临床效用和患者结局影响应通过前瞻性临床试验与标准诊断方法比较建立。整合到电子健康记录和临床决策支持平台可进一步增强此类系统临床价值。探索放射组学特征与深度学习方法的协同使用可能改善诊断性能。
结论与展望
人工智能模型在使用双参数MR图像区分前列腺癌和前列腺炎方面展示有前景的诊断能力,可作为放射科医生的宝贵辅助工具。Faster R-CNN模型达到与文献中类似模型竞争性能,分类模型InceptionV3、DenseNet201和EfficientNetV2L在有限数据集中展示优异性能。结果表明经验丰富的放射科医生和AI模型在检测P5和前列腺炎病灶方面具有相似性能,提示潜在临床效用,但未能检测P4病灶是临床部署前必须解决的关键限制。
这些发现表明人工智能模型有潜力作为临床决策支持系统整合到前列腺癌和前列腺炎诊断中,但大量验证工作仍需进行。当前证据支持持续研发而非立即临床实施。未来工作应聚焦解决已识别限制,特别是P4病灶检测和外部验证,然后这些系统才能考虑常规临床使用。前进道路需要AI研究人员、放射科医生和临床医生协作努力,确保这些技术真正增强患者护理,同时保持诊断安全性和可靠性。

生物通微信公众号
微信
新浪微博


生物通 版权所有