摘要:慢性肾脏病(Chronic Kidney Disease, CKD)是全球普遍性疾病及重大健康负担,预计在未来数十年内持续加重。肾小管的形态学评估对诊断与预后至关重要,但人工标注(Manual Annotation)耗时费力。基于人工智能(Artificial Intelligence, AI)的自动分割是可行方案,但仍依赖大量难获取的手动标注和多样化数据集。迭代模型辅助标注(Iterative Model-Assisted Annotation,即通过人在回路修正逐步改进模型)是潜在的减负策略。本研究针对此类工作流中标注效率严格量化之需求,以形态高度变异的肾小管为案例,探讨如何一致且有效地量化标注加速比(Speed-Up)。研究人员采用互补的效率度量策略及回归建模,对交互式深度学习标注工具Quick Annotator(QA)进行评估。QA模型分别以5、10和20 min为标注间隔(Annotation Interval)进行训练,并在含多样肾小管病变的数据上进行精炼。标注效率通过多种加速比指标和回归模型量化,同时评估分割质量以确保实用性。结果表明QA提升了标注效率,尤以10 min和20 min工作流显著,相比QuPath中完全手动标注可减少最高达5倍的标注时间。值得注意的是,不同评估方法所得加速比估计值存在差异,强调了合适指标选取与解释的重要性。分割性能在某些场景下与参照模型相当,但对复杂病变肾小管较低。
论文解读:评估迭代深度学习作为数字肾病理学中肾小管分割低标注量策略的有效性
本文原载于《Journal of Imaging Informatics in Medicine》(原Journal of Digital Imaging)。
一、研究背景与立题依据
慢性肾脏病(Chronic Kidney Disease, CKD)影响全球超10%人口,肾小管在CKD发病机制及诊断中发挥核心作用,其形态改变(萎缩、扩张、上皮扁平化等)具重要诊断和预后价值。现行临床实践多依赖主观的肉眼半定量评估,缺乏客观量化。人工智能(Artificial Intelligence, AI)尤其是深度学习(Deep Learning, DL)可自动化肾小管分割与定量,但监督式DL需大量精细标注的训练数据,肾组织切片中肾小管数目庞大、形态异质性强(尤其病变 tubule),人工标注极为耗时。现有肾病理DL研究多聚焦肾小球(Glomerulus,形态较规则、数量少),肾小管自动分割研究相对不足且泛化性差。虽有预训练模型辅助标注(Annotation Support,如Segment Anything Model/SAM插件)及迭代学习框架(Iterative Learning,如EasierPath、Human AI-Loop/H-AI-L、Quick Annotator/QA)可减轻负担,但缺乏对标注加速比严谨、一致的量化方法评估此类迭代工作流在复杂肾组织上的真实效益。因此,研究人员以肾小管分割为用例,系统评估迭代DL标注效率并引入多维度速度提升度量。
二、主要关键技术方法
研究人员收集挪威肾 registry 来源、2016–2022年穿刺芯活检非肿瘤性肾病全切片图像(Whole-Slide Images, WSI),PAS染色,×40扫描(0.2472 μm/px),按专家定义分为正常肾小管(Class 0)、急性小管损伤(Class 1)、慢性小管损伤(Class 2)、小管萎缩(Class 3)。训练集含2张以正常小管为主WSI初训,后扩展至45张WSI中选区共14,406个肾小管(正常与病变约各半平衡)。测试集为12张WSI中2048×2048 px tile,由病理医生手工标注作为金标准(Ground Truth, GT,809个tubule)。使用开源工具Quick Annotator(QA)进行迭代训练:设每轮手动/修正标注时间为5、10、20 min三种间隔,每轮后重训模型并用新预测辅助后续标注,各训20轮;选最优20 min模型续训纳入病变数据。在QuPath中分别测纯手动与SAM辅助标注速度作基线。提出四种加速比评估法——(1)总QA时间 vs QuPath手动预估总时间;(2)QA峰值速度 vs QA初始手动速度;(3)总QA时间 vs 基于QA手动基线的预估总时间;(4)基于ROI级特征(每ROI标注结构数)建立Lasso二次多项式回归预测各轮手动速度,逐轮计算观测QA速度/预测手动速度之比。分割后处理含面积滤波(<1150 px2/70 μm2)与孔洞填充。性能用像素级IoU、Dice Similarity Coefficient(DSC)及实例级Precision、Recall、F1、Average Precision(AP@0.5:0.95)评估,并与Lucarelli等公开预训练模型比对(Friedman+Nemenyi检验)。
三、研究结果
Model Training at Different Annotation Intervals(不同标注间隔的模型训练)
三模型(5/10/20 min间隔)经20轮迭代分别标注508、1787、4915个结构。预测质量随迭代提升,边界渐清晰。5 min模型约第13轮才出部分可用预测但未达加速;10 min模型第5轮始有预测、约100 min(~500结构)后明显加速;20 min模型第4轮始有预测、同样约100 min后加速。5 min因单轮新增样本少、未跨过加速阈值即结束,无显著提速。
Final Model(最终模型)
依标准化效率评分选20 min模型继续训练(共74轮、14,406 tubule,含正常+病变)。回归法(Method 4)显示:正常小管平均加速比3.9×(排除早期纯手动轮次后4.5×),峰值6.1×;病变小管平均2.2×,峰值3.8×。QA在整个迭代中持续快于回归预测的手动速度,证明加速源于模型学习而非仅界面差异。
Performance Evaluation(分割性能评估)
后处理去伪影降假阳性。QA模型像素级表现:IoU 0.80±0.10,DSC 0.86±0.07,与次优外部模型无显著差异(p=0.98),略低于最优Lucarelli(2023)模型(IoU 0.82±0.08, DSC 0.90±0.05, p=0.0015)。实例级QA的AP(0.5:0.95:0.05)=0.436,低于两外部模型(0.591、0.522),存过分割/碎片化成单tubule分裂致假阳性偏高,但IoU=0.5时Recall略优于部分外部模型。各类别:正常小管像素及实例指标最佳,急性损伤次之,慢性损伤再次,萎缩小管(Class 3)最低(形态高度异质),所有模型均如此;QA在萎缩类DSC仍>0.75,优于既往报道(DSC~0.49–0.55)。
四、讨论与结论
讨论指出QA可实质加速标注,但须累积约500标注结构/约100 min初始手动标注后方显效;过短重训间隔(5 min)贡献微小反增等待耗时,较长间隔(10–20 min)提供更丰富单轮数据利模型改进。引入工具内(Method 2、3)及基于ROI复杂度回归(Method 4)的速度评估比跨工具简单比(Method 1)更合理,Method 4能反映局部难度变化但依赖回归模型质量宜看趋势。与一次性SAM辅助标注比,QA需标注>~1500结构后方更快,故适合大规模持续标注任务;SAM更适合小高质量集生成。QA当前局限含易生微小伪影、缺内置尺寸过滤及精细缩放,适用训练数据生成,若用于精确定量形态需后处理。与Miao等原QA论文比本研效增益温和,归因于肾小管形态更复杂及研究人员以真 tubules 计数非自动对象计数。实侰表明即便较小训练集(2全标WSI+45 WSI选区),QA迭代模型像素精度可与大训练集外部模型媲美。
结论(翻译):本研究以肾小管分割为用例,对迭代深度学习标注工作流进行了全面的标注效率与模型性能评估。通过引入互补的加速比度量指标(含工具内及基于感兴趣区复杂度的情境感知方法),提供了一个考量patch复杂度与可变标注速率的交互式标注工具评估框架。分析表明QA的效率增益不仅来自更快的界面交互,也源于模型学习;分割性能验证表明所得预测准确且具有形态学意义。结果凸显QA作为大规模高精度标注任务可扩展工具的潜力。同时仍存在可用性及精度局限,解决这些缺口对满足计算病理学与形态计量学不断增长的需求至关重要。所提加速比评估法不限于此数据集与肾 tubule,经适当基线测定可用于其他影像模态、染色和解剖结构。未来方向含整合后处理、混合工作流(QA+SAM)、延伸至多中心/染色变异/多标注者变异性分析及肾小管损伤定量相关性研究。