三种基于深度学习的最先进骨龄评估(Bone Age Estimation)模型与连续大样本当代儿童队列中实足年龄(Chronological Age)的一致性研究

时间:2026年6月5日
来源:Pediatric Radiology

编辑推荐:

摘要:背景:放射学骨龄评估(Bone Age Estimation, BAE)常规用于评估儿童矮小症、性早熟或青春期延迟、内分泌疾病及手术规划。目的:评估三种基于深度学习的最先进骨龄评估模型所得估计值与实足年龄(Chronological Age, CA)在大

广告
   X   

摘要:背景:放射学骨龄评估(Bone Age Estimation, BAE)常规用于评估儿童矮小症、性早熟或青春期延迟、内分泌疾病及手术规划。目的:评估三种基于深度学习的最先进骨龄评估模型所得估计值与实足年龄(Chronological Age, CA)在大型当代儿童队列中的一致性。材料与方法:研究人员回顾性纳入大型当代儿童队列(n=7,189;女性3,669例,男性3,520例),年龄24–216个月(均值143.6±46.2个月),均为2010年11月1日至2020年10月31日期间因创伤行影像学正常的手(含腕部)X线摄片之连续病例。采用三种基于Greulich-Pyle(GP)图谱标准的深度学习模型(斯坦福大学Stanford模型、辛辛那提儿童医院医学中心CCHMC模型及MedImageInsight模型)进行骨龄估算,各模型输出以月为单位的连续骨龄估计值。评估相对于实足年龄的均值偏倚(Mean Bias)及比例偏倚(Proportional Bias)。结果:三种模型均系统性高估实足年龄,偏倚程度因模型及性别而异。CCHMC模型整体平均偏倚最小(+3.20个月),依次为MedImageInsight模型(+4.60个月)和Stanford模型(+7.03个月)。所有模型与实足年龄的均值差异均有统计学意义(P<0.0001)。多数模型及各亚组中存在比例偏倚证据。对于三种模型,黑人(Black)儿童相较于白人(White)儿童、西班牙裔(Hispanic)相较于非西班牙裔(non-Hispanic)儿童,预测骨龄与实足年龄之差更大。结论:基于GP图谱的骨龄模型在因创伤行手部X线摄片的当代大型儿童队列中系统性高估实足年龄,其偏倚与年龄、性别、种族及族裔相关。
论文解读:三种深度学习骨龄评估模型与当代儿童实足年龄的一致性与偏倚分析
本文发表于《Pediatric Radiology》。
一、研究背景与立题依据
放射学骨龄评估(Bone Age Assessment, BAA / Bone Age Estimation, BAE)是儿科临床评价骨骼成熟度的重要手段,常用于矮小症、性早熟或青春期延迟、内分泌疾病诊疗及骨科手术规划。目前临床最常用的是1959年发布的Greulich-Pyle(GP)骨发育图谱标准,该图谱基于1931–1942年美国俄亥俄州克利夫兰Brush Foundation Growth Study中白人中上阶层儿童左手X线片制定。近年多项证据表明,受营养改善、肥胖率上升及环境等因素影响,现代儿童的体格发育(包括青春期启动及初潮年龄)较半个世纪前显著提前,即存在长期长期世代趋势(Secular Trend)。然而,GP图谱自发布至今未更新,且鲜有研究在当代健康或正常儿童群体中验证GP标准下骨龄估计值(Bone Age, BA)与实足年龄(Chronological Age, CA)是否存在系统性偏差。同时,基于深度学习的骨龄自动评估模型多训练于RSNA Pediatric Bone Age Challenge数据集并以GP图谱为金标准标注,其在当代真实世界人群中的适用性、一致性及潜在的人口学偏倚(性别、种族、族裔)尚不明确。因此,研究人员开展此项研究,旨在评估三种前沿深度学习骨龄模型在大型当代儿童创伤筛查正常手部X线队列中预测骨龄与实足年龄的一致性,并分析偏倚与性别、种族、族裔及拍摄侧别的关系。
二、主要技术方法与队列
研究人员经机构审查委员会批准,回顾性纳入2010年11月1日至2020年10月31日于单一三级儿科医疗中心因骨骼创伤行影像学诊断完全正常的手(含腕部)前后位X线摄片之儿童7,189例(女3,669例,男3,520例;年龄24–216个月,均值143.6±46.2个月),排除伴放射学异常者,同一患儿仅取最近一次检查。由两名小儿放射科医师复核确保摄片体位合格、解剖覆盖完整及图像质量达标。从电子病历提取性别、种族(Black/White)、族裔(Hispanic/non-Hispanic)及摄片时实足年龄。每例X线影像分别用三个基于GP标准的深度学习骨龄模型——Stanford University模型、Cincinnati Children's Hospital Medical Center(CCHMC)模型、MedImageInsight模型——输出连续骨龄估计值(月)。计算骨龄估计值与实足年龄差值(BA−CA,正值代表高估)。采用Bland–Altman分析法评估整体及按性别、种族、族裔、左右手分层之均值偏倚(Mean Bias, 即差值均值)与比例偏倚(Proportional Bias, 通过Bland–Altman图线性回归斜率检验),以P<0.05为差异有统计学意义。三个模型在原RSNA测试集上平均绝对误差(Mean Absolute Error, MAE)分别为Stanford 4.6个月、CCHMC 4.7个月、MedImageInsight 6.2个月。
三、研究结果
Results(结果——整体偏倚与性别差异)
研究人员对所有7,189例进行Bland–Altman分析发现,三种模型均系统性高估实足年龄,CCHMC模型整体均值偏倚最小(+3.20个月),其次为MedImageInsight模型(+4.60个月),Stanford模型偏倚最大(+7.03个月);三者与CA的差值均值均具统计学显著性(P<0.0001),95%一致性界限较宽提示个体水平变异大。按性别分层:女性中CCHMC模型均值偏倚最小(+1.00个月),Stanford(+5.52个月)与MedImageInsight(+4.76个月)偏大;男性中Stanford模型偏倚最大(+8.60个月),CCHMC(+5.48个月)与MedImageInsight(+4.43个月)较小。表明不同模型性别偏倚模式不同,CCHMC模型男女间偏倚差约4.5个月,而MedImageInsight模型两性表现较均衡。
Results(结果——比例偏倚)
研究人员通过Bland–Altman图线性回归发现,CCHMC模型在总体及男、女性亚组中均存在比例偏倚;Stanford模型在总体及女性中存在比例偏倚,男性中无;MedImageInsight模型在总体及男性中存在比例偏倚,女性中无。提示高估程度随实足年龄变化而非恒定,且模式因模型与性别而异。
Results(结果——种族、族裔与拍摄侧别的影响)
研究人员按种族与族裔分层分析显示,三种模型中,黑人儿童相较白人儿童、西班牙裔相较非西班牙裔儿童,预测骨龄与实足年龄之差(绝对值)更大。左、右手X线所测骨龄估计值与实足年龄差值相差不足1个月,提示左右手差异可忽略。
四、讨论与结论翻译
讨论要点总结:
本研究大型当代队列显示,基于GP图谱标准之深度学习骨龄预测系统性高估儿童实足年龄,支持当代儿童较GP图谱所源自的历史参照人群骨骼成熟更早的观点。不同模型偏倚幅度差异反映训练数据组成与校准方式影响性能。性别分层揭示模型对两性生长模式捕捉不均等,CCHMC模型存在明显性别偏倚差异。黑人及西班牙裔儿童偏倚更大,需进一步探究以防临床误判。比例偏倚的存在说明偏差随发育阶段变化,GP图谱框架应用于现代人群存在局限,未来需探索年龄分层优化或非线性校正。本研究优势在于大样本、当代队列及三独立模型交叉验证;局限包括回顾性创伤患者选择偏倚、单中心人群、未排除潜在影响骨发育之全身性疾病及未采集Tanner分期与BMI等。
结论(原文翻译):
总之,本研究中所有被评估模型均在当代队列中系统性高估实足年龄,平均偏倚范围为+3.20至+7.03个月。存在基于性别的差异,其中三种模型中之两种在男孩中偏倚更大。预测骨龄与实足年龄之差在黑人相较白人儿童、西班牙裔相较非西班牙裔儿童中更大。比例偏倚的存在进一步提示骨骼与实足年龄间差异在发育过程中并非恒定。尚需进一步研究明确多种偏倚成因(长期世代趋势vs人群或模型因素)、按性别/种族/族裔进行人群特异性模型训练或优化的价值、深度学习骨龄估计模型间变异来源,以及当前基于GP图谱的框架在现今儿科人群中是否仍为最优方案。

生物通微信公众号
微信
新浪微博


生物通 版权所有