三种基于深度学习的最先进骨龄评估(Bone Age Estimation)模型与连续大样本当代儿童队列中实足年龄(Chronological Age)的一致性研究
时间:2026年6月5日
来源:Pediatric Radiology
编辑推荐:
摘要:背景:放射学骨龄评估(Bone Age Estimation, BAE)常规用于评估儿童矮小症、性早熟或青春期延迟、内分泌疾病及手术规划。目的:评估三种基于深度学习的最先进骨龄评估模型所得估计值与实足年龄(Chronological Age, CA)在大
广告
X
摘要:背景:放射学骨龄评估(Bone Age Estimation, BAE)常规用于评估儿童矮小症、性早熟或青春期延迟、内分泌疾病及手术规划。目的:评估三种基于深度学习的最先进骨龄评估模型所得估计值与实足年龄(Chronological Age, CA)在大型当代儿童队列中的一致性。材料与方法:研究人员回顾性纳入大型当代儿童队列(n=7,189;女性3,669例,男性3,520例),年龄24–216个月(均值143.6±46.2个月),均为2010年11月1日至2020年10月31日期间因创伤行影像学正常的手(含腕部)X线摄片之连续病例。采用三种基于Greulich-Pyle(GP)图谱标准的深度学习模型(斯坦福大学Stanford模型、辛辛那提儿童医院医学中心CCHMC模型及MedImageInsight模型)进行骨龄估算,各模型输出以月为单位的连续骨龄估计值。评估相对于实足年龄的均值偏倚(Mean Bias)及比例偏倚(Proportional Bias)。结果:三种模型均系统性高估实足年龄,偏倚程度因模型及性别而异。CCHMC模型整体平均偏倚最小(+3.20个月),依次为MedImageInsight模型(+4.60个月)和Stanford模型(+7.03个月)。所有模型与实足年龄的均值差异均有统计学意义(P<0.0001)。多数模型及各亚组中存在比例偏倚证据。对于三种模型,黑人(Black)儿童相较于白人(White)儿童、西班牙裔(Hispanic)相较于非西班牙裔(non-Hispanic)儿童,预测骨龄与实足年龄之差更大。结论:基于GP图谱的骨龄模型在因创伤行手部X线摄片的当代大型儿童队列中系统性高估实足年龄,其偏倚与年龄、性别、种族及族裔相关。
论文解读:三种深度学习骨龄评估模型与当代儿童实足年龄的一致性与偏倚分析
本文发表于《Pediatric Radiology》。
一、研究背景与立题依据
放射学骨龄评估(Bone Age Assessment, BAA / Bone Age Estimation, BAE)是儿科临床评价骨骼成熟度的重要手段,常用于矮小症、性早熟或青春期延迟、内分泌疾病诊疗及骨科手术规划。目前临床最常用的是1959年发布的Greulich-Pyle(GP)骨发育图谱标准,该图谱基于1931–1942年美国俄亥俄州克利夫兰Brush Foundation Growth Study中白人中上阶层儿童左手X线片制定。近年多项证据表明,受营养改善、肥胖率上升及环境等因素影响,现代儿童的体格发育(包括青春期启动及初潮年龄)较半个世纪前显著提前,即存在长期长期世代趋势(Secular Trend)。然而,GP图谱自发布至今未更新,且鲜有研究在当代健康或正常儿童群体中验证GP标准下骨龄估计值(Bone Age, BA)与实足年龄(Chronological Age, CA)是否存在系统性偏差。同时,基于深度学习的骨龄自动评估模型多训练于RSNA Pediatric Bone Age Challenge数据集并以GP图谱为金标准标注,其在当代真实世界人群中的适用性、一致性及潜在的人口学偏倚(性别、种族、族裔)尚不明确。因此,研究人员开展此项研究,旨在评估三种前沿深度学习骨龄模型在大型当代儿童创伤筛查正常手部X线队列中预测骨龄与实足年龄的一致性,并分析偏倚与性别、种族、族裔及拍摄侧别的关系。