摘要
目的:研究使用基线18F-FDG PET/CT结合多维特征融合技术无创识别滤泡性淋巴瘤(FL)中骨髓受累(BMI)的可行性,并比较不同骨髓感兴趣区域(VOI)框架对模型性能的影响。
方法:这项回顾性研究包括了187名新诊断的FL患者,其中93名患者有BMI。基于基线18F-FDG PET/CT数据,构建了两种骨髓VOI框架:盆腔VOI框架和脊柱-盆腔VOI框架。提取了临床特征、传统影像特征、放射组学特征和深度学习特征。采用分层特征筛选策略:临床和传统影像特征通过单变量逻辑回归、Spearman相关性分析和多变量逻辑回归进行筛选,而高维放射组学和深度学习特征则通过LASSO回归结合Boruta算法进行筛选。根据选定的特征,开发了六种不同的建模方案。使用独立验证集中的接收者操作特征曲线下面积(AUC)作为主要指标来选择最佳方案。在最佳方案下,进一步比较了七种机器学习模型——逻辑回归(LR)、支持向量机(SVM)、梯度提升机(GBM)、神经网络(NN)、随机森林(RF)、k最近邻(KNN)和自适应提升(AdaBoost)的性能。使用SHAP分析来解释最终模型的关键特征及其贡献方向。
结果:与非BMI组相比,BMI组更可能出现广泛的区域淋巴结受累、B症状、较大的淋巴结病变,以及较低的Hb、较高的LDH、较低的Apo A、较低的eGFR和较高的β2-MG水平(所有P<0.05)。在两种VOI框架下,BMI组的骨髓FDG摄取强度和代谢负担均较高,这体现在传统PET/CT特征的较高值上,包括SUVmean、标准差(PET)、RMS、第25百分位数、中位数、第75百分位数、TLG、Glycolysis Q2-Q4、SAM和SUVpeak(所有P<0.05)。多变量逻辑回归分析表明,区域淋巴结受累和β2-MG在两种VOI框架中均保持独立预测因子,而SUVmean仅在盆腔VOI框架中具有统计学意义。六种建模方案的比较显示,整合脊柱-盆腔VOI框架与临床特征、传统影像特征和放射组学特征的方案表现最佳。在该方案下,GBM模型在独立验证集上取得了最佳的整体性能(AUC=0.906,准确率=0.877,精确度=0.926,敏感性=0.833,特异性=0.926,F1分数=0.877)。SHAP分析显示,除了Lnr(≥5)和β2-MG之外,一阶统计特征如PET-Orig-FO-IQR以及从小波/LBP变换得到的纹理特征——包括PET-Wav-HLL-NGTDM-Strength、PET-Wav-HLL-GLRLM-SRHGLE、CT-LBP3D-m1-GLCM-MCC和PET-LBP3D-m2-GLSZM-SAHGLE——也做出了显著贡献。这些发现表明,与BMI相关的影像表型不仅表现为骨髓代谢增加,还表现为骨髓内灰度分布和空间异质性的改变。
结论:滤泡性淋巴瘤中的骨髓受累与较高的肿瘤负担和骨髓内代谢异质性改变相关。基于PET/CT的放射组学-临床模型在无创BMI预测方面表现良好,脊柱-盆腔VOI框架优于单独的盆腔VOI框架。最终的GBM模型可能为FL的BMI补充基线评估提供一个可行的影像生物标志物。
引言:
滤泡性淋巴瘤(FL)是一种起源于生发中心B细胞的惰性非霍奇金淋巴瘤(NHL),其临床过程和预后具有明显的异质性[1]。骨髓受累(BMI)在FL中相对常见,超过50%的患者在诊断时已有BMI[2]。由于骨髓是淋巴瘤细胞浸润的常见部位,识别BMI具有重要的临床意义。骨髓评估不仅有助于确定淋巴瘤的侵袭范围,也是Ann Arbor分期系统的重要组成部分;BMI的存在将疾病定义为IV期。尽管大多数FL患者对一线治疗反应良好,但BMI仍与较高的疾病负担和不良临床结果相关,并被纳入FL的初始分期评估以及FLIPI-2和PRIMA-PI等风险分层系统[3, 4]。因此,在治疗前准确识别伴有BMI的患者是FL基线评估的关键问题,这对风险分层和治疗决策具有重要意义。
目前,FL患者的BMI评估仍主要依赖于骨髓活检(BMB)。虽然BMB具有病理学确认的优势,但它具有侵入性,且只能反映单个骨髓部位的状态;此外,采样误差可能导致难以全面评估全身骨髓受累的程度。相比之下,18F-FDG PET/CT提供了全身代谢信息,已成为FDG-avid淋巴瘤初始分期和反应评估的重要影像学方法[5]。然而,PET/CT在评估BMI方面的临床价值因淋巴瘤亚型而异。在霍奇金淋巴瘤中,不再推荐常规BMB用于初始分期;在大多数弥漫性大B细胞淋巴瘤病例中,通常只有在PET/CT结果为阴性时才考虑进行额外的BMB,且骨髓组织学的不一致性可能影响临床管理;对于其他组织学亚型如FL,现有证据不足以支持完全用PET/CT替代BMB进行骨髓评估[6, 7]。ESMO指南仍建议在FL的初始评估中结合BMB和PET/CT[8]。基于FDG PET/CT的视觉评估的初步研究表明,它可以以合理的准确性检测FL患者的BMI,并可能作为独立的预后因素[9]。然而,FL中BMI的识别仍可能受到骨髓代谢异质性和摄取模式差异的影响[10]。放射组学为FL中骨髓受累的无创评估提供了新的研究方向[11]。一项关于FL的荟萃分析显示,PET/CT检测骨髓受累(BMI)的汇总敏感性为0.67,特异性为0.82,AUC为0.83,表明PET/CT单独使用仍不足以替代骨髓活检(BMB)[12]。与基于局部异常摄取和有限半定量指标(如SUV)的视觉评估相比,放射组学在识别骨髓代谢分布和空间异质性方面具有潜力。一项基于基线18F-FDG PET/CT的骨骼纹理特征开发预测模型的小型回顾性研究显示,骨髓活检和视觉PET评估之间存在显著差异(P=0.010),但骨髓活检与PET预测评分之间没有显著差异(P=0.097)[13]。目前,FL的定量影像学研究仍然有限且主要是回顾性的;不同研究之间的分割方法、预处理工作流程和模型验证策略的差异也限制了研究结果的可重复性和临床转化。此外,系统地建模骨髓VOI并将临床信息与多维影像特征结合以预测BMI的研究仍然缺乏,不同骨髓VOI框架对BMI识别的影响尚不清楚。
本研究旨在基于基线18F-FDG PET/CT的多维特征融合开发一种预测BMI的方法,并比较不同骨髓VOI策略的模型性能。使用新诊断FL患者的基线18F-FDG PET/CT图像,系统评估了结合临床特征、传统影像特征和深度学习特征在不同骨髓VOI框架中识别BMI的价值,并比较了不同建模策略的性能。该研究旨在建立一种平衡稳定性、可解释性和临床可行性的无创评估策略,从而为治疗前的BMI识别提供补充信息,并补充FL的初始分期和风险评估。
研究人群:这项单中心回顾性队列研究包括了2013年1月至2025年7月期间在南京鼓楼医院(南京医科大学附属医院)治疗的187名组织病理学确诊的FL患者。所有患者在初次诊断时均接受了基线18F-FDG PET/CT和骨髓活检(BMB),且未接受过任何抗淋巴瘤治疗。患者以7:3的比例随机分配到训练集和验证集。队列包括84名男性和103名女性,年龄在18-85岁之间(平均年龄54.07±12.35岁)。本研究符合赫尔辛基宣言,并获得了南京鼓楼医院(南京医科大学附属医院)伦理委员会的批准(批准编号2024-851-01)。无需签署知情同意书。纳入标准如下:(1)组织病理学确诊为滤泡性淋巴瘤;(2)基线PET/CT与骨髓活检之间的时间间隔不超过4周;(3)年龄≥18岁。排除标准如下:(1)在PET/CT之前接受过淋巴瘤导向或其他抗癌治疗;(2)临床数据不完整或失访;(3)同时存在其他恶性肿瘤。
18F-FDG PET/CT成像:使用Philips GEMINI GXL 16 PET/CT和Philips Vereos PET/CT扫描仪进行18F-FDG PET/CT成像。根据患者体重,静脉注射18F-FDG(由南京江源安迪科正电子研发有限公司生产,放射化学纯度>95%),剂量为3.7 MBq/kg。注射前测量了空腹血糖水平。患者在检查前至少禁食6小时,保持空腹血糖水平≤11.1 mmol/L。注射放射性示踪剂后,患者休息50-60分钟。扫描前摄入约500毫升水以填充胃腔。扫描时患者采取仰卧位,保持呼吸平稳。患者仰卧在床中央,双臂放在头部两侧。扫描范围从颅顶延伸到股骨中部。CT采集参数:管电压120 kV,管电流100 mA,层厚2.0 mm。PET采集包括7-10个体位,每个体位扫描1分钟,矩阵大小144×144。CT数据用于衰减校正。校正后的PET图像使用有序子集期望最大化(OSEM)方法重建。
**结果变量的定义**
BMI的诊断基于骨髓穿刺(BMB)结果和18F-FDG PET/CT图像的视觉评估。通过基线BMB确认有骨髓受累的患者直接被分类为BMI阳性。对于基线BMB未显示骨髓受累迹象的患者,进一步进行PET/CT图像的视觉评估。如果在脊柱或骨盆的骨髓中观察到局部18F-FDG摄取增加,并且这种增加无法用相应的CT发现或临床病史解释,则该患者被分类为BMI阳性。正常骨髓摄取定义为不超过肝脏的摄取量。当基线PET/CT显示骨髓中18F-FDG摄取弥漫性增加(即高于肝脏摄取量)时,基于系统治疗后的中期PET/CT和中期BMB结果进行综合评估。如果中期PET/CT显示骨髓摄取减少,并且中期BMB确认骨髓受累,则该患者被分类为BMI阳性。所有其他病例被分类为BMI阴性。
PET/CT图像由两位具有超过10年和15年PET/CT解读经验的核医学医师独立审查;在意见不一致的情况下,由一位具有超过20年图像解读经验的资深医师进行进一步审查并做出最终决定。
**18F-FDG PET/CT放射组学分析与机器学习**
分析工作流程包括三个阶段:(1)在CT图像上构建骨盆和脊柱-骨盆感兴趣区域(VOIs),并从相应的框架中提取常规成像特征、放射组学特征和深度学习特征;(2)筛选不同类型的特征以确定候选变量;(3)基于不同的VOI框架和特征组合建立机器学习模型,并比较它们对BMI的预测性能(图1)。
**研究设计概述**
(A)共纳入187名新诊断为滤泡性淋巴瘤的患者,分为训练集(n=130)和验证集(n=57)。使用骨髓评估结果和18F-FDG PET/CT图像的视觉评估来确定患者的骨髓受累状态。(B)基于骨盆和脊柱-骨盆VOI分割,从PET/CT图像中提取常规成像特征、放射组学特征和深度学习特征。(C)通过特征选择和多模态特征整合开发BMI预测模型。
**图像特征提取**
本研究使用3D Slicer版本5.10.0中的MONAI Auto3DSeg插件,利用预训练的“Hip and Spine (v1.2.0)”模型自动分割CT图像[14]。左髋、右髋和骶骨组合定义“骨盆”VOI,而C1-C7、T1-T12和L1-L5椎骨组合定义“脊柱”VOI。自动分割后,手动审查并校正所有VOI以去除非目标骨区域和不相关结构。随后,将最终的CT VOI叠加在融合的PET图像上,进一步审查以排除非骨性异常摄取区域,如骨旁的软组织病变和高尿膀胱摄取。此外,手动排除连续骨受累区域、骨赘和硬化骨改变,最终得到用于特征提取的“骨盆”VOI和“脊柱-骨盆”VOI。
在最终VOI框架内,使用MMIS软件提取常规成像特征。常规CT特征包括VOI体素计数、体积和CT衰减值的一阶统计量,而常规PET特征包括摄取强度和代谢相关参数的一阶统计量,如平均值、最大值、RMS、代谢体积和TLG。放射组学特征也使用MMIS软件计算;其定义和命名遵循成像生物标志物标准化倡议(IBSI)的标准,软件信息以及关键图像处理和特征计算参数按照IBSI报告建议记录[15]。PET和CT图像均使用固定bin数(FBN)策略离散化,并统一量化为64个灰度级[15]。除了原始图像外,PET和CT图像还经过小波变换和三维局部二值模式(LBP-3D)滤波以生成派生图像;随后从原始图像和派生图像中提取一阶统计和纹理特征(GLCM、GLRLM、GLSZM、GLDM和NGTDM),并从原始图像中提取形态学特征[16,17,18]。共提取了2,260个放射组学特征,包括1,130个PET特征和1,130个CT特征。
**深度学习特征提取**
也使用MMIS软件提取深度学习特征。基于ResNet50的卷积神经网络作为特征编码器,自动识别3D VOI内最具代表性的切片(定义为ROI覆盖面积最大的切片),并在边缘将ROI扩大10%以保留相邻组织的信息。从网络的倒数第二层提取深度学习特征,为每个案例的PET和CT图像生成2,048维的特征向量;对于融合分析,这些向量被连接起来形成4,096维的联合深度特征表示。
**特征选择**
本研究结合了临床特征、常规成像特征、高维放射组学特征和深度学习特征,并采用分层筛选策略来降低维度、减少冗余并提高模型鲁棒性。对于临床和常规成像特征,首先根据BMI状态对整个队列进行组间比较,以表征BMI阳性和BMI阴性患者的临床特征。连续变量使用Wilcoxon秩和检验进行分析,而分类变量使用Fisher精确检验进行分析;P<0.05的变量被纳入候选集。需要注意的是,这个初步的描述性筛选步骤是在训练-验证分割之前进行的;所有后续建模步骤,包括单变量逻辑回归、Spearman相关性分析、多变量逻辑回归、LASSO回归和Boruta算法,均在训练集内进行,P<0.05的变量被保留。为了减少信息冗余和多重共线性,在多变量分析之前对候选变量进行Spearman相关性分析;当相关系数的绝对值≥0.80时,认为变量之间存在强相关性,并移除冗余变量。去除冗余后的变量被纳入多变量逻辑回归模型。优先使用Firth惩罚似然方法,并结合向后消除进行逐步变量选择;如果Firth方法不适用,则使用标准逻辑回归,变量选择基于似然比检验,最终保留P<0.05的独立预测因子。对于高维放射组学特征和深度学习特征,在训练集中使用LASSO惩罚逻辑回归进行初步筛选。通过10折交叉验证确定最佳惩罚参数,并根据λ1se标准保留非零系数的特征。随后使用Boruta算法进行二次筛选,基于随机森林模型迭代评估特征重要性。使用阴影特征作为对照,最终保留被分类为“Confirmed”的特征用于模型构建。
**模型开发与验证**
基于两个VOI框架(骨盆和脊柱-骨盆)和三种特征组合(放射组学;临床-常规成像-放射组学;临床-常规成像-放射组学-深度学习),设计了六种建模方案:方案A(骨盆+放射组学)、方案B(骨盆+临床-常规成像-放射组学)、方案C(骨盆+临床-常规成像-放射组学-深度学习)、方案D(脊柱-骨盆+放射组学)、方案E(脊柱-骨盆+临床-常规成像-放射组学)和方案F(脊柱-骨盆+临床-常规成像-放射组学-深度学习)(图2)。每种建模方案使用七种机器学习算法构建模型,包括逻辑回归(LR)、支持向量机(SVM)、梯度提升机(GBM)、神经网络(NN)、随机森林(RF)、k最近邻(KNN)和自适应提升(AdaBoost)。
**六种建模方案的示意图**
(A)骨盆+放射组学;(B)骨盆+临床-常规成像-放射组学;(C)骨盆+临床-常规成像-放射组学-深度学习;(D)脊柱-骨盆+放射组学;(E)脊柱-骨盆+临床-常规成像-放射组学;(F)脊柱-骨盆+临床-常规成像-放射组学-深度学习。
**模型开发与验证过程**
对于每种建模方案和算法组合,在训练集中进行10折交叉验证(重复5次)进行模型训练和超参数调整,使用平均AUC作为优化指标确定最佳超参数。所有预处理步骤在每个重采样训练折叠内完成。随后,使用最佳超参数将最终模型拟合到整个训练集,并在独立验证集上评估其泛化性能。使用接收者操作特征(ROC)曲线和ROC曲线下面积(AUC)评估模型性能。使用Youden指数确定最佳分类阈值,并在该阈值下计算准确性、精确度(相当于阳性预测值)、敏感性、特异性和F1分数。主要根据独立验证集中的AUC选择最佳模型和建模方案;当AUC差异较小时,进一步考虑验证集中的F1分数、校准曲线和决策曲线分析(DCA)结果以确定最佳建模方案和相应算法。对于最终模型,还使用SHAP方法进行可解释性分析。
**统计分析**
连续变量表示为中位数(四分位数范围)或平均值±标准差,而分类变量表示为计数和百分比。对于组间比较,连续变量使用Wilcoxon秩和检验,分类变量使用Fisher精确检验。逻辑回归结果以95%置信区间(CIs)的形式表示为比值比(ORs)。所有数据处理、模型开发和统计分析均使用R版本4.5.1和Python版本3.12.0进行。所有检验均为双侧检验,P<0.05被认为具有统计学意义。
**BMI和non-BMI FL患者之间的临床和PET/CT特征基线比较**
本研究包括187名FL患者,其中93名为BMI阳性。与非BMI组相比,BMI组在多个变量上显示出显著差异,包括区域淋巴结受累(88.2% vs 41.5%,P<0.001)、B症状(38.7% vs 6.4%,P<0.001)、最大淋巴结直径>6 cm(33.3% vs 17.2%,P=0.018)、血红蛋白(Hb)水平[123.00 (113.50, 138.00) vs 131.00 (123.00, 143.00),P=0.005]、乳酸脱氢酶(LDH)水平[192.00 (168.00, 246.50) vs 178.00 (155.00, 213.00),P=0.04]、载脂蛋白A(Apo A)浓度[0.96 (0.84, 1.11) vs 1.06 (0.92, 1.27),P<0.001]、估计的肾小球滤过率(eGFR)[103.25 (88.50, 115.30) vs 109.60 (96.50, 129.10),P=0.038]和β2-微球蛋白(β2-MG)水平[2,390.00 (1,988.00, 3,462.00) vs 1,848.50 (1,525.00, 2,246.00),P<0.001](表1)。此外,在骨盆VOI和脊柱-骨盆VOI框架下,BMI组和非BMI组在多个常规成像特征上也观察到显著差异。这些差异主要涉及反映骨髓FDG摄取强度和代谢负担的指标,包括SUVmean、标准差(PET)、RMS、第25百分位数、中位数、第75百分位数、TLG、糖酵解Q2-Q4、SAM和SUVpeak(所有P<0.05;表S1-S2)。
**特征选择**
为了进一步识别与FL中骨髓受累相关的临床和常规成像因素,首先进行单变量逻辑回归,筛选在基线比较中具有统计学意义的变量。基于骨盆VOI框架内的临床特征和常规成像特征的单变量逻辑回归显示,区域淋巴结受累、B症状、β2-微球蛋白(β2-MG)水平、载脂蛋白A(Apo A)浓度、血红蛋白(Hb)水平、SUVmean、RMS、第25百分位数、中位数、第75百分位数、上相邻值(UAV)、TLG(g)、糖酵解Q2(g)、糖酵解Q3(g)、SAM(g)和SUVpeak与BMI显著相关(P<0.05,表S3)。基于临床特征和常规影像特征的单变量逻辑回归分析,在脊柱-骨盆感兴趣区域(VOI)框架内显示,区域淋巴结受累、B症状、β2-微球蛋白(β2-MG)水平、载脂蛋白A(Apo A)浓度、血红蛋白(Hb)水平、SUV均值、标准差(PET)、RMS、第25百分位数、中位数、第75百分位数、上邻值(UAV)、TLG(克)、糖酵解Q2(克)、糖酵解Q3(克)、SAM(克)、SAM背景和SUV峰值与BMI显著相关(P < 0.05,表S4)。通过单变量逻辑回归识别的候选变量被纳入Spearman相关性分析,以评估变量间的相关性并降低多重共线性的风险。在骨盆VOI框架内,识别出14对强相关的变量。对于每对变量,只保留一个与BMI关联更强且临床解释性更好的变量,最终得到11个相对独立的候选变量(图S1)。在脊柱-骨盆VOI框架内,识别出21对强相关的变量,去除冗余后保留了11个候选变量(图S2)。将Spearman相关性分析识别的候选变量纳入多变量逻辑回归后,基于临床特征和常规影像特征的模型显示,区域淋巴结受累[OR 3.916,95% CI: 1.172–13.089;P = 0.027]、β2-微球蛋白(β2-MG)水平[OR 1.001,95% CI: 1.000-1.001;P = 0.048]和SUV均值[OR 4.573,95% CI: 1.010–20.710;P = 0.049]仍然是独立的风险因素(表S3)。基于临床特征和常规影像特征的模型还显示,区域淋巴结受累[OR 4.697,95% CI: 1.429–15.444;P = 0.011]和β2-微球蛋白(β2-MG)水平[OR 1.001,95% CI: 1.000-1.001;P = 0.020]仍然是独立的风险因素(表S4)。从每位患者的PET/CT图像中提取了总共2,260个放射组学特征和4,096个基于ResNet50的深度学习特征。使用LASSO回归结合Boruta算法进行特征降维,以识别对BMI具有最佳区分能力的特征子集。在放射组学特征分析中,分别在骨盆VOI和脊柱-骨盆VOI框架下保留了8个和9个独立的预测特征(图S3和S4)。在结合放射组学和深度学习特征的融合分析中,分别在骨盆VOI和脊柱-骨盆VOI框架下选择了8个关键特征(包括5个放射组学特征和3个深度学习特征)和7个关键特征(包括5个放射组学特征和2个深度学习特征)用于模型构建(图S3和S4)。
机器学习模型的构建和评估
基于独立验证集中的ROC分析,比较了六种建模方案的区分性能(图3),最终确定方案E为最佳建模方案,并进一步在该方案下比较了不同机器学习算法的性能。
图3
此图像的替代文本可能是使用AI生成的。
全尺寸图像
在独立验证集中,比较了六种预定义建模方案预测滤泡性淋巴瘤骨髓受累(BMI)的ROC曲线:骨盆+放射组学(A)、骨盆+临床-常规影像-放射组学(B)、骨盆+临床-常规影像-放射组学-深度学习(C)、脊柱-骨盆+放射组学(D)、脊柱-骨盆+临床-常规影像-放射组学(E)和脊柱-骨盆+临床-常规影像-放射组学-深度学习(F)
在确定最佳建模方案(方案E)后,我们进一步比较了该方案下七种机器学习(ML)模型在训练集(n = 130)和独立验证集(n = 57)中的预测性能:逻辑回归(LR)、支持向量机(SVM)、梯度提升机(GBM)、神经网络(NN)、随机森林(RF)、k最近邻(KNN)和自适应提升(AdaBoost)。
在训练集(表2;图4A)中,所有模型在训练集中都表现出良好的区分能力;其中,GBM模型的性能最为平衡(AUC = 0.967,准确率 = 0.938,精确度 = 0.923,敏感性 = 0.952,特异性 = 0.925,F1分数 = 0.938)。值得注意的是,RF和AdaBoost模型在训练集中表现出近乎完美的分类结果,这表明可能存在过拟合或过于乐观的性能估计。
表2 不同机器学习模型在训练集中的性能比较
全尺寸表格
图4
此图像的替代文本可能是使用AI生成的。
全尺寸图像
在最佳建模方案(方案E)下不同机器学习模型的性能比较:训练集(A)和独立验证集(B)的ROC曲线
在独立验证集(表3;图4B)中,GBM模型保持了相对稳定的泛化性能(AUC = 0.906,准确率 = 0.877,精确度 = 0.926,敏感性 = 0.833,特异性 = 0.926,F1分数 = 0.877),在所有候选模型中具有最高的AUC、准确率、精确度和F1分数。与同样为集成学习模型的AdaBoost模型(验证集AUC = 0.901,准确率 = 0.842,精确度 = 0.818,敏感性 = 0.900,F1分数 = 0.857)相比,GBM模型在整体区分能力和分类一致性方面表现更好(F1分数)。此外,RF和AdaBoost模型在验证集中的性能都有所下降(RF:AUC = 0.879,F1 = 0.833;AdaBoost:AUC = 0.901,F1分数 = 0.857),这表明两种模型都可能存在过拟合。
表3 不同机器学习模型在验证集中的性能比较
全尺寸表格
KNN模型在训练集中的AUC为0.990,F1分数为0.945,但在验证集中,AUC降至0.879,F1分数降至0.815,敏感性降至0.733。尽管在验证集中保持了高精确度和特异性(精确度 = 0.917,特异性 = 0.926),但其有限的敏感性导致整体性能低于GBM模型。NN模型在验证集中表现出“高敏感性-低特异性”的模式(敏感性 = 0.933,特异性 = 0.667,F1分数 = 0.836),表明假阳性率增加。LR模型在训练集(AUC = 0.912,F1分数 = 0.850)和验证集(AUC = 0.888,F1分数 = 0.844)中表现相对稳定,但其验证集的特异性和精确度较低(特异性 = 0.741,精确度 = 0.794),导致整体性能低于GBM模型。SVM模型在训练集(AUC = 0.927,特异性 = 0.896)和验证集(AUC = 0.886,特异性 = 0.852)中保持了高特异性,但其验证集的敏感性较低(敏感性 = 0.767),导致F1分数(0.807)低于GBM模型。
在全面评估所有数据集中所有候选模型的整体性能后,我们最终选择GBM模型作为本研究的最佳模型(图5),原因如下:
图5
此图像的替代文本可能是使用AI生成的。
全尺寸图像
训练集(A)和独立验证集(B)中最终模型的雷达图
一致的性能:GBM模型在训练集和验证集中都保持了高区分性能,且跨数据集的性能衰减有限(训练集AUC = 0.967,F1分数 = 0.938;验证集AUC = 0.906,F1分数 = 0.877)。强大的区分能力:在验证集中,GBM模型在包括AUC、准确率、精确度、特异性和F1分数在内的整体性能指标中排名最高,从而避免了那些敏感性高但特异性不足或特异性高但敏感性降低的模型的局限性。校准可靠性:校准曲线显示GBM模型预测的概率与观察到的概率之间有很好的一致性(图6A)。临床效益:决策曲线分析(DCA)表明,GBM模型在临床有意义的阈值概率范围内提供了相对稳定的净效益(图6B)。可解释性和临床实用性:SHAP量化了关键变量对单个预测的贡献,并根据重要性对其进行排序,从而为临床解释和机制讨论提供了基础(图6C)。因此,GBM模型被选为后续分析和展示的最终模型。
图6
此图像的替代文本可能是使用AI生成的。
全尺寸图像
最终模型的校准曲线(A)、决策曲线分析(B)和SHAP可解释性分析(C)
模型解释
如图6C所示,为了解释最终GBM模型预测的基础,本研究使用了Shapley加性解释(SHAP)来量化每个特征对BMI预测概率的边际贡献,并根据平均绝对SHAP值(mean |SHAP|)对特征重要性进行排序。全局重要性分析显示,Lnr(≥ 5)的贡献最大(平均|SHAP| = 0.712,占24.71%),其次是PET-Wav-HLL-NGTDM-Strength(0.322,11.16%)、PET-Orig-FO-IQR(0.279,9.69%)、PET-Wav-HLL-GLRLM-SRHGLE(0.247,8.55%)、CT-LBP3D-m1-GLCM-MCC(0.237,8.24%)和PET-LBP3D-m2-GLSZM-SAHGLE(0.220,7.63%);其余特征按重要性降序排列为PET-Wav-HLL-FO-P90(0.202;6.99%)、PET-Wav-LLL-GLSZM-GLNN(0.193;6.68%)、PET-Orig-FO-MAD(0.184;6.39%)和PET-Wav-HLL-GLDM-SDHGLE(0.152;5.27%);临床变量β2-MG也对模型有贡献(0.135,4.69%)。SHAP方向分析显示,当Lnr(≥ 5)取较高值时,其SHAP值主要分布在正区域,表明较高的Lnr与BMI阳性的概率增加相关。对于连续变量,PET-Orig-FO-IQR、PET-Wav-HLL-GLRLM-SRHGLE、PET-Wav-HLL-FO-P90、PET-Orig-FO-MAD和PET-Wav-HLL-GLDM-SDHGLE的较高值通常对应于正SHAP值,而PET-Wav-HLL-NGTDM-Strength、CT-LBP3D-m1-GLCM-MCC、PET-LBP3D-m2-GLSZM-SAHGLE和PET-Wav-LLL-GLSZM-GLNN的较高值则更常与负SHAP值相关。升高的β2-MG通常显示正贡献趋势。总之,模型的关键信息来源主要包括反映疾病负担的临床指标(Lnr)和β2-MG,同时也依赖于从小波和LBP变换得到的各种纹理和一阶统计特征来表征骨髓内的灰度分布和空间异质性。
讨论
在FL的初步评估中,BMI具有明确的临床重要性,因为它不仅影响Ann Arbor分期,还纳入了FLIPI、FLIPI-2和PRIMA-PI等风险分层系统,从而直接影响预后评估和治疗决策。先前的研究表明,骨髓活检仍然是评估BMI的传统标准;然而,其侵入性、采样限制以及反映系统性骨髓负担的能力有限,限制了其在精确风险分层中的作用。18F-FDG PET/CT可以提供全身代谢信息;然而,目前对FL中骨髓受累的影像评估仍然主要依赖于视觉评估或有限的单参数分析,对骨髓异质性表型和VOI定义策略的系统研究仍然不足。本研究发现,与单独的骨盆VOI相比,结合临床、常规影像和放射组学特征的脊柱-骨盆VOI框架具有更好的预测性能,表明更广泛的骨髓表型特征描述可能有助于非侵入性地识别BMI。SHAP分析还显示,模型预测不仅依赖于骨髓摄取强度本身,还依赖于疾病负担指标和更高阶纹理特征的综合作用;BMI的影像表型更可能反映骨髓内空间异质性的重塑,而不仅仅是代谢的简单增加。尽管现有关于淋巴瘤骨髓受累的影像评估研究表明放射组学比传统PET指标具有更大的区分潜力,但针对FL的具体方法学比较,特别是那些关注骨髓感兴趣区域(VOI)覆盖范围的比较仍然有限。一项针对97名患者的回顾性研究探讨了[18F]FDG-PET/CT放射组学在预测套细胞淋巴瘤骨髓受累(BMI)中的价值。结果显示,[18F]FDG-PET放射组学特征比单独的SUV具有更好的分类性能(AUC:0.82 vs 0.68),并且随着骨髓受累的相对或绝对百分比的增加,预测性能通常有所提高[19]。另一项双中心研究进一步探讨了可解释的机器学习模型在预测淋巴瘤BMI中的可行性;然而,其感兴趣区域(ROI)覆盖范围主要限于骨盆区域,并且没有专注于FL这种生物学行为相对独特的惰性淋巴瘤亚型[20]。本研究的一个重要进展是直接比较了两种骨髓表型框架,即骨盆VOI和脊柱-骨盆VOI,并确认VOI定义本身显著影响了特征选择结果和模型性能。这一发现具有明显的解剖学和生物学合理性:成人的活跃骨髓主要分布在轴向骨骼中。基于FLT-PET的先前定量研究表明,骨盆约占成人全身增殖性骨髓的25.3%,而骨盆和脊柱的结合占大约75.3%,表明脊柱-骨盆VOI比单独的骨盆VOI更接近全身活跃骨髓的主要分布[21]。在分析261名FL患者时,Nakajima等人在78名骨髓受累的患者中发现了总共780个局灶性骨髓病变;椎骨是最常受影响的解剖结构(33.3%),值得注意的是,91.2%的所有PET阳性病变位于髂嵴之外[9]。此外,Mattonen等人证明,从L3-L5椎体中提取的骨髓放射组学特征在基线18F-FDG PET/CT扫描中为非小细胞肺癌患者的无病生存期提供了独立的预后价值,这表明通过椎骨骨髓放射组学获得的临床信息可能在不同肿瘤学背景下具有通用性[22]。因此,在基于影像的FL(滤泡性淋巴瘤)骨髓受累建模中,扩大VOI(感兴趣区域)的覆盖范围以包括脊柱骨髓信息,可以更准确地描述骨髓受累的整体负担和空间异质性。这也表明,PET/CT对骨髓受累的评估不应仅限于视觉上的弥漫性摄取模式或单一的SUV(标准摄取值)指标,而应进一步关注灰度分布、局部纹理结构以及这些特征所反映的骨髓异质性。本研究的结果进一步支持了BMI(体重指数)不仅仅是一个孤立的局部病理现象的观点,而更可能代表系统性疾病负担增加和生物活性增强的状态。与BMI正常的患者相比,BMI异常的患者更常出现广泛的区域淋巴结受累、B症状、较大的淋巴结病变,以及血红蛋白(Hb)水平降低和乳酸脱氢酶(LDH)及β2-微球蛋白(β2-MG)水平升高的情况。这些差异共同指向更高的肿瘤负担和较差的宿主状态。在最终模型中,最重要的变量并非仅来源于高维放射组学特征,还包括临床负担指标Lnr、血清标志物β2-MG以及各种纹理特征。这表明BMI预测的关键在于整合临床信息和影像异质性,而不仅仅是单一指标。Lnr的预后价值也在之前的FL大样本研究中得到了验证[23]。β2-MG和BMI的联合重要性也在之前的研究中得到确认,这与本研究确定的主要预测临床变量一致[3]。此外,在简化的PRIMA-PI预后评分系统中同时纳入β2-MG和骨髓受累,进一步强调了β2-MG和BMI在FL风险分层中的协同作用。此外,β2-MG水平的升高通常与不良因素如LDH升高、年龄较大和受累淋巴结区域增多呈正相关,并且随着FLIPI风险类别的增加而增加,这表明它们可能反映了更广泛的疾病扩散和更高的生物活性[24]。本研究的结果不仅支持BMI与系统性疾病负担之间的密切关联,还表明骨髓内的代谢异质性可能是这种高负担状态的重要PET/CT影像表现。尽管本研究侧重于预测BMI的存在与否,但β2-MG与BMI程度、浸润范围甚至骨髓微环境变化之间的定量关系仍需在未来的研究中进一步澄清。
在模型层面,本研究比较了各种机器学习算法在最佳VOI框架内的预测性能。结果显示,GBM模型在独立验证集中的表现相对平衡且稳定,表明其在当前样本量和特征结构下具有较好的泛化能力。与在训练集中表现近乎完美但在验证集中显著下降的RF和AdaBoost相比,GBM在拟合能力和泛化能力上表现更好。尽管LR和SVM总体上较为稳定,但其在敏感性和特异性方面的表现仍落后于GBM。这些结果表明,对于预测FL中骨髓受累这一复杂任务,涉及临床变量、传统PET参数和高维放射组学特征,仅仅增加模型复杂性并不一定能带来更好的泛化性能。本研究中确定的最佳建模框架未包含深度学习特征,这也具有方法学意义。这并不意味着深度学习特征没有潜力;相反,它表明在样本量相对有限的情况下,增加特征复杂性并不一定意味着更稳定的泛化性能。现有的系统评价指出,尽管深度学习模型和融合模型在某些研究中可以提高性能,但它们的优势并不总是优于更传统的建模策略,在验证集或外部队列中并不总是如此[25]。同时,研究表明,从预训练网络中提取的深度特征并不一定优于手工制作的放射组学特征;在样本量有限和特征维度较高的情况下,添加深度特征实际上可能会增加冗余和过拟合的风险,从而削弱模型的泛化能力[26]。结合本研究的结果,整合临床变量、传统PET参数和放射组学特征可能已经足以描述BMI相关的信息,并在预测性能和模型稳健性之间取得更合理的平衡。SHAP分析显示,模型的关键信息主要来自一阶统计特征和高阶纹理特征,表明与BMI相关的影像表型不仅仅表现为骨髓FDG摄取增加,更可能反映了骨髓内灰度分布的增加、更多高摄取的局部区域以及空间异质性的重塑。先前的研究表明,FL中的骨髓受累在PET/CT上可能表现为局灶性或异质性的摄取增加,定量分析可以提高BMI的检测能力,从而为异质性相关特征的贡献提供了影像基础[13]。Orig-FO-IQR代表ROI(感兴趣区域)内灰度分布的离散程度;较高的值表明骨髓代谢信号更为分散,这与肿瘤浸润后正常骨髓相对均匀的代谢背景被破坏一致。Wav-HLL-NGTDM-Strength、Wav-HLL-GLRLM-SRHGLE和LBP3D-m2-GLSZM-SAHGLE共同表明区域代谢对比度更明显,短距离、小面积高强度焦点更为丰富,表明BMI患者的骨髓可能包含更多散在或微小的高代谢浸润灶[15]。相比之下,LBP3D-m1-GLCM-MCC主要反映了局部纹理复杂性的增加[27]。由于LBP本质上是一个灰度不变和旋转不变的局部纹理描述符,其在最终模型中的包含表明BMI相关信息不仅来源于整体摄取强度,还来源于骨髓微观纹理组织的变化。从病理学角度来看,这可能与肿瘤细胞浸润后正常造血组织、脂肪成分和肿瘤成分的混合分布的重塑有关,从而在PET图像上表现为更复杂的局部纹理模式。
总体而言,本研究表明FL中的骨髓受累与更高的肿瘤负担、不良临床特征和骨髓内代谢异质性的改变密切相关;基线18F-FDG PET/CT可以提供有价值的无创表型信息。与单独的盆腔VOI框架相比,结合脊柱-盆腔VOI框架在整合临床、传统影像和放射组学特征后显示出更强的预测性能,表明更全面的骨髓表型描述可能有助于提高BMI的识别能力。本研究存在几个局限性。首先,作为一项单中心回顾性研究,样本量相对较小且没有独立的外部验证,模型的泛化能力需要进一步评估。在训练-验证分割之前,使用Wilcoxon秩和检验和Fisher精确检验对整个队列进行了初步的临床和传统影像特征的描述性筛选,这可能引入了轻微的信息泄露;然而,所有后续的特征选择和模型训练步骤都在训练集内进行,以减轻这种潜在偏差。其次,尽管BMB(骨髓活检)是临床参考标准,但其单点采样的性质可能会低估骨髓受累的真实程度,从而影响PET/CT上全身骨髓表型与病理发现之间的一致性。第三,本研究主要关注BMI的存在与否,并未进一步探讨骨髓受累的程度或其预后意义。最后,尽管SHAP分析提高了模型的可解释性,但相关影像特征与骨髓受累的生物学基础之间的关系仍需进一步验证。
结论:滤泡性淋巴瘤中的骨髓受累与更高的肿瘤负担和骨髓内代谢异质性的改变相关,18F-FDG PET/CT提供了有价值的无创评估信息。与单独的盆腔VOI框架相比,结合脊柱-盆腔VOI框架在整合临床、传统影像和放射组学特征后显示出更强的BMI预测性能,为精确识别滤泡性淋巴瘤中的骨髓受累提供了新的方法学基础。