基于剂量的放疗分割变异评估:一项分析性综述

时间:2026年5月15日
来源:Radiotherapy and Oncology

编辑推荐:

乔埃尔·E·范阿尔斯特(Joëlle E. van Aalst)| 费德里卡·C·马鲁乔(Federica C. Maruccio)| 丽塔·西蒙尼斯(Rita Simões)| 普雷拉克·莫迪(Prerak Mody)| 齐诺·A·R·高夫(Zeno A.R. Gouw)| 罗

广告
   X   

乔埃尔·E·范阿尔斯特(Joëlle E. van Aalst)| 费德里卡·C·马鲁乔(Federica C. Maruccio)| 丽塔·西蒙尼斯(Rita Simões)| 普雷拉克·莫迪(Prerak Mody)| 齐诺·A·R·高夫(Zeno A.R. Gouw)| 罗宾·维斯曼(Robin Wijsman)| 扬-雅各布·松克(Jan-Jakob Sonke)| 彼得·M·A·范奥延(Peter M.A. van Ooijen)| 夏洛特·L·布劳威尔(Charlotte L. Brouwer)| 托马斯·M·詹森(Tomas M. Janssen)
荷兰格罗宁根大学、格罗宁根大学医学中心放射肿瘤科

**摘要**
在放射治疗(RT)中,划定目标区域和风险器官(OARs)是必要的步骤,但这一过程仍存在观察者间差异(IOV)。虽然通常使用自动分割技术,但自动分割和IOV研究中的一个根本挑战是评估分割的质量。尽管几何指标被广泛使用,但它们提供的临床见解有限。理想情况下,评估应反映临床影响,然而基于结果的直接评估很少可行。基于剂量的评估可以作为一种替代方法,它评估分割差异如何影响实际给予或报告的剂量。本综述全面总结了截至2024年12月发表的关于RT中分割研究的基于剂量的评估方法,包括自动分割和IOV的相关内容。根据PRISMA-ScR指南,两名独立评审者搜索了两个数据库(PubMed和Scopus),筛选出了144篇符合条件的研究。我们观察到评估方法存在显著异质性,包括所使用的方法、指标以及临床意义上的剂量差异的定义。大多数研究报告称OARs的剂量学影响不大或不存在(84%),但在个别研究中也存在显著异常情况。对于目标区域的剂量差异,报告频率较低(31%)。影响几何分割变异敏感性的因素(如高剂量梯度的接近程度或结构大小)具有情境依赖性。临床和计划情境(包括剂量一致性)也被认为对分割变异对剂量的影响具有显著影响。总体而言,本综述突显了方法学上的高度异质性,并强调了在基于剂量的评估中需仔细考虑各个步骤的必要性。提高基于剂量的评估的可比性和可解释性需要标准化评估框架,并就临床意义上的剂量差异定义达成共识。

**引言**
在放射治疗(RT)中,划定目标体积和风险器官(OARs)是必不可少的步骤。分割的不准确性会传递到后续环节,影响剂量分布的优化,可能导致目标区域覆盖不足或OARs不必要的暴露。此外,由于分割是剂量-体积直方图(DVH)基计划评估的基础,不准确性会妨碍对计划剂量的正确评估,从而可能影响患者的治疗选择[1]。当这些分割用于建模剂量-效应关系时,偏差可能导致实际给予剂量与观察到的生物学结果之间的关联不可靠[2]。手动分割仍然是目前的分割标准方法,但这种方法耗时且容易产生大量观察者间差异(IOV)[3],[4],[5]。为了提高效率和可重复性,基于人工智能(AI)的自动分割技术迅速发展并逐渐应用于临床工作流程中。分割质量评估在RT中起着关键作用,例如评估由轮廓引导的手动分割的一致性或评估自动分割模型的临床适用性。当计划 margins 减少或剂量梯度较大时(如在(在线)自适应RT中),分割质量尤为重要。然而,由于在大多数情况下无法获得真实的分割数据,“高质量”分割没有绝对的定义[6],因此只能通过将分割结果与参考标准进行比较来评估其质量。这就引出了一个问题:哪种评估策略最能反映分割差异的临床相关性。

**分割质量评估方法**
评估分割质量的方法多种多样,包括几何评估、基于剂量的评估和定性评估[7],[8],[9]。理想情况下,评估应能反映分割变化如何影响临床结果,这也是本综述的主题。自动分割对工作流程的影响已在其他文献中进行了全面讨论[7],[8],[9],因此不在本综述的讨论范围内。在RT中,临床相关性最直接地通过患者结果来定义。然而,基于这些结果的直接评估对于分割研究是不可行的,因为它需要大量患者样本、长期随访以及对众多混杂因素的控制(如患者间肿瘤生物学差异、治疗反应以及治疗过程中的设置不确定性和解剖变化)。另一种方法是使用生物学终点,例如肿瘤控制概率(TCP)和正常组织并发症概率(NTCP)模型,但这些模型在实践中并不常用,往往是因为缺乏共识模型或所需额外临床信息不可获取。因此,基于剂量的评估是最常见的替代方法,它旨在评估分割差异如何转化为实际给予或报告的剂量差异,部分研究还会进一步使用生物学模型来解释这些剂量差异。

**基于剂量的评估方法**
在基于剂量的评估中,可以区分两种方法:
1. **计划中的剂量学影响(DIP)**,评估分割差异如何影响治疗计划的优化过程;
2. **评估中的剂量学影响(DIE)**,评估分割差异如何影响最终治疗计划的评估[10]。类似的概念也被贝雷纳托(Berenato)等人[11]和瓦森(Vaassen)等人[12]提出,分别将DIP视为分割对“患者剂量”(即治疗效果)的影响,将DIE视为“报告剂量”(即治疗质量和安全性记录)的影响。这两种方法反映了分割在RT中的两个主要作用:指导治疗计划优化和支持治疗计划评估。

虽然基于剂量的评估近年来越来越受到重视,但在大多数研究中,分割质量仍主要通过几何指标来评估[8]。这些指标在RT分割评估中已被广泛应用,并能立即量化分割的相似性[7],但其临床相关性常常受到质疑[13]。几何指标本质上没有考虑RT的空间、剂量学和临床背景,相同几何量级的偏差可能产生截然不同的临床后果[7]。瓦森等人[8]引入的路径长度参数为其提供了一种相关的解释方法,因为这与编辑时间相关。尼科洛夫(Nikolov)等人[14]提出了表面 Dice 相似系数,但并非所有编辑都直接影响治疗计划质量。因此,文献中对几何差异与其对最终剂量分布影响之间的关联支持较弱[8],[15]。为了更好地反映临床影响,使用几何评估的分割评估需要结合基于剂量的评估[7]。这不仅对回顾性分析重要,而且在临床工作流程中(尤其是在磁共振引导的RT等自适应环境中)快速自动分割评估对于保持临床效率至关重要。目前需要制定稳健的质量保证协议,通过基于剂量的评估来确定哪些轮廓编辑真正影响治疗计划,哪些不影响。然而,特定方法选择背后的理由很少被讨论,这使得解释观察到的剂量差异和比较不同研究的结果变得复杂,并突显了标准化方法的缺乏。

**方法学考虑**
鉴于基于剂量的评估的多样性和复杂性,以及由于方法学差异导致的结果无法系统地汇总,我们采用了综述方法。我们的目标是通过总结所使用的方法和指标,并讨论其含义和局限性,来提供RT分割中基于剂量量评估策略的全面概述。此外,我们还分析了报告的结果及其在临床背景下的解释方式,以此评估基于剂量的分割质量的技术细节和结果。

**研究方法**
在进行本综述时,遵循了系统综述和荟萃分析扩展的优选报告项目(PRISMA-ScR)[16]。相应的PRISMA检查表见补充材料1.1(表S1)。本综述的预注册使用开放科学框架通用系统综述注册表(OSF)[17]完成,并将在发表后公开。

**数据库搜索和筛选**
搜索范围涵盖了所有关于RT领域中涉及人类患者数据的英文研究,这些研究对分割变异进行了基于剂量的评估,包括观察者间差异和自动分割研究,既包括目标区域也包括风险器官。排除那些仅使用分割进行治疗计划研究而未明确评估分割质量的研究,或通过除剂量评估以外的其他方法(如时间节省、临床接受度等)评估临床影响的研究。纳入和排除标准详见补充材料1.2。文献搜索在PubMed(NLM)和Scopus(Elsevier)中进行,涵盖了从数据库创建以来的所有记录,直到搜索日期(2024年12月12日),使用了与放射治疗、(自动)分割、分割变异和剂量评估相关的关键词组合。搜索策略见补充材料1.3。未进行backward reference check。去除重复项后,两名评审者分别根据标题和摘要独立进行了初步筛选。在意见不一致的情况下,会共同重新评估摘要和标题,并与其他作者讨论任何未解决的问题。本综述不进行正式的质量评估,符合其目标。

**数据提取和管理**
从所有纳入的文章中提取了基本研究信息,包括发表年份、肿瘤部位以及进行基于剂量评估的原因。还记录了研究是否评估了观察者间差异(IOV)、自动分割或两者兼有。收集了分割特征,包括分割的结构和真实值的定义。对于IOV研究,记录了观察者的数量;对于自动分割研究,报告了所使用的分割模型。此外,还获取了关于基于剂量的评估方法、具体评估的剂量指标以及评估是否在自适应RT背景下进行的信息。同时记录了几何指标,以及是否计算了NTCP或TCP。最后,关于结果评估和解释的信息包括所应用的统计方法、临床可接受剂量差异的定义,以及是否报告了几何准确性与剂量差异之间的相关性。上述分类基于预先定义的关注点,并根据纳入研究的特征进行了迭代细化。

**数据整理**
一名评审者仅从涉及风险器官的文章中提取数据,另一名评审者从涉及目标区域或同时涉及目标区域和风险器官的文章中提取数据。两名评审者通过定期讨论提取的数据进行交叉验证。包含所有纳入研究和其提取数据的文件见补充材料1.6。研究选择和数据提取使用Microsoft Excel v2016完成,数据分析使用Tableau Public v2025.1。通过计算报告显著剂量差异的研究比例以及各研究级别元数据类别的比例,对提取的数据进行了定量总结。由于研究设计和结果的差异性,未进行正式的荟萃分析或亚组分析。

**研究结果**
文献搜索共得到PubMed中的369篇文章和Scopus中的570篇文章,去除重复项后剩下508篇独特文章。经过摘要筛选后,144篇符合纳入标准并被纳入综述。完整的PRISMA流程图见补充材料1.4。其中,87篇(60%)专注于自动分割,36篇(25%)关注观察者间差异,其余研究同时评估了两者。在评估的解剖结构方面,32篇(22%)仅研究目标区域,73篇(51%)关注风险器官,其余研究同时分析目标区域和风险器官(见图1)。最常见的肿瘤部位是前列腺(39/144,27%),其次是头颈部(34/144,24%)、肺(25/144,17%)、乳腺(20/144,14%)、妇科(19/144,13%)、脑(13/144,9%)和直肠(8/144,6%)(见表1)。其他肿瘤部位的研究较少,每种部位的研究数量均少于4篇(见表1)。大多数研究使用计算机断层扫描(CT)成像(N=109),其次是磁共振(MR)成像(28/144,19%)进行分割引导,少数研究同时使用这两种模式(4/144,3%)。仅有少数研究使用了其他模式(11/144,8%),如锥形束CT(CBCT)和四维CT(4DCT)。研究使用了多种治疗模式,包括三维适形放射治疗(3DCRT)、容积调制弧度治疗(VMAT)、强度调制放射治疗(IMRT)、立体定向体部放射治疗(SBRT)和近距离放射治疗。首项基于剂量的评估研究发表于2000年[18],从2020年开始,相关研究的发表频率逐渐增加。有关这些发现的概述,请参见补充材料1.6。下载:高分辨率图片(264KB)下载:全尺寸图片

图1. 对自动分割(AS)或观察者间变异性(IOV)进行剂量评估的研究数量累积情况。注意:结果按时间累积显示,并按类别堆叠以防止重叠。

表1. 被评估研究中肿瘤部位的发生情况。
肿瘤部位(N = 研究总数)
OAR研究数量(篇)
目标研究数量(篇)
目标+OAR研究数量(篇)

前列腺(N = 39)
15 [11], [19], [20], [21], [22], [23], [24], [25], [26], [27], [28], [29], [30], [31], [32]
6 [33], [34], [35], [36], [37], [38]
18 [39], [40], [41], [42], [43], [44], [45], [46], [47], [48], [49], [50], [51], [52], [53], [54], [55]

头颈(N = 34)
25 [10], [19], [24], [39], [41], [56], [57], [58], [59], [60], [61], [62], [63], [64], [65], [66], [67], [68], [69], [70], [71], [72], [73], [74], [75]
3 [76], [77], [78]
6 [48], [54], [79], [80], [81], [82]

肺(N = 25)
16 [12], [19], [83], [84], [85], [86], [87], [88], [89], [90], [91], [92], [93], [94], [95], [96]
6 [97], [98], [99], [100], [101], [102]
3 [80], [103], [104]

乳腺(N = 20)
9 [19], [24], [58], [105], [106], [107], [108], [109], [110]
5 [111], [112], [113], [114], [115]
6 [54], [116], [117], [118], [119], [120]

妇科(N = 16)
6 [18], [19], [25], [121], [122], [123]
5 [124], [125], [126], [127], [128]
5 [129], [130], [131], [132], [133]

脑(N = 13)
11 [19], [134], [135], [136], [137], [138], [139], [140], [141], [142], [143]
2 [144], [145]

直肠(N = 7)
6 [19], [24], [58], [60], [122]
1 [146]
1 [147]

其他(N = 11)
1 [19]
4 [148], [149], [150], [151]
6 [152], [153], [154], [155], [156], [157]

**研究如何进行基于剂量的评估**
本节概述了当前基于剂量的评估实践,重点介绍了所审查的研究在剂量分析中处理的主要决策:获取剂量差异的评估方法、选择的剂量指标以及解释这些差异的策略。

**基于剂量的评估方法**
进行基于剂量的评估涉及选择要比较的轮廓和剂量分布。通常,一个轮廓被作为参考,其他轮廓与之进行比较。
在自动分割研究中,参考轮廓(真实值)最常是通过临床轮廓集回顾性获得的。这些轮廓要么由临床医生从头开始绘制而无需进一步审查,要么由第二位临床医生检查。在少数研究中,编辑后的自动分割结果被用作参考,或与手动轮廓结合使用以评估潜在差异。研究中的另一种轮廓是自动分割结果。大多数研究(N = 87)使用内部模型(例如新开发的模型或之前内部开发的模型)生成自动分割,而52项研究应用了外部模型(例如商业模型或开源模型)。
对于IOV研究,大多数研究比较了多名观察者的轮廓,将其中一个定义为参考轮廓,其他作为替代轮廓,或使用成对比较。在其他情况下,参考轮廓是基于共识的轮廓(如STAPLE或多数投票),或者是临床使用的轮廓、外部观察者生成的轮廓,或是由其中一名观察者在不同成像模式上绘制的轮廓。每项研究的观察者数量从2到21不等。

一旦定义了参考轮廓和替代轮廓,下一步就是确定要比较的剂量分布。如图2所示,有四种评估方法。三种方法涉及根据替代轮廓优化剂量分布:从计划中获得的剂量影响(DIP)、从评估中获得的剂量影响(DIE)和独立方法。当不进行重新计划时,两种轮廓都是基于参考轮廓在原始治疗计划上评估的。大多数研究使用非重新计划方法(49/144,34%),33/144(23%)的研究使用DIP方法,而15/144(10%)的研究应用DIE方法。此外,2/144(1%)的研究采用独立方法,分别使用各自的轮廓独立评估参考轮廓和替代轮廓生成的剂量分布。有6/144(4%)的研究评估了多种方法。此外,在相当比例的研究中(35/144,24%),评估方法没有明确指定。部分研究(25/144,17%)专门评估了自适应RT中的重新计划,检查由于轮廓变化导致的剂量差异。最后,4项研究计算了剂量值;然而,它们没有在轮廓之间进行比较。每项研究的详细信息可在补充材料1.6中找到,该材料以Excel表格的形式提供,数据按列组织,可以过滤以方便检索特定信息。

图2. A. 基于剂量的评估方法概述。使用了四种主要方法:DIE(从评估中获得的剂量影响),其中剂量指标从单个计划中提取并应用于参考和替代轮廓;DIP(从计划中获得的剂量影响),其中剂量指标在基于参考和替代轮廓的计划之间进行比较;独立方法,其中计划分别针对参考和替代轮廓进行优化和评估;非重新计划方法,其中两种轮廓都在原始临床计划上评估而无需重新计划。B. 按基于剂量的评估方法分类的进行剂量评估的研究数量累积情况。注意:子图B提供了按时间累积的研究数量。结果按类别堆叠以防止重叠。

**基于剂量的评估指标**
为了量化轮廓变化对剂量分布的影响,必须定义适当的剂量指标来代表RT中的临床目标。大多数研究基于剂量体积直方图(DVH)统计量评估剂量指标,包括热点(118/144,82%)、覆盖范围(94/144,65%)、Dmean/Dmedian(93/144,65%)或其他DVH参数(118/144,82%)。一些研究更全面地评估治疗计划,使用计划质量指数(25/144,17%)、完整的DVH比较(13/144,9%)或放射生物学指标(13/144,9%)。图3展示了剂量指标的主要和子类别及其在研究中的使用频率。

图3. 评估研究中的剂量评估指标频率,按主要和子类别分类。A. 基于DVH的标量评估指标。B. 计划质量指数。C. 综合和比较评估指标。D. 基于结果预测的评估指标。热点剂量:Dmax、D0.03 cc、D5%等;其他DVH参数:Dp、Vq,其中5% < 95%且q < 98%;覆盖范围:Da、Vb,其中a >= 98%且b >= 95%。注意:个别研究可能评估了多个剂量指标,因此可能在图中出现多次。然而,在每个子类别中,每项研究仅计数一次(例如,同时评估Dmax和D0.01 cc的研究在热点剂量类别中只计数一次)。所有观察到的指标及其相应的(子)类别的完整列表在补充表1中提供。

**剂量差异的分析**
在94/144项研究(65%)中进行了剂量差异的统计评估,最常用的是Student’s t检验或Wilcoxon符号秩检验。剩余的50/144(35%)研究依赖于非统计方法来评估剂量差异,包括使用预定义的阈值(例如1 Gy或1%)、遵守计划约束、与观察者间变异性(IOV)的比较或基于专家的评估。值得注意的是,许多研究主要采用定性解释,使用“小”或“可忽略”等术语描述剂量差异,而其他研究没有提供明确的临床相关性评估。

对于统计和非统计评估,主要挑战在于解释剂量差异。虽然基于剂量的评估常被视为评估临床相关性的方式,但并没有一致的方法来解释剂量差异是否具有临床意义。为了确认基于剂量的评估与几何评估的价值,30/144(21%)的研究进行了相关性评估,例如使用回归模型或Spearman或Pearson相关系数。其中一些研究报告了所有结构和指标之间的弱相关或不显著的相关性[29]、[48]、[53]、[69]、[83]、[97]、[136]、[139]。其他研究确实观察到了相关性,但这些相关性有限,仅在汇总OARs时出现[62],或仅限于特定结构和指标[33]、[40]、[43]、[50]、[60]、[70]、[71]、[74]、[79]、[104]、[111]、[112]、[119]、[129]、[130]、[140]、[147]、[156]。

**基于剂量的评估结果**
IOV研究评估了平均10名患者(范围2–99名),自动分割研究评估了平均20名患者(范围3–378名)。在应用统计分析研究OAR剂量差异的研究中(74/144,51%),62项研究报告在不到50%的OAR中发现了统计上显著的差异。其中,37项研究在任何OAR中均未发现统计上显著的剂量差异;15项研究同时研究了目标和OAR的剂量学。在使用非统计评估的研究中(29/144,20%),21项研究得出结论认为轮廓变化对剂量没有显著影响,其中包括15项专注于目标和OAR轮廓的研究。相比之下,评估目标剂量指标的研究更有可能报告显著效应。在分析目标剂量差异的65/144(45%)研究中,20项研究未报告由于轮廓变化导致的显著剂量差异。而在剩余的45项研究中,28项研究发现了对目标剂量的显著影响,其中28项研究使用了统计分析。

**剂量对轮廓变化的敏感性的决定因素**
剂量差异的存在促使一些研究探讨了除方法选择之外,哪些因素影响剂量指标对轮廓变化的敏感性。没有一致的趋势表明几何变化与剂量差异之间的联系;然而,在特定情况下观察到了相关性,例如大的轮廓变化[60]、较大或较长的结构[54]、[64],或使用最大剂量而非平均剂量来评估OARs[139]。OAR大小的影响尚无定论:较小的OARs与较低的[58]、[59]、[137]、[139]和较高的[84]、[120]剂量差异相关,而一些研究未发现这种关系[87]、[119]。一些研究还考虑了剂量分布的特征来预测剂量差异。一个共同的发现是,当轮廓偏差位于高剂量梯度附近或靠近目标体积时,剂量差异更大[18]、[21]、[24]、[28]、[29]、[50]、[53]、[62]、[64]、[68]、[78]、[80]、[83]、[84]、[89]、[96]、[104]、[107]、[108]、[119]、[123]、[136]、[152]、[158],尽管一些研究也在低剂量区域发现了更大的差异[41]、[68]、[69],或发现与目标剂量的距离对剂量差异没有影响[39]。剂量指标的选择进一步影响了结果:最大剂量被认为对OARs的局部几何变化更敏感[70]、[138]、[139],尽管有一项研究发现对平均剂量的影响更大[140]。对于目标而言,最小剂量受到轮廓位置变化和存在尖锐剂量梯度的影响最大[104]、[128]。此外,一些研究发现基于体积的指标比基于百分比的指标显示出更大的变化[26]、[28]、[29]、[48]。同样,治疗方式通过影响剂量梯度的形成方式来影响观察到的剂量差异。一致性差异和剂量下降的陡峭程度对剂量差异的影响大于几何差异本身,无论是在目标[43]、[44]、[77]还是OARs[70]、[83]中。然而,按治疗方式分层分析剂量差异受到研究间异质性和所使用治疗方式不明确性的限制。

**讨论**
在RT领域,目标和OAR的轮廓绘制对于治疗计划和评估是必要的。随着对基于剂量的评估作为几何评估补充的兴趣日益增长,这反映了需要使用更符合RT工作流程中临床相关性的指标来评估轮廓变化。然而,在方法选择上存在高度异质性,且缺乏关于轮廓变化是否通常会产生具有临床意义的剂量学差异的总体概述。这项范围审查系统地评估了144项进行基于剂量的轮廓变化评估的研究的方法和发现。大多数关于目标的研究报告说,轮廓变化会导致有意义的剂量差异。相比之下,大多数关于OAR的研究只发现少数结构存在显著的剂量差异。然而,研究在计算剂量差异的方式、应用的指标以及解释临床相关性的方法上存在差异。一个几何偏差是否转化为具有临床意义的剂量效应取决于几个因素,如与陡峭剂量梯度的接近程度、特定的DVH参数和OAR的大小。尽管如此,矛盾的发现强调了这种关系的复杂性。由于研究之间存在较大的异质性,未发现与肿瘤位置和计划类型相关的剂量影响报告存在一致的趋势。方法学选择的影响所做出的方法学选择会影响基于剂量的 delineation 变异性评估。识别并考虑这些选择对于在研究之间进行公平比较以及评估其临床相关性至关重要。基于剂量的评估方法的目标通常是了解观察者之间在 delineation 上的差异如何转化为剂量终点的变化,或者验证自动分割模型是否可以最小化手动调整直接应用于临床放疗计划。因此,对替代结构进行重新优化可能提供最符合临床实际的影响估计 [60]。两种主要包含重新优化的方法是 DIP 和 DIE。在这些方法之间的选择本质上决定了正在评估的放疗工作流的哪个方面。然而,这一点在研究中通常没有明确说明,从而限制了报告的基于剂量的评估结果的可解释性。将重新规划的剂量与原始 delineation 上的原始剂量进行比较可以捕捉到治疗计划优化带来的剂量影响(DIP),而将重新规划的剂量与原始和替代 delineation 之间的剂量进行比较则反映了治疗计划评估带来的剂量影响(DIE)。几项比较剂量评估策略以计算剂量差异的研究强调了这种差异,认可了每种方法的独特价值。Berenato 等人 [11] 表明这两种方法是不可互换的,DIE 通常产生的剂量差异比 DIP 更大。Mody 等人 [70](DIP 与非重新规划)和 Chen 等人 [123](DIP 与独立方法)也进行了类似的比较。Poel 等人 [159] 通过一个清晰的案例示例说明了 DIP 和 DIE 分析之间的区别,直观地阐明了评估方法选择的实际意义。虽然一些研究进行了重新规划,但他们将重新计算出的剂量和原始计划与计划优化的相应 delineation 进行了比较(独立方法,图 2)。由此导致缺乏共同的基准,限制了剂量值的直接可比性,从而影响了剂量差异的可解释性。然而,大多数研究没有进行重新规划。当重新规划实际上不可行时,例如对于大型数据集,不进行重新规划是一种资源效率较高的评估剂量差异的方法。尽管不进行重新规划的方法可能与 DIE 相关 [160],但应注意,delineation 的变化本质上改变了底层优化问题。delineation 的变化改变了优化问题的帕累托前沿形状,可能导致目标之间的不同权衡 [161]。因此,不进行重新规划可能无法完全反映 delineation 变化对最终治疗计划的影响。考虑到全面手动重新规划非常耗时,特别是对于大型数据集,一些研究提出了实用解决方案,例如在重新优化之前从临床计划中固定光束设置和目标权重 [70]、[123]、[139],或使用自动化规划算法 [11]、[62]、[69]、[70]、[85]、[148],这些算法可以在之后进行后处理 [64]。在某些情况下,可以有意使用不进行重新规划的限制。在引入新的 OAR 时,不进行重新规划允许明确检查未优化目标的剂量后果 [75]。未来,提高基于剂量的评估结果的临床可解释性关键在于更大的方法学透明度。此外,研究人员还应确保所选择的方法与放疗工作流中的特定研究目标保持一致。基于剂量的评估指标的选择也决定了剂量影响的感知方式。虽然基于 NTCP 和 TCP 的比较可以将剂量差异转化为预测的生物学和临床效应,但这仅在 13 项研究中报告。大多数研究采用 DVH 基的参数,这些参数也用于治疗计划的临床评估。对于 IOV 分析,比较这些指标自然反映了轮廓变异性如何整合到临床规划工作流中,其中多个观察者可能被分配给一位患者。虽然这确实反映了 delineation 变异如何影响临床工作流中的决策,但我们应该注意到,差异的临床解释也取决于指标的类型。正如 Hoque 等人 [48] 所指出的,每种剂量指标对几何变化的敏感性不同,这取决于提取的是点剂量测量还是体积剂量测量。例如,在剂量梯度陡峭的区域,即使是很小的 delineation 差异也会导致基于点的指标(如最大或最小剂量)发生显著变化,而基于体积的参数(如平均剂量)受到的影响较小。在自动分割研究中,这种对指标选择的敏感性被放大了,因为这些研究通常评估多个结构,依赖单一指标可能会忽略器官间的权衡。作为解决方案,一些研究将不同的评估指标结合起来形成计划质量指标,提供计划层面的变化评估 [41]、[48]、[67]、[92]、[104]。尽管计划质量指标能够对效果进行整体比较,但它们的解释往往不直观,因为它取决于加权方案和临床优先级。此外,计划质量指标本质上是特定于案例和研究的,限制了跨队列的可比性,降低了它们作为临床相关性通用基准的实用性。在 13 项研究中,除了 DVH 导出的值外,还通过计算轮廓之间的差异或重叠来比较完整的 DVH 图。虽然这确实反映了 delineation 差异对治疗计划或治疗计划评估阶段的整体影响,但它们缺乏局部信息,在直接临床相关性方面难以解释。此外,指标计算中经常做出任意选择,例如采用绝对剂量差异或相对剂量差异。绝对剂量差异捕捉了变化的幅度,而百分比和有符号剂量差异可以表明剂量的系统性高估或低估 [91]。Rosewall 等人 [26] 认为相对剂量差异在研究之间更具可比性,并且似乎在毒性预测方面具有更大的预测能力。然而,对于 TCP 和 NTCP 建模以及百分比基指标的临床解释来说,有符号差异是必要的。此外,还提出了新的基于剂量的评估指标,例如具有剂量一致性指数的覆盖度(CDCI)[114],该指数与覆盖指数(CI)结合使用,以反映 IOV 对目标 delineation 的剂量影响。尽管这些发展代表了更全面捕捉轮廓变异性剂量影响的宝贵努力,但它们也在评估方法中引入了更多的异质性,并使临床解释变得更加复杂。此外,与使用更传统指标的先前研究的可比性受到限制。剂量差异的分析尽管剂量差异被认为比几何测量更具临床相关性,但由于缺乏关于剂量差异何时具有临床意义的共识,解释这些差异仍然具有挑战性。对于 IOV 和自动分割研究,解释挑战不同。对于 IOV,目标通常是探索性的:描述观察者之间剂量变化的幅度和范围 [18]、[73],或比较不同指南 [31] 或治疗方式 [75]、[122] 之间的 delineation 变异。临床解释更为清晰:IOV 代表了临床实践中的固有变异性,任何导致减少的干预(例如指南或额外成像)都被认为是有益的。采用的统计方法包括传统的协议度量,如 Levene 的方差同质性检验 [121]、类内相关系数 [26],以及个别观察者之间 [32] 或观察者与其集体平均值之间的比较分析 [29]。相比之下,自动分割评估需要确定性能是否“可接受”。然而,定义这一阈值具有挑战性。一种方法是将对自动分割和手动 delineation 之间的差异与在同一数据集上测量的 IOV 进行比较 [57]、[66]、[68]、[71]、[85]、[91]、[106]、[107]、[108]、[109]、[139]、[141]。另一种选择是比较不同(自动)轮廓方法产生的 IOV [63]、[86]。然而,将 IOV 的减少解释为质量的改进应谨慎对待,因为质量和变异性评估变得越来越相互交织,可能会掩盖系统偏差。比较自动分割与 IOV 的研究结果有所不同:两项研究报告手动观察者之间的 agreement 更高 [71]、[139],而 Simões 等人 [127] 表明编辑后的自动分割和从头开始的手动 delineation 之间的剂量差异在 IOV 导致的剂量变化范围内。Berenato 等人 [11] 证明最小程度的编辑可以使自动分割达到临床可接受的限度,Lucido 等人 [67] 比较了自动分割的编辑与手动 delineation 的编辑,并观察到使用深度学习可以提高与真实值的一致性。然而,大多数情况下,同一患者组的自动分割缺乏 IOV 分析,需要 alternative 解释框架。出现了两种策略:统计评估和非统计评估。统计评估检验自动分割和手动 delineation 之间的剂量值是否存在显著差异的假设。非统计评估依赖于主观描述符(例如,“小”、“临床可忽略”)、固定的数值阈值(通常是 1 Gy 或 1%,统一应用于所有指标),或验证自动化轮廓是否满足临床约束。虽然基于约束的评估确保了计划的基本可接受性和患者安全,但它只提供了一个粗略的度量,可能无法捕捉到目标覆盖或 OAR 的临床相关细微差别 [137]。同样,将观察到的剂量差异与固定阈值进行比较未能考虑临床背景。将平均剂量增加 1 Gy 到接近容忍限度的 OAR 与增加最小剂量的器官相比有其他后果。主观描述符引入了依赖于个人经验、机构规范和审稿人预期的解释变异性,最终限制了可重复性和解释性。同时,统计评估也并非没有方法学挑战。统计评估的价值取决于适当的功效计算,并且理想情况下应包括先前的等效性测试,尽管这些通常没有进行。一些团队尝试了更有结构的剂量差异评估框架作为另一种潜在解决方案。例如,Alzahrani 等人 [136] 提出了一种分层的“剂量裕度”方法,根据临床重要性和指标类型(例如,接近最大剂量与平均剂量)对 OAR 进行分层,并将阈值与临床风险相关联。同样,Gan 等人 [68] 根据预定义的标准手动选择了最合适的 delineation 方法(手动或自动),隐含地建立了一个临床相关性的层次结构。另一项研究应用了基于 AI 的剂量预测模型得出的患者特定约束,据报道这些约束通常比基于指南的约束更严格 [82]。几项研究通过分析临床编辑的自动分割来评估现实临床工作流中的剂量差异。总体而言,编辑后的自动分割在剂量上等同于手动 delineation [74],或对于大多数结构显示出比未编辑的自动分割更小的剂量差异 [11]、[63]。比较手动或自动化 delineation 的盲法编辑的研究同样报告了可比的基于剂量的评估结果 [20]、[25],或与参考手动轮廓的一致性有所改进 [67]。此外,五篇文章评估了自适应工作流中的剂量影响 [47]、[80]、[103]、[125]、[153]。完全自动适应在剂量学方面通常不如监督方法,但在大多数情况下仍被认为是临床上可接受的。这些发现强调了没有单一的分析方法来确定剂量差异的临床相关性,详细信息见表 2。虽然结构化方法和结果建模提供了潜在的解决方案,但根本挑战在于临床可接受性是一个依赖于上下文的概念,需要针对具体情况进行定制以定义有意义的阈值。影响基于剂量的评估的因素。空细胞选项关键考虑因素剂量评估方法•来自计划的剂量学影响(DIP)•来自评估的剂量学影响(DIE)•非重新计划/独立•重新计划有两种主要选项:来自计划的剂量学影响(DIP)评估边界差异如何影响治疗计划的优化过程,而来自评估的剂量学影响(DIE)则研究边界差异如何传递到最终的治疗计划评估中[10]、[11]、[12]。•非重新计划方法可能与DIE相关[160],无需对替代边界进行重新计划。•重新计划的方法(手动、自动化、复制计划参数等)会影响所有重新计划评估。•DIP和DIE评估放射治疗工作流程的不同方面,不能互换[11]。剂量评估指标•NTCP/TCP•基于DVH的参数•综合和比较指标(全DVH比较)•计划质量指标•NTCP/TCP模型具有生物学意义,但实际上大多数研究报告的指标基于其自身临床实践,NTCP并不常用。•计划质量指标提供总体评估,但特定于病例和方案。•指标的选择从根本上影响对几何变化的敏感性:基于点的指标(Dmax, Dmin)对局部几何变化和陡峭剂量梯度的敏感度高于基于体积的指标(Dmean)[48]。•绝对剂量差异与相对剂量差异捕捉不同的方面:幅度与系统性高估/低估[91]。观察到的剂量差异的分析和解释•统计比较o统计显著性o非统计比较o在IOV内o在百分比/绝对阈值内o遵守计划约束•关于什么是具有临床意义的剂量差异,目前没有共识。•研究目的可能会影响解释(例如,验证自动分割与对新轮廓指南变异性的描述)。•异常值病例需要系统调查。基于剂量的评估结果在回顾的文献中,没有出现一致的剂量学影响趋势,因此无法对特定解剖部位或自动分割或IOV的剂量差异得出结论。这反映了设置基于剂量评估的机构因素的多样性,如边界实践、轮廓指南或评估的自动分割模型。尽管存在这种多样性,但有一个趋势是,自动分割目标结构比自动分割OAR更常导致剂量差异。这与广泛的研究一致,表明自动目标边界划分比自动OAR边界划分更具挑战性[162]。相比之下,在IOV研究中并未观察到这种模式。在这些研究中,报告的OAR剂量差异比自动分割研究多得多。这种差异可能反映了研究目的的根本不同。例如,在将分割模型引入临床实践时,目标是显示对放射治疗工作流程的最小影响。同样,在验证临床试验的剂量-反应轮廓指南时,目标是显示该轮廓指南导致的差异是可以接受的。研究目的似乎不仅影响设计,还影响结果的解释。当发现系统性的剂量差异时,通常会因为偏差较小或无临床意义而被淡化或认为不重要[11]、[35]、[49]、[62]、[68]、[70]、[72]、[77]、[83]、[93]、[116]、[117]、[135]、[140]、[152],计划要求仍然得到满足[70]、[116]、[129]、[130]、[131]、[135]、[137],偏差在文献中的IOV范围内[127],或者受影响的结构被认为对NTCP建模不重要[68]、[70]、[109]。虽然这支持了某些边界变化在剂量学或几何不准确性方面的临床可接受性[62],但也引发了关于潜在确认偏见的担忧,其中解释与证明等效性或临床可接受性的期望结果一致。一些研究还在基于剂量的分析中加入了定性专家评估,在某些情况下优先考虑专家判断以确定临床可接受性[61]、[72]、[84]。然而,定性判断可靠评估剂量差异的能力尚不确定。Heilemann等人[19]发现临床医生评分与几何指标和剂量差异之间的相关性较差。有两个因素在这种趋势中起作用。首先,对于什么是具有临床意义的剂量差异缺乏共识。定义从定性判断到固定数值阈值(例如1 Gy或1%的剂量差异)差异很大,而且限制往往没有得到讨论。其次,即使没有系统性的剂量差异,也经常观察到较大的病例特定偏差。这些异常值可能很大:6 Gy [87]、[89]、25 Gy [104]、40 Gy [91]、26% [23]。这些具有潜在临床意义的异常值很少被深入调查,通常在组水平上被认为统计上不显著。对于具有临床意义的剂量差异缺乏共识,加上对异常值的关注有限,使得这些解释主要是确认性的。这可能会忽略罕见但影响较大的失败。未来的研究应认识到定义具有临床相关剂量差异的复杂性,并强调对异常值的系统评估。剂量敏感性的决定因素认识到边界(手动或自动)不可避免地会包含一定程度的变化,因此关注这些偏差在什么条件下会对剂量产生影响。对几何异常值病例进行定性评估的研究有助于识别潜在的贡献因素。然而,它们没有确定一个单一因素,通过该因素几何变化始终转化为剂量差异。这突显了剂量学影响的多因素性质以及定性评估的有限普遍性。较少一组研究采用了系统的定量分析来评估所有剂量差异,从而更深入地了解特定部位和治疗组合的边界偏差的剂量效应。例如,Marquez等人[74]发现97%的剂量差异> 2 Gy发生在PTV 2.5 cm范围内,无论几何精度如何,而Vaassen等人[138]也发现OARs在PTV 4 cm范围内的最大剂量差异较高,尽管其他指标(平均剂量、D40%)没有显著趋势。Poel等人[139]使用模拟的OAR变化,没有发现距离效应;相反,形状、大小和位置是主要驱动因素,当体积超过一定值时,变异性稳定。相比之下,Xian等人[163]报告了距离效应。研究中决定因素的不一致性表明,业界一直在寻找一个简单的、通用的规则来预测剂量影响,这可能简化了由多个因素决定的关系[64]、[69]、[139]。未来的进展将取决于开发系统的多因素框架,整合临床、几何和剂量学特征。理解这些因素是有价值的,因为它可以指导自动分割模型性能和手动轮廓编辑,使其针对临床相关的解剖区域。在这方面,一些团队已经朝着预测模型迈进。González等人[10]表明,仅基于最大编辑,并结合剂量学(剂量水平、梯度)因素,可以预测剂量学影响。Chang等人[28]将几何-剂量模型嵌入多图谱标签融合中,与传统图谱聚合相比,减少了剂量偏差。这些努力共同强调了理解边界偏差何时以及为何会转化为有意义的剂量差异的趋势。未来的研究可以探索将自动分割与剂量预测模型结合的机会,以实现剂量感知的分割和有针对性的编辑,而无需进行完整的治疗计划。综述的局限性我们的综述有几个局限性。首先,由于数据库覆盖范围和索引的限制,可能会遗漏相关研究,尽管使用了全面的搜索策略。其次,虽然所有纳入的研究都进行了基于剂量的分析,但报告细节的水平差异很大。报告的不完整或不稳定性需要在数据提取和分析过程中进行一些解释性判断,这可能在解释报告结果时引入了一定程度的不确定性和主观性,尽管采取了仔细的审查程序。此外,由于这是一项范围综述,没有进行定量综合或元分析,因此应该描述性地解释结果,而不是作为汇总估计。结果的统一性进一步受到边界分析研究内在因素的限制。首先,不存在真正的金标准参考轮廓,通常用作参考的手动边界存在观察者间变异性、偏见和不一致性。其次,由于治疗计划、方案、设备和临床实践的差异,不同中心的剂量值差异很大。临床意义需要强大的边界质量保证(QA),这超出了几何评估的范围。例如,在评估临床试验剂量-反应关系的轮廓指南时,仅依赖几何指标不足以捕捉边界不精确性的临床后果[4]。同样,在自动分割中,也越来越认识到需要结合剂量学评估的全面QA框架[164]。这在自适应环境中(例如MR引导的放射治疗)尤为重要,其中基于剂量的评估可以通过优先考虑临床相关的编辑来支持高效的QA,同时保持安全性和准确性[165]。我们观察到放射治疗中基于剂量的评估在实施、解释和报告方面存在显著的方法学多样性。因此,我们鼓励根据我们提供的分类(表2)开发标准化框架。然而,没有一种单一的最佳策略适用于所有目的。鉴于基于剂量的评估中的固有权衡和方法学变异性,谨慎和依赖上下文的选择方法是必要的。因此,我们鼓励读者使用表2来选择与其特定临床背景、可用资源和预期目的相匹配的方法。结论和展望根据本综述的发现,当前对放射治疗中边界基于剂量的评估方法高度多样化。尽管兴趣不断增加,但尚未形成共识或标准化方法。报告的结果受到多种相互作用因素的影响,包括肿瘤位置、剂量一致性以及基于剂量的评估中的方法选择。这种复杂性使得直接比较研究变得具有挑战性。然而,边界变化对治疗计划优化或治疗计划评估的影响之间的差异突显了需要补充的基于剂量的评估。大多数关于目标的研究报告称边界变化会导致有意义的剂量差异。相比之下,大多数关于OAR的研究仅在少数评估结构中发现显著的剂量差异。重要的是,即使在报告没有一致剂量差异的研究中,也经常报告具有潜在严重临床后果的异常值,但很少进行深入调查。最终,基于剂量的评估的价值不在于作为终点,而在于指导临床和研究决策。将方法与其目的对齐,并将其嵌入到其他类型的边界评估的全面框架中,将促进更可靠和具有临床意义的边界质量评估,无论是对研究还是放射治疗计划。关于手稿准备过程中生成式AI和AI辅助技术的声明在准备这项工作时,作者使用了ChatGPT来提高文本部分的语法和清晰度。使用该工具后,作者根据需要进行审查和编辑,并对发表文章的内容承担全部责任。作者贡献声明Joëlle E. van Aalst: Federica C. Maruccio: 写作——审阅与编辑、监督、概念化。Rita Simões: 写作——审阅与编辑、监督、概念化。Prerak Mody: 写作——审阅与编辑、概念化。Zeno A.R. Gouw: 写作——审阅与编辑。Robin Wijsman: 写作——审阅与编辑、概念化。Jan-Jakob Sonke: 写作——审阅与编辑、概念化。Peter M.A. van Ooijen: Charlotte L. Brouwer: 写作——审阅与编辑、监督、概念化。Tomas M. Janssen: 写作——审阅与编辑、监督、概念化。

生物通微信公众号
微信
新浪微博


生物通 版权所有