基于多模态指数移动平均的表示方法在肿瘤分割与生存预测中的应用

时间：2026年1月18日

来源：Engineering Applications of Artificial Intelligence

编辑推荐：

胶质瘤生存预测研究提出基于学生-教师框架的统一架构，通过SwinPAC-UNETR提取多模态MRI影像特征并生成软概率分割图，结合临床数据经多模态Transformer处理，利用指数移动平均（EMA）进行知识蒸馏，消除传统分阶段管道的误差累积和手工特征依赖，在BraTS 2020数据集上C-index达0.6762。

阿希什·达塔（Ashis Datta）| 萨什瓦特·萨克尔（Shashwat Sarkar）| 阿迪蒂亚·洛昌·夏尔马（Aaditya Lochan Sharma）| 帕拉什·戈萨尔（Palash Ghosal）

信息技术系，锡金马尼帕尔理工学院（Sikkim Manipal Institute of Technology），锡金马尼帕尔大学（Sikkim Manipal University），马吉塔尔（Majitar），兰波（Rangpo），737136，锡金（Sikkim），印度

摘要

胶质母细胞瘤生存预测是脑肿瘤研究中的一个重要挑战，然而大多数现有方法仍然使用分离的或分阶段的流程，这些流程将肿瘤分割、特征设计和生存预测分开处理。这些分阶段的设置常常会从一个步骤传递错误到下一个步骤，导致错误累积，依赖耗时的手工特征，并且无法将早期输出直接与患者生存情况联系起来。为了解决这些问题，我们引入了一个师生框架，通过知识蒸馏结合了体积肿瘤分割和生存预测。我们提出了一个基于Shifted Windows UNet Transformer（Swin-UNETR）骨干网络的分割框架，并加入了注意力模块和多尺度池化技术，以从磁共振成像（MRI）扫描中分割出详细的肿瘤结构。然后，我们使用多模态Transformer将这些成像特征与分割图以及患者数据（如年龄和手术切除情况）合并。通过将指数移动平均（EMA）作为多模态Transformer的“教师”，我们的方法在学习与临床结果相关的图像模式的同时传递了一个稳定的风险信号。这种师生训练消除了对手工放射组学数据的需求，并避免了分阶段流程中出现的各种问题。总体而言，我们的师生设计将生存预测视为一个知识蒸馏问题，提供了从原始扫描到患者生存预测的更直接和有意义的路径。我们工作的代码可在此处获取：这里。

引言

脑肿瘤分割是胶质母细胞瘤患者生存预测的基础，因为准确的肿瘤区域分割直接影响到生存预测特征的提取。传统方法将分割和生存预测视为独立的任务，从而创建了一个可能导致错误传播的流程（Liang等人，2024年）。该领域的发展始于手动肿瘤测量与Cox比例风险模型的结合（Cox，1972年），随后发展为半自动化分割结合手工放射组学（Mazher等人，2024年），现在则采用深度学习进行分割和生存预测。然而，大多数当前方法仍然保持这种分离，使用预训练的分割模型，其输出被输入到独立的生存预测网络中（Liang等人，2024年）。这种分离阻碍了生存目标指导分割朝向有助于准确生存预测的相关边界，同时分割错误在流程中累积而未得到纠正（Liu等人，2024年）。

最近的进展展示了联合分割和生存预测方法的潜力。Pálsson等人（2022年）表明，将自动全脑分割与生存模型结合使用，获得了0.631的一致性指数（C-index），尽管他们使用的是没有联合优化的独立网络。Kwon等人（2024年）通过生成模型进行分割和缺失模态插补，同样取得了0.740的C-index。Hussain等人（2023年）的ETISTP框架通过增强肿瘤信息提取，也取得了0.740的C-index，但他们依赖于需要领域专长的手工放射组学。

现有方法中使用的分阶段流程存在三个根本问题，我们的统一师生框架解决了这些问题。首先，当分割错误未经纠正地传递到生存预测时，会导致错误累积。基于知识蒸馏的分割网络已被证明可以提高医学图像分割的准确性和效率（Qian等人，2021年；Wang等人，2023年），这促使我们使用一个稳定的“教师”在联合优化过程中指导“学生”模型。其次，对手工放射组学的依赖需要手动特征工程和领域专长。第三，分阶段流程通常会传递二进制掩码，这会丢弃不确定性信息并忽略不同肿瘤亚区域之间的关系，使得生存模型对边界错误或扫描仪变化敏感（Chen等人，2024年）。

为了解决这些问题，与通常处理原始图像、手工放射组学或二进制肿瘤掩码的多模态Transformer不同，我们引入了一个统一的架构，其中生存分支接收来自分割骨干的软概率图，该分割骨干使用了SwinPAC-UNETR（增强了注意力门和金字塔池化的Shifted Windows UNet Transformer），从多模态MRI中提取整个肿瘤的分割图，使模型能够利用更丰富的形状和置信度线索，同时将分割模块视为一个完整的特征提取组件。这些图与临床数据一起，然后由多模态Transformer通过基于掩码的条件全局平均池化（MGAP）进行生存预测，该算法将区域感知的体积线索聚合成紧凑的全局表示。师生框架仅在我们的多模态Transformer上运行，其中当前的多模态Transformer充当“学生”，其指数移动平均（EMA）版本充当“教师”。与之前专注于视觉特征一致性的EMA蒸馏方法不同，我们的框架将EMA蒸馏专门应用于与生存相关的表示。这一设计在医学成像研究中验证了三个关键优势。首先，EMA教师（多模态Transformer的平均权重）通过时间平均提供了更高的稳定性，减少了噪声并提高了泛化能力，因为研究表明EMA模型在早期阶段的表现更好，且所需的学习率衰减比标准SGD更少（Sanyal等人，2024年）。其次，使用预训练的分割模型消除了联合分割训练的需要，使我们能够将计算资源集中在学习肿瘤特征与生存结果之间的复杂关系上（Isensee等人，2021a；Milletari等人，2016年）。第三，师生多模态Transformer之间的知识蒸馏确保了生存模式的稳定学习，教师提供了一致的监督，防止过拟合，同时学生探索特征空间。医学成像研究表明，这种方法在提高训练稳定性的同时保持了性能（Asif等人，2022年）。我们的主要贡献包括：

1.
开发了一个统一的架构，将分割方法与先进的注意力机制（CBAM、PPM和注意力门）集成在一起，以增强肿瘤分割并实现稳健的肿瘤勾画。
2.
实现了一个多模态Transformer网络，将图像特征与临床变量融合，以进行准确的生存预测，其中采用了新颖的基于掩码的条件全局平均池化（MGAP）机制，用学习到的掩码感知令牌替换了手工放射组学。
3.
引入了一个基于指数移动平均（EMA）的知识蒸馏师生框架，实现了0.6762的C-index，相对于最先进的方法，模型的稳定性和可解释性得到了提升。
4.
采用了一种基于课程的一致性学习策略，逐步混合真实和预测的肿瘤掩码，提高了对分割不确定性和预测噪声的鲁棒性。

章节片段

脑肿瘤分割

脑肿瘤分割的基础是由早期的基于CNN的方法奠定的。为了增强特征传播和边界勾画，Daimary等人（2020年）提出了一种结合U-Net、SegNet和ResNet18元素的混合架构。虽然这些模型在边界精度上优于独立设计，但它们在捕捉多尺度肿瘤上下文方面的能力有限。大约在同一时间，Ottom等人（2022年）引入了Znet，这是一种轻量级的2D编码器-解码器

提出的方法

我们提出了一个统一的框架，通过新颖的师生架构将先进的肿瘤分割与生存预测结合起来。在整个框架中，粗体大写字母表示特征图或张量，小写字母表示向量或标量，

Ω

表示体素索引集。我们的方法分别训练了用于整个肿瘤分割的SwinPAC-UNETR和用于生存风险评估的多模态Transformer，并采用知识蒸馏来提高预测的稳定性。

2020年脑肿瘤分割挑战数据集（BraTS 2020）

在我们的工作中，我们使用了公开可用的BraTS 2020数据集，其中包含293名高级别胶质瘤（HGG/GBM）患者和76名低级别胶质瘤（LGG）患者的MRI扫描结果，所有患者都经过了确诊并提供了总体生存数据（Bakas等人，2017年；Menze等人，2015a年）。表1显示了数据集中GBM患者的临床详细信息。所有扫描都在手术前进行，包括四种类型的MRI序列：T1加权（T1）、T2加权（T2）和增强对比度的T1

局限性

尽管SwinPAC-UNETR的性能优于最先进的脑肿瘤分割方法，但我们注意到对于某些样本，坏死组织（绿色）的分割区域较弱，如图6所示。这主要是因为BraTS MRI扫描中的坏死核心是一个小而低对比度、高度异质的结构，这带来了两个挑战：（i）类别不平衡，因为坏死体素只占肿瘤体积的一小部分，导致

结论与未来工作

在这项工作中，我们提出了一个统一的框架，将准确的肿瘤分割与生存风险预测结合起来，使用了多模态Transformer架构。分割组件（SwinPAC-UNETR）集成了注意力机制、CBAM模块和金字塔池化，以提高肿瘤勾画的质量。这些分割结果被输入到一个基于Transformer的风险预测器中，该预测器结合了体积成像令牌和临床表格变量。我们进一步开发了

CRediT作者贡献声明

阿希什·达塔（Ashis Datta）：撰写——审稿与编辑、验证、方法论、调查、形式分析、数据整理。萨什瓦特·萨克尔（Shashwat Sarkar）：撰写——初稿、可视化、软件开发、方法论、调查、概念化。阿迪蒂亚·洛昌·夏尔马（Aaditya Lochan Sharma）：撰写——初稿、可视化、方法论、形式分析、数据整理。帕拉什·戈萨尔（Palash Ghosal）：审稿与编辑、验证、资源协调、形式分析、概念化。