基于PVT与SegFormer双Transformer架构的脑肿瘤智能诊断框架BrainDx研究

时间：2025年10月15日

来源：Biomedical Signal Processing and Control

编辑推荐：

本研究针对脑肿瘤MRI诊断中形态复杂、边界不清及人工判读效率低等挑战，开发了融合金字塔视觉Transformer（PVT）分类与SegFormer分割的双Transformer框架BrainDx。实验表明，该框架在三大公开数据集上分类准确率达94.0%，分割Dice分数达0.87，单图处理耗时<50毫秒，为临床实时精准诊断提供了新范式。

当医生面对一张脑部磁共振成像（MRI）扫描图时，他们需要像侦探一样从错综复杂的灰白影像中寻找肿瘤的蛛丝马迹。这不仅是场视觉挑战，更是与时间的赛跑——脑肿瘤的形态千变万化，边界模糊不清，而细微的影像差异可能意味着完全不同的治疗方案。传统依赖放射科医生肉眼判读的方式不仅耗时耗力，还容易因主观因素导致诊断差异。随着医疗影像数据量的爆炸式增长，开发能够快速、准确识别脑肿瘤的人工智能系统已成为临床实践的迫切需求。

在这一背景下，研究者们开始将目光投向深度学习领域的最新突破——Transformer模型。这类模型最初在自然语言处理领域大放异彩，如今正 revolution 化医学影像分析。与传统的卷积神经网络（CNN）相比，Transformer具有捕捉图像长距离依赖关系的独特能力，能更好地理解肿瘤区域与周围组织的复杂关系。然而，现有研究大多仅将Transformer用于分类或分割单一任务，尚未充分发挥其协同效应。

近日发表在《Biomedical Signal Processing and Control》的研究论文《BrainDx: a dual-transformer framework using PVT and SegFormer for tumor diagnosis》提出了一种创新解决方案。该研究团队设计了一套名为BrainDx的双Transformer框架，巧妙结合了金字塔视觉Transformer（PVT）在图像分类方面的优势与SegFormer在实时分割方面的专长，实现了从肿瘤类型识别到精确定位的端到端诊断。

为验证框架效能，研究团队采用多中心公开数据集（包括BraTS 2020、Masoud Nickparvar脑肿瘤MRI数据集和Sartaj Bhuvaji分类数据集），通过数据清洗、归一化、图像增强等预处理后，分别训练PVT分类模型和SegFormer分割模型。PVT模型通过多尺度特征提取和自注意力机制实现肿瘤类型判别；SegFormer则采用编码器-解码器架构，结合Dice损失和交叉熵损失函数进行像素级分割优化。

研究结果揭示多方面突破性发现：

分类性能卓越 PVT模型在BraTS 2020数据集上实现94.0%的整体分类准确率，其中对健康脑组织的识别准确率高达96.3%。特别值得注意的是，该模型在区分形态相似的胶质瘤与脑膜瘤时仍保持91%以上的准确率，证明其强大的特征辨别能力。

分割精度领先 SegFormer在肿瘤边界划分任务中表现出色，平均Dice分数达0.87，其中垂体肿瘤分割效果最佳（Dice=0.89）。模型对不规则形状肿瘤的适应能力尤其突出，即使在边界模糊的情况下也能实现精准分割。

实时性能突出 整个框架的单张图像处理时间低于50毫秒，远低于传统人工判读所需时间，满足临床实时诊断需求。这种高效率源于SegFormer无需条件随机场（CRF）后处理的简洁架构。

泛化能力验证 通过在三个独立数据集上的交叉验证，BrainDx框架展现出稳定的性能表现，分类准确率波动范围小于2%，证明其良好的泛化能力和临床适用性。

综合讨论与展望

本研究首次将PVT与SegFormer双Transformer架构协同应用于脑肿瘤诊断，不仅实现了分类与分割任务的高精度统一，更在推理速度上取得突破。相比传统CNN模型，BrainDx在保持轻量化参数规模（PVT仅1300万参数）的同时，显著提升了诊断效率。特别是其无需CRF后处理即可实现优质分割的特性，大大简化了临床部署流程。

研究者通过详尽的消融实验证实，引入多头注意力机制和数据增强策略是提升模型性能的关键因素。统计检验结果（p<0.0001）进一步确认了该框架相较于Swin Transformer等对照模型的显著优势。

尽管当前研究已取得令人鼓舞的成果，作者也指出未来可在多模态影像融合、罕见肿瘤类型适应等方面继续深化。特别是结合可解释人工智能（XAI）技术，增强模型决策过程的透明度，将有助于提升临床医生的信任度和采纳率。

这项研究为人工智能辅助脑肿瘤诊断提供了新的技术范式，其双Transformer架构设计思路对其他医学影像分析任务也具有重要借鉴意义。随着后续研究的不断深入，这种高效、精准的诊断框架有望真正融入临床工作流，为脑肿瘤患者带来更及时、可靠的治疗方案。