放射报告生成是医学图像分析中的关键任务,对于制定临床诊断和治疗策略至关重要。在常规临床实践中,放射科医生需要解读大量医学图像并编写详细的诊断报告——这一过程不仅耗时且劳动强度大,还需要具备深厚的临床专业知识。开发能够从医学图像生成高质量报告的自动化系统有望显著减轻放射科医生的工作负担,提高报告的标准化和一致性,从而最终提升医疗服务的整体质量。
深度学习的进步极大地推动了自动化放射报告生成的进展。现有的方法主要基于Transformer模型[1]。然而,其计算复杂性随输入序列长度的平方而增加,这使得它在处理高分辨率图像时计算密集且耗时。为了解决这一挑战,出现了像Mamba这样的选择性状态空间模型(SSM),它们利用线性计算复杂性显著提高了序列建模的效率[2]。实际上,最近的研究如R2Gen-Mamba[3]验证了SSM在放射报告生成中的潜力和有效性,使其成为Transformer架构的一个有前途的替代方案。然而,尽管R2Gen-Mamba成功利用了SSM的高效序列建模能力,但它主要关注架构替换,并未明确解决缺乏高级医学知识指导或训练目标与临床评估指标之间的不一致性问题。
尽管像Mamba这样的高效模型取得了突破,但现有的报告生成方法仍面临两个限制其临床适用性的核心挑战。首先,高效序列模型通常缺乏来自医学先验知识的显式指导。虽然Mamba在捕捉长距离依赖关系方面表现出色,但它本质上是一个数据驱动的“黑箱”。没有外部知识,模型可能难以仅从图像-文本对中学习复杂的临床逻辑和因果关系,从而导致事实性错误的描述或“幻觉”。这一限制促使研究人员探索整合结构化医学知识(如知识图谱),以将生成过程基于已建立的医学事实并提高可解释性[4]、[5]。其次,优化目标与临床要求之间存在关键差异。传统的基于交叉熵损失的训练和基于n-gram指标的强化学习主要关注语言流畅性。然而,如果报告在语法上完美但在临床上无用,那么它仍然是无用的。这种“目标-评估差距”阻碍了临床准确报告的生成,需要一种直接与诊断精度对齐的优化策略[6]、[7]。
为了解决这些挑战,本文提出了一个新颖的框架——知识引导和强化选择性状态模型(KGR-SSM)。具体来说,我们引入了医学知识图谱作为先验知识。通过将视觉特征与高级临床语义概念关联起来[8],该模块显式指导模型关注具有诊断意义的区域,有效弥补了纯序列模型中缺乏语义推理的问题。同时,我们采用了自我批判序列训练(SCST)策略,并增加了新的混合奖励函数[9]。与仅依赖自然语言生成(NLG)指标的传统方法不同,我们的混合奖励函数同时优化了关键临床术语的覆盖范围和生成文本的整体连贯性。在两个基准数据集上的实验结果表明,与基线模型相比,我们提出的方法在所有评估指标上都取得了显著改进。我们工作的意义在现有文献中的背景如下表1所总结。
本文的主要贡献可以总结如下:
- •
我们提出了KGR-SSM,这是一个用于放射报告生成的新颖且高效的框架。通过基于轻量级的DenseNet-121视觉骨干和高效的基于SSM的编码器,我们的模型首次协同整合了医学知识图谱和混合奖励强化学习,全面提高了报告的质量和效率。
- •
我们引入了一个即插即用的知识引导模块,利用先验医学知识来增强视觉特征的语义表示。关键的是,我们在Mamba编码器中引入了一个门控机制,以选择性地融合这些知识,通过在编码阶段提供显式的医学指导,有效解决了序列模型的“黑箱”特性。
- •
我们引入了一种新的强化学习混合奖励函数。通过平衡多个互补的NLG指标和临床导向的准确性指标,我们提供了一个更稳健的优化目标,直接提高了生成报告的临床相关性和诊断精度。