基于知识引导和强化机制的选择性状态空间模型在放射学报告生成中的应用

生物通首页 > 今日动态 > 正文

基于知识引导和强化机制的选择性状态空间模型在放射学报告生成中的应用

时间：2026年3月10日

来源：Journal of Biomedical Informatics

编辑推荐：

放射学报告生成方法提出知识引导与强化学习的融合框架KGR-SSM，通过医学知识图谱指导语义理解、Mamba编码器高效处理图像，并设计兼顾语言质量与临床准确性的混合奖励函数，在IU X-ray和MIMIC-CXR数据集上显著优于基线模型。

Ziyang Li|Dedong Yang|Rongtao Li|Jianfeng Zhang

河北工业大学人工智能学院，天津，300401，中国

摘要

目标：

为了解决“黑箱”序列模型和简化的奖励函数在放射报告生成中的局限性，我们旨在通过整合显式的医学知识和临床对齐的强化学习策略来提高临床准确性和语言质量。

方法：

我们提出了一个新颖的框架——知识引导和强化选择性状态空间模型（KGR-SSM）。该模型协同整合了三个关键组成部分：（1）医学知识图谱，用于显式指导视觉特征的语义理解；（2）基于Mamba的高效编码器，用于处理高分辨率图像；（3）混合奖励函数，用于强化学习，同时优化自然语言生成（NLG）指标和临床准确性。

结果：

在公共的IU X-ray和MIMIC-CXR数据集上的广泛实验表明，我们提出的KGR-SSM取得了最先进的性能。该模型在包括语言和临床效果指标在内的综合评估指标上显著优于现有方法。

结论：

结构化医学知识与临床导向的混合奖励函数的整合有效提高了自动化放射报告生成的准确性和可靠性。KGR-SSM框架为这一关键临床任务提供了一个稳健且有前景的解决方案，弥合了技术性能和临床实用性之间的差距。

引言

放射报告生成是医学图像分析中的关键任务，对于制定临床诊断和治疗策略至关重要。在常规临床实践中，放射科医生需要解读大量医学图像并编写详细的诊断报告——这一过程不仅耗时且劳动强度大，还需要具备深厚的临床专业知识。开发能够从医学图像生成高质量报告的自动化系统有望显著减轻放射科医生的工作负担，提高报告的标准化和一致性，从而最终提升医疗服务的整体质量。

深度学习的进步极大地推动了自动化放射报告生成的进展。现有的方法主要基于Transformer模型[1]。然而，其计算复杂性随输入序列长度的平方而增加，这使得它在处理高分辨率图像时计算密集且耗时。为了解决这一挑战，出现了像Mamba这样的选择性状态空间模型（SSM），它们利用线性计算复杂性显著提高了序列建模的效率[2]。实际上，最近的研究如R2Gen-Mamba[3]验证了SSM在放射报告生成中的潜力和有效性，使其成为Transformer架构的一个有前途的替代方案。然而，尽管R2Gen-Mamba成功利用了SSM的高效序列建模能力，但它主要关注架构替换，并未明确解决缺乏高级医学知识指导或训练目标与临床评估指标之间的不一致性问题。

尽管像Mamba这样的高效模型取得了突破，但现有的报告生成方法仍面临两个限制其临床适用性的核心挑战。首先，高效序列模型通常缺乏来自医学先验知识的显式指导。虽然Mamba在捕捉长距离依赖关系方面表现出色，但它本质上是一个数据驱动的“黑箱”。没有外部知识，模型可能难以仅从图像-文本对中学习复杂的临床逻辑和因果关系，从而导致事实性错误的描述或“幻觉”。这一限制促使研究人员探索整合结构化医学知识（如知识图谱），以将生成过程基于已建立的医学事实并提高可解释性[4]、[5]。其次，优化目标与临床要求之间存在关键差异。传统的基于交叉熵损失的训练和基于n-gram指标的强化学习主要关注语言流畅性。然而，如果报告在语法上完美但在临床上无用，那么它仍然是无用的。这种“目标-评估差距”阻碍了临床准确报告的生成，需要一种直接与诊断精度对齐的优化策略[6]、[7]。

为了解决这些挑战，本文提出了一个新颖的框架——知识引导和强化选择性状态模型（KGR-SSM）。具体来说，我们引入了医学知识图谱作为先验知识。通过将视觉特征与高级临床语义概念关联起来[8]，该模块显式指导模型关注具有诊断意义的区域，有效弥补了纯序列模型中缺乏语义推理的问题。同时，我们采用了自我批判序列训练（SCST）策略，并增加了新的混合奖励函数[9]。与仅依赖自然语言生成（NLG）指标的传统方法不同，我们的混合奖励函数同时优化了关键临床术语的覆盖范围和生成文本的整体连贯性。在两个基准数据集上的实验结果表明，与基线模型相比，我们提出的方法在所有评估指标上都取得了显著改进。我们工作的意义在现有文献中的背景如下表1所总结。

本文的主要贡献可以总结如下：

•
我们提出了KGR-SSM，这是一个用于放射报告生成的新颖且高效的框架。通过基于轻量级的DenseNet-121视觉骨干和高效的基于SSM的编码器，我们的模型首次协同整合了医学知识图谱和混合奖励强化学习，全面提高了报告的质量和效率。
•
我们引入了一个即插即用的知识引导模块，利用先验医学知识来增强视觉特征的语义表示。关键的是，我们在Mamba编码器中引入了一个门控机制，以选择性地融合这些知识，通过在编码阶段提供显式的医学指导，有效解决了序列模型的“黑箱”特性。
•
我们引入了一种新的强化学习混合奖励函数。通过平衡多个互补的NLG指标和临床导向的准确性指标，我们提供了一个更稳健的优化目标，直接提高了生成报告的临床相关性和诊断精度。

方法论

放射报告生成任务可以正式定义为序列到序列的生成问题。给定一个输入的放射图像

I

，我们首先使用视觉特征提取器将其转换为一系列视觉特征，表示为

X = {x_{1},,\dots, x_{S}}

。这里，

S

是从图像中提取的特征补丁数量，每个特征

x_{i} \in R^{d}

是一个

d

维向量。模型的目标是生成一个相应且临床准确的文本报告

Y = {y_{1}, y_{2},,\dots, y_{T}}

，条件是

数据集

我们在两个广泛使用的公共数据集上进行了实验：印第安纳大学的IU X-ray [30]和贝斯以色列女执事医疗中心的MIMIC-CXR [31]。IU X-ray数据集相对较小，包含7470张胸部X光图像和3955份相应的报告。相比之下，MIMIC-CXR是最大的公开可用的放射数据集，包含473,057张胸部X光图像和206,563份报告。

遵循以往研究的实验协议，我们排除了没有