肌肉骨骼骨折是急诊和骨科中最常见的临床表现之一,估计每年每10万成年人中有超过1200例(Bergh等人,2020年)。及时准确的骨折诊断对于适当的治疗计划和预防并发症(如畸形愈合、不愈合或慢性疼痛)至关重要。传统的放射学仍然是初步评估的主要成像方式,但其解释往往受到解剖结构复杂性、重叠结构、细微或隐匿的骨折模式以及阅片者专业知识差异的阻碍(Dankelman等人,2023年)。这些限制在高吞吐量的急诊科和资源受限的医疗环境中尤为明显,那里的专家放射科医生可能负担过重或无法及时到位(Lastrucci等人,2025年)。虽然结构化的放射学报告在增强诊断沟通和减少解释声明的歧义方面显示出希望,但其采用在临床工作流程中仍不一致(Lastrucci等人,2025年)。此外,放射学实习生经常难以处理细微或模糊的骨折表现,这突显了在图像解释和结构化报告方面需要智能教育支持工具的必要性。
人工智能(AI)的最新进展使得模型不仅能够检测医学图像中的病理发现,还能生成与专家水平相当的临床连贯的报告(Crotty等人,2024年)。然而,许多这些系统作为不透明的黑箱运行,缺乏透明度、不确定性意识和在模糊情况下的适应性。这一限制在骨折诊断中尤为关键,因为基于图像的观察必须放在解剖学、语义学和临床推理框架中进行上下文化。此外,大多数当前的方法侧重于分类任务或基于规则的报告模板,这限制了它们在临床应用中的灵活性和真实性。例如,Liu等人(2025年)最近引入了一个多模态、多领域和多语言的基础模型,能够进行零样本诊断,展示了大型医学AI系统的显著泛化能力,但也暴露了它们在可解释性和领域基础方面的局限性。
为了克服这些限制,最近的研究转向了多模态框架,这些框架结合了放射数据、结构化的医学本体和自然语言生成,以生成可靠且可解释的放射学报告。这样的系统有潜力支持诊断决策、加速报告工作流程,并为放射学实习生提供教育价值——特别是在资源匮乏的环境中。在这方面,Mou(2025年)提出了一个基于知识图谱(KG)增强的多模态视觉到语言模型,用于放射学报告生成,表明整合结构化的领域专业知识可以显著提高报告的连贯性和临床准确性。
AI的最新进展使得模型不仅能够解释医学图像,还能生成结构化、临床连贯的放射学报告(Danu等人,2023年;Sun等人,2024年;Pan等人,2024年)。然而,大多数现有方法仍然局限于分类或分割任务,表现出有限的上下文理解能力和几乎无法表示诊断不确定性(Dankelman等人,2023年)。在复杂的临床场景中,这些限制阻碍了实际应用,因为医学推理本质上是概率性的、依赖于上下文的,并受到不同程度诊断信心的影响。
在常规放射学实践中,不确定性不是缺陷,而是诊断推理的一个基本特征。放射科医生通常综合不完整、矛盾或模糊的发现来得出概率性结论(Huet-Dastarac等人,2024年)。尽管如此,大多数基于AI的医学成像系统仍然提供确定性预测,而没有明确量化诊断信心或认识论不确定性(Li等人,2025b)。这种不透明度可能导致过度依赖算法输出——尤其是在经验较少的从业者中——并限制了这些系统的教育价值。为了实现临床可靠性和教育效用,AI驱动的决策支持必须整合表达分级信心、上下文意识和反映专家水平认知的推理模式的机制。
最近的努力探索了结合深度学习与结构化领域知识的混合架构,产生了更加连贯和可解释的诊断输出(Jaiswal等人,2021a;Abdullah等人,2024年;Yin等人,2025年;Yu等人,2025年;Li等人,2025a)。结合视觉表示、医学本体和语言模型的多模态框架在提高事实一致性、报告流畅性和临床相关性方面显示出特别的前景(Ouis和Akhloufi,2024年)。Abu-Salih等人(2023年)的系统性回顾进一步强调了医疗领域知识图谱(KG)日益重要性,提供了构建方法的全面分类,并指出了临床部署中的持续挑战。然而,在这一背景下,不确定性建模仍然研究不足,只有少数方法尝试与医学语义对齐的显式概率推理。
在这项工作中,我们介绍了UG-GraphT5(用于放射学报告生成的不确定性引导图Transformer),这是一个统一的多模态框架,它整合了基于视觉Transformer的编码器、特定领域的骨折本体、用于不确定性量化的贝叶斯推理引擎(Kendall和Gal,2017a)以及用于报告生成的可控编码器-解码器语言模型。与单一的端到端系统不同,UG-GraphT5被设计为一个模块化架构,包括四个互补的组成部分:(1)视觉特征提取器,(2)不确定性估计模块,(3)知识驱动的图推理层,以及(4)基于Transformer的文本生成器。每个模块都可以独立适应实际的临床场景——例如量化、选择性贝叶斯采样、本体剪枝或受限解码——从而在资源受限的环境中促进部署,同时保持可解释性和诊断可靠性。
为了清晰起见,由于这种模块化设计,尽管UG-GraphT5由多个相互作用的模块组成,但该框架可以从概念上理解为一个三阶段流程,而不仅仅是一系列独立组件的集合。首先,一个具有不确定性意识的感知阶段直接从医学图像中估计骨折的可能性和诊断信心。其次,一个知识引导的推理阶段将视觉证据与结构化临床知识结合起来,以便在模糊或图像质量低的情况下稳定预测。第三,一个受控的报告生成阶段将预测和不确定性估计转化为临床适当的自然语言。在整个修订的手稿中使用了这种抽象,以提高可读性和概念连贯性。
我们在四个公共放射学数据集上评估了UG-GraphT5的性能,评估了其在骨折分类、不确定性校准和放射学报告生成方面的表现。除了定量指标外,我们还进行了涉及放射学实习生和专家评审员的结构性读者研究,以评估其教育价值和临床适用性。结果表明,将不确定性引导的推理与知识驱动的多模态学习相结合可以显著提高诊断准确性、可解释性和放射学实践中的诊断信心沟通。