研究人员开发了一种可解释的多模态大语言模型(MM-LLM),该模型具备以下功能:(1)对视神经乳头(ONH)光学相干断层扫描(OCT)环周扫描进行质量筛选;(2)生成包含青光眼诊断和分区域视网膜神经纤维层(RNFL)变薄评估的结构化临床报告。该研究采用回顾性队列设计,使用了青光眼诊断创新研究(DIGS)和非洲血统与青光眼评估研究(ADAGES)的纵向数据。研究纳入来自1,310名受试者(包括1,331只青光眼和867只健康眼)的43,849张以ONH为中心的Spectralis环周B扫描图像。研究人员对一种MM-LLM(Llama 3.2 Vision-Instruct模型)进行了微调,以生成OCT成像数据的临床描述。训练数据包括配对的OCT图像和自动生成的结构化临床报告,后者描述了全局和区域性RNFL变薄情况。质量差的扫描被标记为不可用,并与固定的拒绝声明进行配对。模型在保留的测试集上对三项任务进行了评估:质量评估、青光眼检测和跨越七个解剖区域的RNFL变薄分类。评估指标包括准确度、敏感性、特异性、精确度和F1分数。模型描述质量也通过标准文本评估指标(BLEU, ROUGE, METEOR, BERTScore)进行了评估。模型在质量分诊任务上达到0.90的准确度和0.98的特异性。在青光眼检测方面,准确度为0.86(敏感性0.91,特异性0.73,F1分数0.91)。RNFL变薄预测的准确度范围为0.83至0.94,在全局、颞侧、颞上和颞下区域表现最佳。文本生成得分(均值±标准差)显示与参考报告高度一致(BLEU:0.82 ± 0.19;ROUGE-1:0.94 ± 0.08;ROUGE-2:0.87 ± 0.17;ROUGE-L:0.92 ± 0.11;BERTScore-F1:0.99 ± 0.02)。分层分析表明,模型在中度至重度青光眼病例中检测RNFL变薄的能力更强,尤其是在颞侧区域,而其在鼻侧区域的表现则在轻度病例中更好。研究表明,经过微调的MM-LLM能够基于OCT成像生成准确的临床描述。该模型在识别图像质量问题和检测青光眼方面实现了高准确度。模型提供了RNFL变薄的分区域描述以支持临床OCT评估。这种方法作为一种可扩展的临床决策支持工具显示出潜力,但需要在更多数据集上进行进一步验证。
本研究旨在开发一种能够生成结构化OCT报告的多模态人工智能(AI)系统,以辅助青光眼的临床评估。研究背景在于,青光眼是导致不可逆失明的主要原因,其早期诊断至关重要。光学相干断层扫描(OCT)是评估视网膜神经纤维层(RNFL)结构损伤的关键成像工具,但其解读过程受到图像质量不佳、高度依赖临床医生经验以及繁重的电子健康记录文档负担等因素的制约。尽管已提出多种AI模型辅助青光眼检测和OCT解读,但传统的卷积神经网络(CNN)缺乏可解释性,且主要局限于分类或定量预测。近年来出现的视觉语言模型(VLM)和多模态大语言模型(MM-LLM)虽然能生成文本解释,但常存在幻觉问题、缺乏质量感知能力,且很少能提供与临床OCT报告格式一致的结构化、分区域描述。针对上述局限性,研究人员开发了一种经过微调的MM-LLM,该模型能够自动识别不可用的OCT扫描、从ONH环周扫描检测青光眼,并生成包含分区域RNFL变薄评估的简洁结构化临床报告。
为开展这项研究,研究人员采用了几个关键技术方法。首先,数据来源于两个成熟的纵向队列:青光眼诊断创新研究(DIGS)和非洲血统与青光眼评估研究(ADAGES),共收集了43,849张以视神经乳头(ONH)为中心的Spectralis光谱域OCT环周B扫描图像。其次,研究人员基于诊断标签和设备生成的RNFL分区分类,利用文本模板自动构建了结构化临床报告作为模型训练的目标输出。核心模型为Llama 3.2 Vision-Instruct,这是一个拥有110亿参数的多模态大语言模型。研究人员采用了Unsloth实现,通过LoRA(低秩适应)和QLoRA(量化LoRA)技术对模型进行了参数高效微调,在单个NVIDIA A40 GPU上完成了训练。训练时,视觉编码器被冻结,仅更新语言层、注意力模块和多层感知机(MLP)层。模型在三个核心任务上进行了评估:图像质量分诊、青光眼检测以及分区域RNFL变薄分类。评估不仅使用了准确度、敏感性、特异性等分类指标,还采用了BLEU、ROUGE、METEOR和BERTScore等标准文本生成指标来评价报告质量。
在具体研究结果方面,研究人员首先报告了模型在图像质量评估任务上的表现。该模型实现了0.90的准确度和0.98的特异性,能够有效识别不可用的扫描图像并生成相应的拒绝声明。其次,在青光眼检测任务中,模型的诊断准确度达到0.86(敏感性0.91,特异性0.73,F1分数0.91),优于仅预测多数类的零规则基线(0.75)。第三,在分区域RNFL变薄预测任务上,模型的准确度范围为0.83至0.94。其在全局区域(0.84)、颞下区域(0.86)和颞上区域(0.83)的表现显著优于零规则基线,但在鼻侧各区域(准确度0.89至0.94),其性能接近或略低于基线,这主要与鼻侧区域RNFL变薄发生率较低导致的数据类别不平衡有关。第四,研究评估了模型生成的文本描述质量。模型生成的报告与参考报告在多个指标上显示出高度一致性,BLEU平均得分0.82 ± 0.19,ROUGE-1、ROUGE-2和ROUGE-L的F-measure分别达到0.94 ± 0.08、0.87 ± 0.17和0.92 ± 0.11,METEOR得分为0.92 ± 0.11,BERTScore-F1得分高达0.99 ± 0.02,表明生成的文本在词汇、短语和语义层面均与临床报告高度匹配。最后,分层分析显示,模型性能与青光眼严重程度相关。在中度至重度青光眼患者中,模型检测全局、颞上和颞下区域RNFL变薄的准确度(分别为0.94、0.87、0.97)显著高于轻度患者(分别为0.76、0.77、0.80)。相反,在鼻侧区域,模型在轻度青光眼中的检测准确度更高。
论文讨论部分总结了研究的主要意义与局限性。研究表明,经过微调的MM-LLM能够生成结构化、可解释的临床报告,其诊断准确度高,且报告内容与临床推理过程紧密贴合。这种基于推理的可解释性有助于弥合AI预测与临床医生判断之间的鸿沟,可能提高诊断信心并优化患者护理流程。生成的报告可作为临床医生文档的草稿,有望简化工作流程并减轻眼科医生的文档负担。该模型集成了质量分诊机制,能够自动拒绝不可用的扫描,避免基于低质量输入产生误导性输出,这对确保临床部署的安全性和透明度至关重要。其结构化文本输出格式比传统的可视化方法(如Grad-CAM)更具临床适用性。然而,研究也存在局限性。模型当前仅使用单一的环周B扫描,未涵盖全面的青光眼评估所需的其他结构参数,如容积性ONH分析或黄斑区评估。其质量评估模块虽然特异性高(0.98),但敏感性较低(0.44),且仅提供二分类判断而非具体原因。在青光眼检测中,对健康眼的特异性(0.73)不足,可能导致假阳性。此外,训练数据集因队列特性而富含青光眼眼,不能完全代表一般人群的疾病流行率。模型也排除了高度近视眼和青光眼疑似病例,可能影响其在多样化人群中的泛化能力。
研究结论部分指出,本研究证明了经过微调的多模态大语言模型能够从OCT扫描中生成结构化、可解释的临床报告,并具有较高的诊断准确度。通过集成质量分诊机制,模型减少了来自低质量扫描的误导性输出,支持了安全性和透明度。该模型的句子级输出能够明确地将RNFL变薄定位到解剖区域,提高了AI生成的OCT报告的可读性和临床可用性。这些特性使该方法成为一种可扩展的青光眼决策支持解决方案,也是一种潜在的减轻临床文档负担的方法。未来的研究将整合多样化的数据集和多模态输入,以进一步增强模型的泛化能力并支持安全的临床部署。