GPT-4o 在肺部结节纵向 CT 图像中评估恶性进展的能力

时间:2025年3月5日
来源:Cell Reports Medicine

编辑推荐:

GPT-4o 可分析肺部结节纵向 CT 图像,监测结节变化,为临床决策提供依据。

广告
   X   

一、研究背景

在医学领域,大型语言模型(LLMs)如 Chat GPT 和 Gemini 的出现,推动了自然语言处理技术的发展,其在多种医学任务中展现出一定功效。GPT-4o 作为 OpenAI 于 2024 年 5 月发布的最新视觉 LLM,具备处理图像、音频和视频的能力,在多模态医学应用方面潜力巨大。然而,基于视觉 LLMs 的视频处理在临床环境中的应用仍有待探索。
在基于计算机断层扫描(CT)图像的肺癌分析中,深度学习(DL)取得了显著进展,卷积神经网络(CNN)等 DL 算法在肿瘤筛查和诊断中发挥了重要作用。但 DL 模型存在局限性,其输出缺乏可解释性,内部决策过程对用户不透明,这给临床应用带来了挑战。
肺部结节在肺癌早期诊断中具有重要意义,动态监测结节大小和特征变化对评估恶性风险和指导临床干预至关重要。目前,这一过程依赖放射科医生手动审查后续 CT 图像,不仅耗时,而且易受观察者间差异的影响。因此,自动化评估结节特征的动态变化具有重要的临床价值。

二、研究目的

本研究旨在利用 GPT-4o 的先进能力,通过个体患者的纵向 CT 随访图像,估计肺部结节恶性概率以及结节大小和特征的动态变化。通过模拟放射科医生审查 CT 图像视频的视觉检查过程,评估 GPT-4o 随时间准确评估结节特征的能力,以及其在肺癌筛查和临床监测中提高诊断准确性和效率的潜力。

三、研究方法

  1. 研究对象:本研究为多中心回顾性研究,共纳入 647 例患者。其中 278 例来自中国医科大学附属盛京医院(C1 数据集),191 例来自中国医科大学附属第四医院(C2 数据集),100 例来自国家肺癌筛查试验(NLST)数据集,78 例来自本地肺癌筛查(LLCS)数据集。患者需满足相应的纳入和排除标准,研究遵循赫尔辛基宣言,并获得相关机构审查委员会和伦理委员会的批准,所有数据均进行匿名化处理。
  2. CT 图像预处理和视频准备:将每个 CT 扫描的切片转换为连续帧,编译成视频。对 CT 图像进行预处理,设置窗口宽度为 2000,窗口水平为 - 500,转换为 512×512×N 的最佳可视化大小(N 为切片数量),并以 20 帧 / 秒的速度转换为视频格式,同时对视频进行匿名化处理。
  3. GPT-4o 的记忆准备:随机选择 20 例患者,创建肺部结节记忆并为 GPT-4o 生成文本提示。提示内容包括患者的人口统计学信息、CT 图像时间戳、图像分辨率、切片厚度、恶性评分定义等,还提供了肺结节在初始 CT 图像上的中心坐标和大小等信息,以方便结节追踪和恶性程度判断。
  4. 评估 CT 图像视频:让 GPT-4o 对每个 CT 图像执行三项主要功能,即评估肺结节恶性概率、评估结节大小(测量最大长轴和垂直最大短轴)以及全面描述结节特征。针对不同数据集,定义了相应的结节特征评估指标。
  5. 评估 GPT-4o 的输出:将 GPT-4o 确定的恶性概率估计值与 C1、C2 和 NLST 数据集的病理结果进行比较;6 名不同经验的放射科医生独立审查 C1 和 C2 数据集的 CT 图像,使用 5 点李克特量表对 GPT-4o 生成的特征描述与自己的观察一致性进行评分;对于无病理确认的 LLCS 数据集,由两名放射科医生根据 Lung-RADS 标准独立评估肺结节恶性可能性,通过组内相关系数(ICC)比较 GPT-4o 与放射科医生估计的肺结节恶性概率。
  6. 评估 GPT-4o 测量结节大小的能力:以放射科医生测量的结节大小为金标准,通过计算 ICC、皮尔逊相关系数等指标,比较 GPT-4o 与放射科医生对结节大小的评估,并进一步比较两者对结节大小变化的评估能力。
  7. 比较 GPT-4o 与其他模型的性能:在 NLST 数据集上评估 Molmo-7B(一种开源多模态视觉语言模型)在肺部结节纵向 CT 扫描视频上的性能,并与 GPT-4o 进行比较。同时,使用 Claude 与 GPT-4o 在结节大小评估和恶性程度估计方面进行进一步比较。
  8. 测试评估的可重复性:进行重测实验,6 名放射科医生对 50 例随机选择的患者进行两轮评估,间隔 3 天,记录定性特征和定量恶性概率,评估 GPT-4o 输出的可重复性。此外,进行一项特别实验,让放射科医生对 GPT-4o 辅助肺结节诊断、本地 DL 模型和一个在线 DL 模型进行定量评估,评估指标包括使用意愿、对信息的依赖程度、感知危害潜力、不适当内容程度和缺失内容程度。
  9. 量化和统计分析:使用受试者操作特征曲线和曲线下面积(AUC)评估 GPT-4o 估计恶性概率的准确性;使用中位数和四分位数间距(IQR)、均值和标准差(SD)评估 GPT-4o 与放射科医生对结节特征描述的一致性;使用 ICC 评估 GPT-4o 与放射科医生对 LLCS 数据集恶性概率估计的一致性;使用 ICC 和皮尔逊相关系数量化 GPT-4o 测量结节大小的准确性,并通过布兰德 - 奥特曼图展示一致性;通过放射科医生在特别实验中的平均评估量化三个模型在放射学领域的应用潜力。所有统计分析使用 R 软件进行,设定 p<0.05 为具有统计学意义。

四、研究结果

  1. 患者情况:纳入的 647 例患者平均接受 2.8 次(SD, 1.2;范围 2 - 10)CT 检查,平均随访间隔为 286.2 天(SD, 491.2 天)。不同数据集患者的年龄、性别、结节大小等临床特征存在差异。
  2. GPT-4o 对结节恶性程度估计的评估:在 C1 和 C2 数据集上,基于首次 CT 扫描图像,GPT-4o 估计肺结节恶性程度的 AUC 分别为 0.75 和 0.69;纳入前两次随访评估数据后,AUC 分别提高到 0.86 和 0.88;纳入第三次 CT 图像后,AUC 进一步增加。在 NLST 数据集上,基于初始 CT 扫描图像,AUC 为 0.72,纳入第二次和最终 CT 图像后,AUC 分别提高到 0.88 和 0.92。在 LLCS 数据集上,基于初始 CT 图像,GPT-4o 与放射科医生评估的 ICC 为 0.66,随着后续 CT 图像的纳入,ICC 逐渐增加到 0.90。此外,GPT-4o 在不同性别亚组中估计肺结节恶性程度的准确性无显著差异。
  3. GPT-4o 对结节特征检测的评估:6 名放射科医生对 GPT-4o 特征检测的评估分数显示,C1 和 C2 数据集的中位一致性分数分别为 3.51 和 4.33。GPT-4o 对结节特征的描述与 NLST 数据集中预定义的放射学特征具有较高的一致性,平均准确率达到 0.84,而 Molmo-7B 的平均准确率为 0.67,低于 GPT-4o。
  4. GPT-4o 对结节大小变化的评估:在 C1、C2、LLCS 和 NLST 数据集上,GPT-4o 测量结节大小与放射科医生手动测量的 ICC 分别为 0.86、0.95、0.88 和 0.93,皮尔逊相关系数分别为 0.86、0.96、0.88 和 0.93,表明两者具有显著一致性。对于结节大小增加或减少的判断,GPT-4o 在不同数据集上也取得了较高的准确率。
  5. 评估的可重复性:重测实验显示,6 名放射科医生对 GPT-4o 放射学结节特征检测的平均可重复性率为 84.1%。对于定量恶性概率估计,基于第一次、第二次和第三次 CT 图像的平均可重复性率分别为 82.0%、90.0% 和 96.0%。此外,在特别实验中,GPT-4o 在使用意愿和对信息的依赖程度方面得分显著高于两个 DL 模型,在感知危害潜力和缺失内容方面得分低于 DL 模型,但由于其生成的解释性描述可能包含不适当内容,放射科医生认为其产生不适当内容的可能性高于 DL 模型。

五、研究结论

本研究表明,GPT-4o 能够模拟放射科医生的能力,利用纵向 CT 随访图像监测肺结节的特征和大小,并估计恶性概率。与病理检测和放射科医生的手动评估相比,GPT-4o 在估计恶性概率方面达到了令人信服的准确性,并提供了高质量的放射学证据,这表明 GPT-4o 在改善肺癌高危患者的临床管理方面具有潜在价值。

六、研究局限性

本研究存在一些局限性。首先,将每个 CT 扫描作为单独视频输入 GPT-4o,可能降低效率并增加技术问题的风险。其次,研究未针对单个 CT 图像上的多个结节设计额外实验,且由于肿瘤异质性,病理检查结果可能无法代表所有病变。此外,研究的随访期较短,未来应纳入更长的随访期以及临床记录和生化测试进行多模态评估。同时,虽然发现 Molmo-7B 也具有肺部结节表征能力,但目前对其多模态输出的具体分析策略了解有限,未来应进一步评估更多大型多模态模型。最后,本研究仅与两个 DL 模型进行比较,未来研究应扩大比较范围,以加强 LLMs 与 DL 方法之间的对比证据。

七、展望

尽管本研究存在局限性,但 GPT-4o 在肺部结节评估中的表现为未来的医学研究和临床实践提供了新的方向。随着技术的不断发展,大型语言模型有望在医学影像分析领域发挥更大的作用,为医生提供更准确、高效的诊断支持,助力肺癌等疾病的早期发现和治疗。未来的研究可以进一步优化模型的应用方式,提高其在复杂临床场景中的性能,推动人工智能技术在医学领域的广泛应用。

生物通微信公众号
微信
新浪微博


生物通 版权所有