脚本：利用大型语言模型从病理报告中进行分层临床风险预测

时间：2026年5月15日

来源：Journal of Pathology Informatics

编辑推荐：

**Chiara M.L. Loeffler | Nic G. Reitsam | Fabian Wolf | Esther H. Stueker | Hannah S. Muti | Isabella C. Wiest | Jakob Nikolas Kather**

**埃尔斯·克罗纳弗雷泽尼乌斯数字健康中心，卡尔斯·古斯塔夫·卡鲁斯大学医学院和大学医院，德累斯顿工业大学，01307 德累斯顿，德国**

**摘要**

**背景**
在肿瘤学中，准确的风险分层对于指导治疗决策至关重要。然而，当前的算法依赖于有限的结构化变量，因此可能忽略了病理报告中丰富的信息。这些报告包含了细致的形态学描述和专家的临床判断，但这些叙述性信息在临床决策中大多未被利用，因为它们被淹没在基于“散文”的文本中。我们假设大型语言模型（LLMs）可以从完整的自由文本病理报告中提取预后信息，并将其转换为二进制生存生物标志物。

**方法**
我们使用了开源的 LLaMA 3.3 70B 模型，直接从三种胃肠道癌症类型的公开可用病理报告中生成风险评分。该模型被提示将完整的叙述性报告综合成一个二进制预后评分。我们评估了 LLM 生成的评分与生存结果之间的关联，包括总生存期、无进展生存期和疾病特异性生存期。

**结果**
在结直肠癌中，LLM 生成的风险评分显示出显著的预后价值：总生存期（风险比 HR = 2.77，95% 置信区间 CI = 1.92–3.97，p < 0.001）、无进展生存期（HR = 2.93，95% CI = 2.11–4.08，p < 0.001）和疾病特异性生存期（HR = 5.85，95% CI = 3.66–9.36，p < 0.001）。多变量分析证实 LLM 生成的风险评分是无进展生存期的独立预后因素。

**结论**
LLMs 可以将叙述性病理报告转换为单一的、独立的生存生物标志物。这种方法利用了常规可用的自由文本文档，无需额外的组织分析或病理学家的工作量，提供了一种可部署的方法来增强治疗决策的风险分层。

**引言**
准确评估肿瘤患者的生存风险对于指导治疗决策和优化资源分配至关重要。传统的风险预测模型依赖于 TNM 分期或肿瘤分级等结构化变量，但这些变量仅捕捉到了病理学家报告的一部分生物学异质性，导致同一分期组内的预后差异很大。在过去十年中，标准化报告已成为肿瘤病理学的核心，确保了深度侵袭、淋巴结状态、肿瘤萌芽和微卫星不稳定（MSI）等关键预后要素得到一致记录。然而，病理报告通常保留了结合叙述性宏观或微观描述与部分概述元素的混合结构。因此，病理学家花费大量时间起草详细的叙述性报告，这些报告往往反映了基于形态学特征的直观评估，而这些特征难以简单分类。这代表了专家知识的浪费：嵌入在叙述文本中的预后信息在风险分层中经常被低估。大型语言模型（LLMs）通过处理完整的自由文本病理报告（包括叙述性和概述性成分）并将其综合为二进制风险评分，提供了一种解决方案。与当前仅限于手动编辑或难以处理否定和上下文推理的机器学习模型的方法不同，LLMs（如 GPT 或 LLaMA）已经展示了处理非结构化临床文本和支持风险预测任务的能力。先前的研究探索了它们在基于非结构化健康记录预测医院死亡率、重症监护病房（ICU）入住和肿瘤患者分诊方面的潜力。例如，ChatGPT 已被用于在紧急情况下改进转移性前列腺癌患者的分诊决策。同样，LLMs 已被应用于结肠癌患者的二进制风险分层，但这些模型依赖于结构化输入数据，需要预处理步骤，限制了其在现实世界中的应用。其他研究表明，LLMs 可以使用结构化临床数据在预测肺癌患者的生存结果和术后并发症方面表现出竞争力。虽然这些发现突显了 LLM 在肿瘤风险预测中的潜力，但它们直接分析病理报告以提供补充详细分期和验证的临床病理特征的预后信息的能力仍需进一步探索。我们的研究通过调查 LLM 从原始病理报告中生成的风险评分与总生存期（OS）、无进展生存期（PFS）和疾病特异性生存期（DSS）等生存指标的相关性来填补这一空白。

**先前的工作**
先前的研究表明，检索增强生成（RAG）改进的 LLM 可以从非结构化医学文本中准确提取具有临床意义的信息，其准确性和特异性可与人类专家相当或超过。这表明 LLM 可以准确处理复杂的、主要是非结构化的临床文本，直接支持我们从病理报告中生成胃肠道肿瘤的二进制预后风险评分的方法。与之前使用需要数据匿名化和预处理以确保数据安全的专有模型的研究不同，我们利用了本地可部署的 LLaMA 3.3 70B 来确保隐私保护的风险预测。通过评估 TCGA 中的三种胃肠道癌症实体，我们旨在提供一个新颖的系统性证明，即开源的本地可部署 LLM 可以以零样本方式直接从病理报告中提取预后信息。

**方法和材料**
**数据获取和处理**
在这项研究中，我们使用了来自癌症基因组图谱（TCGA）的 1418 份不同胃肠道肿瘤类型的病理报告（图 1A）。肿瘤类型包括结直肠癌（CRC）、胃腺癌（STAD）和肝细胞癌（LIHC）。病理报告是公开可用的，可以在 https://portal.gdc.cancer.gov/ 下下载（访问日期：2024 年 10 月 12 日），一些随机选择的示例可以在补充图 1A 中找到。报告以 PDF 格式下载，文本使用光学字符识别（OCR）工具提取并转换为 CSV 格式。只有成功转换且没有 OCR 错误的报告才被保留用于后续处理。进行了最小的预处理，以去除页眉、页脚和格式化伪影；保留了原始报告的语义内容。预处理后，我们将较小的文本片段输入到包含 700 亿参数的 LLaMA-3.3 模型中。最终文本输入的长度从大约 70 到 500 个词不等。最终模型输出包含二进制 LLM 风险评分和推理字段（补充图 1B 和补充表 1）。方法的详细描述已先前发表。为了更好地定义 TCGA 病理报告的组成，我们使用我们的信息提取流程系统地筛选了报告文本中的关键临床病理概念。对于每份报告，我们记录了文本中是否明确提到了：病理 T 期（pT）、病理 N 期（pN）、病理 M 期（pM）、肿瘤萌芽、淋巴血管侵袭（LVI）、神经周围侵袭（PNI）、手术边缘状态、MSI/MMR 状态、EBV 状态以及淋巴结总数和阳性数。然后我们计算了每个项目至少出现一次的报告比例（表 1）。

**下载：下载高分辨率图像（697KB）**
**下载：下载全尺寸图像**
**图 1. LLM 风险评分可以预测结直肠癌的生存情况。**
**表 1. 未结构化 TCGA 病理报告中关键预后特征的分布和报告频率。**

**特征**
| TCGA CRC | TCGA STAD | TCGA LIHC |
| --- | --- | --- |
| pT | 99.8% (581/582) | 100% (411/411) | 93.4% (337/361) |
| pN | 99.8% (581/582) | 100.0% (411/411) | 85.0% (307/361) |
| pM | 100.0% (582/582) | 100.0% (411/411) | 100.0% (361/361) |
| 肿瘤萌芽 | 0.2% (1/582) | 0.0% (0/411) | 0.0% (0/361) |
| 淋巴血管侵袭 (LVI) | 9.5% (55/582) | 6.3% (26/411) | 2.2% (8/361) |
| 神经周围侵袭 (PNI) | 1.7% (10/582) | 2.9% (12/411) | 0.3% (1/361) |
| 边缘状态 | 53.8% (313/582) | 47.0% (193/411) | 33.5% (121/361) |
| MSI/MMR | 4.1% (24/582) | 1.7% (7/411) | 0.0% (0/361) |
| EBV | 0.0% (0/582) | 2.4% (10/411) | 0.0% (0/361) |

**实验设计**
在这项研究中，我们使用 LLM 根据肿瘤特定的病理报告生成生存风险评分。首先，我们分别将每种肿瘤的病理报告输入 LLM。用户/系统提示如下：“根据患者的报告，他属于以下哪个生存风险组？有两个选项：低风险、高风险。”（图 1A）
模型被指示返回 JSON 格式的结构化输出，包含两个字段：
● “risk_group”：二进制分类，为“低风险”或“高风险”；
● “reasoning”：分配风险组的自由文本理由。
生存数据（包括 OS、PFS 和 DSS）来自 TCGA（www.cbioportal.org，访问日期：2024 年 11 月）。由于 cBioPortal 中的临床数据可用性，研究仅针对同时拥有病理报告和完整临床元数据的患者进行。根据 LLM 的预测，患者被分为高风险和低风险组。为每个生存指标构建了 Kaplan–Meier 生存曲线，并使用对数秩检验评估差异。使用单变量和多变量 Cox 比例风险模型估计风险比（HRs）和 95% 置信区间（CIs）。多变量分析使用了包括性别、年龄、MSI 状态、pT、pN 和阳性淋巴结计数在内的协变量（图 1）。我们计算了更新后的 C 指数，并使用似然比检验比较模型，以量化 LLM 评分的增量预后价值。为了进一步了解 LLM 如何进行风险分配，我们分析了代表性的高风险和低风险理由，突出了与已知概念对应的短语（图 2A–B）。此外，我们量化了模型推理字段中在两个风险类别中最常见的描述符，以识别一致的预后模式。创建了频率条形图，显示高风险和低风险组中 LLM 推理中最常用的 10 个词及其相对频率（%）。这 10 个词分别与两个类别原始报告中的相同词的相对频率进行了比较。为了进一步突出独特的语言模式，识别了仅在 LLM 高风险组中出现、仅在原始报告中出现或在两个来源中都出现的词，并相应地进行了分组。同样的程序也应用于 LLM 低风险组。所有类别都在图 2C 中呈现。补充表 2 中还提供了所有类别中最常用的 50 个词的列表。接下来，我们使用 LLM 定义的 300 份 CRC 低风险和 313 份 CRC 高风险病理报告来分析原始报告文本长度的分布。图 2D 中的直方图比较了高风险和低风险组报告长度的分布。此外，使用 Python 版本 3.10.18 计算了相关性热图，以评估 LLM 预测与临床病理变量之间的关系（皮尔逊相关系数）（图 2E）。

**数据和代码可用性**
所有模型推理都在使用 Hugging Face 实现的 LLaMA 3.3 70B 的安全本地服务器上进行。分析过程中没有访问或存储任何可识别患者身份的信息。模型提示、数据分析和生存分析的所有代码均可在 https://github.com/KatherLab/LLMAIx 下获得，采用知识共享署名 4.0 国际许可协议，以便完全复制。所有软件包都需要至少 Python 3.12。将基于大语言模型（LLM）的风险分组纳入模型后，所有终点指标的性能均得到了显著提升（无进展生存期（PFS）：C-指数=0.701，Δ=+0.013；总生存期（OS）：C-指数=0.702，Δ=+0.006；疾病特异性生存期（DSS）：C-指数=0.752，Δ=+0.005）。在PFS方面，这种提升在似然比检验中达到了统计学显著性（p=0.026）。与这些发现一致的是，在STAD和LIHC队列中，基于LLM的高风险组患者的OS显著更差，其风险比（HR）分别为1.62（95%置信区间：1.15–2.28，p=0.013；补充图2A）和1.50（95%置信区间：1.06–2.12，p=0.025；补充图2B）。在STAD中，DSS和PFS也具有统计学意义（HR分别为1.83，95%置信区间：1.18–2.84，p=0.021；以及HR=1.67，95%置信区间：1.16–2.41，p=0.015；补充图2）。在所有模型中，基于LLM的风险分层与传统的临床变量相比具有相似的预后价值。

LLM的推理过程反映了具有临床意义的预后特征。为了定性了解LLM是如何得出风险分类的，我们查看了代表性结直肠癌（CRC）病例的自由文本推理依据（图2A–B）。在高风险预测中，推理依据提到了诸如“深层浆膜下浸润”、“多个阳性淋巴结”或“血管浸润”等不良特征，以及较差的组织学分化，并通常将这些共存的特征整合到单一的风险评估中。相比之下，低风险预测则常强调“分化良好的”肿瘤、“局限于肠壁的小肿瘤”、无淋巴结受累或“手术切缘阴性”。为了补充这一定性评估，我们分析了模型自由文本推理字段中最常见的词汇，并将其与原始报告中的词汇频率进行了比较（补充图3）。在LLM高风险组中，最常见的词汇是“肿瘤”、“腺癌”和“淋巴”；而在LLM低风险组中，最常见的词汇是“淋巴”、“肿瘤”和“分化”。这些词汇在原始病理报告和LLM推理输出之间的分布也表明，模型特别关注某些高价值特征，例如，在高风险病例中，转移在原始报告和LLM推理中都有出现。需要注意的是，这项分析仅关注了单个词汇的存在，而没有考虑否定词或更广泛的上下文含义。例如，“浸润”这样的词汇可能在低风险病例中出现在“无浸润”这样的短语中，这表明仅凭词汇频率无法完全反映模型对文本的细致解读。高风险预测与“晚期”、“侵袭性”、“血管性”、“浸润”等词汇相关，而低风险预测则常包含“远处转移”、“预后良好”、“较小”和“较好”等词汇（图2C）。两个LLM风险组之间的病理报告长度分布大致相似，词汇数量上有很大重叠。尽管被归类为LLM高风险的报告平均长度略长，但这种差异不足以明确区分两个队列（见图2D）。高风险组的中位词汇数为220个（范围：30–3352个），而低风险组的中位词汇数为134个（范围：26–1904个）。总体而言，虽然LLM高风险报告倾向于包含较长的文本，但报告长度本身似乎并不是LLM风险分类的强有力或唯一的判别因素。

为了进一步探讨LLM预测与传统临床变量之间的关系，我们计算了一个相关矩阵（图2E）。LLM风险评分与AJCC分期（ρ=0.59）、pN分期（ρ=0.56）和pT分期（ρ=0.32）有中等程度的相关性，但与患者年龄（ρ=−0.11）和性别（ρ=−0.05）的相关性较低。这些结果表明，尽管模型捕捉到了与既定分期标准相关的信息（这些信息可能已经体现在报告中），但它也整合了报告中未明确提及的额外特征。通过整合这些额外信号，模型可以提供更细致的评估，从而可能提高预后准确性。

病理报告包含极其丰富的信息。专家病理学家接受过训练，能够识别具有预后意义的肿瘤特征，并在报告中系统地描述癌症的表型，包括侵袭性生长模式、炎症浸润、间质反应模式以及扩散途径（淋巴血管/神经周围浸润），通常还会提供切缘和邻近组织的背景信息。在过去几十年中，专家病理学家已经识别并完善了许多不同的组织病理生物标志物（如分化程度、形态亚型、分期、CRC中的肿瘤萌芽、神经周围/淋巴血管浸润和纤维增生模式），这些标志物完全依赖于H&E组织病理学。因此，这些元素嵌入在病理报告中，几乎适用于所有癌症患者，并且越来越多地以标准化的结构化形式（例如TNM分类）用于临床决策。尽管取得了这些进展，但在实际操作中，报告仍因机构、亚专科和报告模板的不同而有所差异，并非所有潜在相关的细节都一致地被编码为离散变量。因此，叙述性的显微镜和宏观描述继续包含传统风险模型无法直接获取的预后信息。为了弥合这一差距，我们应用了一个开源的、本地可用的LLM，将三个不同TCGA队列的非结构化病理文本转化为一个可复制的生存风险评分，从而揭示了病理学家已经记录的明确提及的以及潜在的隐含信号。我们的结果表明，基于LLM的二进制风险评分具有显著的预后能力。在CRC中，这一评分略微提高了仅基于临床协变量的模型的区分性能。这表明LLM能够在语义和上下文层面解读病理学家的语言，捕捉到诸如浸润模式的严重性、伴随的间质或炎症反应等细微差别，以及嵌入在文本中的多句话线索，而这些目前并未完全反映在编码的变量集中，因此可能只能部分地用于下游的预后和预测评估——尽管病理学家在评估和描述这些形态特征上投入了大量时间和精力。

从临床角度来看，我们的发现意味着LLM生成的风险评分可以通过提供即时、自动化且可复制的风险估计来补充现有的分期系统。与其他提出的风险分层方法（如分子亚型分类）相比，基于LLM的风险分层仅带来最小的额外成本。这些结果也与整合文本、影像和基因组学的多模态肿瘤学趋势相一致。由于病理报告总结了本身具有强烈预后意义的显微镜发现，基于LLM的评分可以作为下游多模态模型的有效补充，特别是在数字病理成像尚未广泛应用的机构中。

尽管我们提供了证据表明非结构化病理报告包含相关且潜在的额外预后信息，但本研究当然也存在一些局限性。首先，病理报告种类繁多，由于报告风格、语言（所有TCGA报告均为英文）、报告模板或“部门风格”的不同，模型的性能可能会有所下降。不过，TCGA数据集是在不同中心收集的，这表明至少具有一定程度的普遍性。此外，许多TCGA报告早于广泛的标准化的应用，这可能解释了肿瘤萌芽和MSI/MMR状态的记录率较低的现象。相比之下，基于病理切片图像的模型不依赖于这些风格上的差异。缓解这些局部差异的方法包括多站点外部验证、提示/模型领域适应（例如，在本地报告上进行少量样本调整）以及按站点/语言进行报告校准和性能评估。其次，可能存在叙述性偏差。知道肿瘤具有深度浸润（例如pT3/4）可能会影响病理学家的描述，导致过度强调侵袭性特征（例如，如果病理学家知道肿瘤已经复发或出现血管或淋巴结转移，他们可能会描述高度萌芽和广泛的LVI），从而产生确认偏倚，而这可能是LLM无意中学习到的。第三，我们目前的研究仅调查了消化系统中三种常见的肿瘤类型（CRC、STAD和HCC）。此外，我们的部分可解释性分析应被视为探索性和描述性的。这些方法旨在深入了解LLM生成的风险评分的机制。最后，基于LLM的风险评分仅限于病理报告中包含的信息，无法捕捉未报告或视觉上不可察觉的生物标志物，而这些标志物可能可以通过直接在整张切片图像上训练的模型检测到。未来的研究需要测试我们的发现是否也适用于消化道以外的肿瘤和更罕见的肿瘤类型，有时这些肿瘤类型还表现出更大的形态异质性，如肉瘤。未来的工作应探索在更大的先进病理语料库上对本地LLM进行微调和外部分布验证，整合思维链推理以提高可解释性，并将文本生成的风险信号与从数字病理图像分析中获得的风险信号进行比较。

这项研究初步证明了LLM可以从非结构化病理报告中提取预后信号。下一步应包括跨语言和报告模板的前瞻性、多站点外部验证，以及预设的终点和稳健性检查（例如，提示消融），以展示其临床实用性。从生物学角度来看，将LLM风险评分与正交组学（DNA、RNA和/或蛋白质水平）和治疗反应联系起来，将测试文本生成的信号是否与可操作的肿瘤生物学特征相对应。

LLM可以从叙述性病理报告中提取预后信息，并将其转换为具有独立预测价值的二进制生存生物标志物，超越了传统的分期系统。这种方法恢复了目前丢失在未阅读文本中的专家知识，同时无需额外的组织分析、分子检测或病理学家的工作量。使用开源的、本地可部署的模型确保了快速的临床可行性和隐私保护，为治疗决策提供了实用的策略。

（A）实验设计：将结直肠癌（CRC）、胃癌腺癌（STAD）和肝细胞癌（LIHC）的病理报告以及系统提示输入到大型语言模型LLaMA v. 3.3中。输出是一个二进制分类值，表示高风险或低风险。使用Kaplan–Meier估计器和Cox比例风险模型进行了生存分析。Kaplan–Meier曲线和Forest图显示了（B）总生存期（OS）、（C）无进展生存期（PFS）和（D）疾病特异性生存期（DSS）的多元Cox回归分析，按LLM高风险和LLM低风险患者分组。协变量包括年龄、性别、LLM风险评分、病理T分期（pT）、病理N分期（pN）、阳性淋巴结计数和MSI状态。风险比（HR）和95%置信区间（CI）由Cox比例风险模型计算得出。P值使用双侧对数秩检验计算（*p<0.05，**p<0.001）。图表使用Python 3.11.5和cbioportal.org中的lifelines包生成。TCGA：癌症基因组图谱；LLaMA：大型语言模型元AI；MSI：微卫星不稳定性；MSS：微卫星稳定性；HR：风险比；CI：置信区间。

（A）高风险和（B）低风险CRC病例的代表性自由文本推理依据。（C）LLM特定和报告特定的词汇，以及它们在LLM高风险和低风险组中的重叠词汇。词云使用https://www.freewordcloudgenerator.com/生成。（D）直方图显示了两个风险组之间报告长度的分布比较。（E）热图显示了临床变量之间的相关性：性别、LLM风险评分、AJCC分期、年龄、MSI、病理T分期、病理N分期和病理M分期。条形图使用Flourish（https://flourish.studio/）生成。直方图和热图使用Python 3.11.5中的seaborn生成。

本研究遵循赫尔辛基宣言进行。FOXTROT-CRC训练队列的组织样本收集得到了Northern and Yorkshire研究伦理委员会（Jarrow，英国；唯一参考编号：07/MRE03/24）的批准。第一个测试队列CR07-CRC的分析在英国得到了苏格兰多中心研究伦理委员会（ISRCTN研究注册编号28785842）的批准。第二个测试队列DACHS-CRC（由德国海德堡DKFZ癌症研究中心领导的流行病学研究）的分析得到了海德堡大学医学学院的伦理委员会批准（批准编号310/2001）。

作者贡献声明：
Chiara M. L. Loeffler：概念化、数据整理、调查、可视化、初稿撰写、审阅与编辑。
Nic G. Reitsam：正式分析、调查、撰写、审阅与编辑。
Fabian Wolf：数据整理、软件开发、撰写、审阅与编辑。
Esther H. Stueker：可视化、正式分析、撰写、审阅与编辑。
Hannah S. Muti：调查、撰写、审阅与编辑。
Jakob Nikolas Kather：监督、资源协调、验证、撰写、审阅与编辑。Wiest：概念化、数据整理、监督、验证、撰写以及审稿与编辑。
**资金支持**
JNK项目得到了以下机构的资助：
- 德国癌症援助组织DKH（DECADE项目，项目编号70115166）
- 德国联邦研究、技术和空间部BMFTR（PEARL项目，项目编号01KD2104C；CAMINO项目，项目编号01EO2101；TRANSFORM LIVER项目，项目编号031L0312A；TANGERINE项目，通过ERA-NET Transcan资助；Come2Data项目，项目编号16DKZ2044A；DEEP-HCC项目，项目编号031L0315A；DECIPHER-M项目，项目编号01KD2420A；NextBIG项目，项目编号01ZU2402A）
- 德国研究基金会DFG（TRR 412/1项目，项目编号535081457；SFB 1709/1项目，项目编号2025，项目编号533056198）
- 德国学术交流服务DAAD（SECAI项目，项目编号57616814）
- 德国联邦联合委员会G-BA（TransplantKI项目，项目编号01VSF21048）
- 欧盟的“地平线欧洲”（Horizon Europe）研究与创新计划（ODELIA项目，项目编号101057091；GENIAL项目，项目编号101096312）
- 欧洲研究委员会ERC（NADIR项目，项目编号101114631）
- 乳腺癌研究基金会（BELLADONNA项目，项目编号BCRF-25-225）
- 英国国家卫生与护理研究院NIHR（利兹生物医学研究中心，项目编号NIHR203331）

本文所表达的观点仅代表作者本人，并不一定代表NHS、NIHR或英国卫生与社会护理部的立场。该研究工作得到了欧盟的资助。然而，文中观点和意见仅属于作者个人，并不一定反映欧盟的立场；欧盟或资助机构对此不承担任何责任。
NGR项目还得到了德国奥格斯堡大学医学院临床科学家计划的支持。

**人工智能声明**
根据2023年2月13日发布的COPE（出版伦理委员会）声明（https://publicationethics.org/cope-position-statements/ai-author），作者在此披露在撰写本文过程中使用了以下人工智能模型：
- GPT-4o（OpenAI）用于检查拼写和语法错误。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部