基于自然语言处理的早产儿视网膜病变预测模型NLP-ROPCare：利用入院记录实现早期筛查与干预

时间：2026年1月19日

来源：BMJ Open Ophthalmology

编辑推荐：

本文介绍了一项创新性研究NLP-ROPCare，该研究利用自然语言处理（NLP）技术分析早产儿入院记录中的非结构化自由文本，成功构建了预测早产儿视网膜病变（ROP）发生与严重程度的模型。研究对比了BERT、RoBERTa、MC-BERT和NEZHA四种预训练语言模型，结果显示NEZHA在预测ROP发生方面表现最优（F1分数89.35%，AUC 0.90），而RoBERTa在预测严重程度方面略胜一筹（F1分数78.44%，AUC 0.91），其性能均优于传统机器学习方法。该模型为ROP的早期预防和个性化治疗提供了新工具，具有重要临床转化潜力。

Abstract

Objectives 早产儿视网膜病变（ROP）是全球儿童失明的主要原因之一，亟需更高效的模型来预测需要治疗的ROP。本研究旨在利用自然语言处理（NLP）开发一种名为NLP-ROPCare的ROP发生和严重程度的新预测模型。

Methods and analysis 本研究为一项回顾性观察性研究。收集了2013年至2022年广东省妇幼保健院出生、胎龄（GA）≤32周或出生体重（BW）≤2000克的婴儿，包括3922名早产儿，其中1106名患有ROP。研究使用了四种预训练语言模型——BERT（Bidirectional Encoder Representations from Transformers）、RoBERTa（Robustly Optimized BERT Pretraining Approach）、MC-BERT（language pre-training via a Meta Controller）和NEZHA（NEural contextualiZed representation for CHinese lAnguage understanding）——基于入院记录中的自由文本来开发NLP预测模型。作为对比，使用两种机器学习方法（随机森林和支持向量机）基于先前从入院记录中提取的20个结构化特征构建预测模型。性能评估指标包括准确率、精确率、召回率、F1分数和受试者工作特征曲线下面积（AUC）。

Results 预测ROP发生的NLP模型性能优于预测严重程度的模型。NEZHA模型在预测ROP发生方面表现出最高的准确率，F1分数达到89.35%，AUC为0.90。其性能也优于两种机器学习模型，后者的最高F1分数为78%，AUC为0.87。此外，在预测ROP严重程度方面，RoBERTa的F1分数（78.44%）略高于NEZHA（77.81%），RoBERTa的AUC也达到了最高的0.91。

Conclusion NLP-ROPCare结合了语言模型NEZHA和RoBERTa，能够基于早产儿入院记录中的非结构化自由文本早期预测ROP的发生和严重程度，突显了其在ROP早期预防中的价值。应进行进一步的外部验证以更好地调整模型。

Introduction

早产儿视网膜病变（ROP）是一种主要发生在早产或低出生体重儿中的血管增生性疾病，是全球儿童失明的主要原因。对高危婴儿进行早期筛查和定期随访至关重要，因此大多数国家都有自己的筛查标准。根据中国指南，胎龄（GA）低于32周或出生体重（BW）<2000克的婴儿需要进行ROP筛查。然而，由于医疗资源分布不均和经验丰富的眼科医生短缺，仍有许多ROP患儿缺乏及时的诊断和治疗。因此，需要更高效、准确的模型来帮助预测需要治疗的ROP。

据此，一些预测模型，如G-ROP（产后生长与ROP）和CO-ROP（科罗拉多-ROP）算法，在GA和BW的基础上结合了产后体重增长，以提高预测的敏感性和特异性。随着人工智能（AI）的发展，许多深度学习模型也被训练用于基于眼底图像和几个结构化风险因素自动预测ROP。然而，早产儿的电子健康记录（EHRs）中包含更多与围产期状况、产后治疗和遗传多态性相关的信息。这些数据可能为ROP预测提供更多证据，但在临床环境下手动提取非常耗时。

随着EHRs在医疗保健系统中的应用日益增多，大量的临床信息以临床叙述中的非结构化自由文本形式产生。作为AI的一个重要分支，自然语言处理（NLP）专注于分析文本和语音，因此能够自动处理医疗记录中这些有价值的数据，当与其他机器学习（ML）方法结合时，可以进一步辅助临床护理和研究。Klang等人应用NLP基于急诊分诊记录预测需要转入重症监护室的患者。Clapp等人构建了一个基于入院记录的NLP预测模型用于严重孕产妇发病率的预测，结果与先前验证的方法相当。显然，NLP可以根据入院患者的初始记录预测疾病的发展，这可能是因为这些记录包含了与疾病密切相关的病史、体征和症状。

很少有研究探索NLP在预测ROP发生和严重程度方面的应用。当前临床压力和技术发展迫切需要该领域的研究。早期预测高危ROP患者有助于医生及时采取预防性治疗。通过密切随访和个性化医疗，可以最大限度地减少因ROP导致的视力丧失，从而改善患者预后并可能减轻整体医疗负担。本研究旨在利用NLP，基于早产儿入院记录中的非结构化自由文本开发一种新的ROP预测模型。

Methods

数据准备

所有数据由广东省妇幼保健院提供。作为一项回顾性研究，收集了2013年1月1日至2022年12月31日期间GA≤32周或BW≤2000克的早产儿，并根据其医疗记录分为无ROP、轻度ROP和重度ROP组。轻度ROP仅需定期随访，包括2型ROP、II区1期或2期ROP以及III区1、2或3期ROP。重度ROP定义为需要治疗的ROP，包括1型ROP、4期和5期ROP。在达到出院标准前出院或未进行眼底检查的患者被排除。在所有临床文档中，提取入院记录进行进一步分析。

工作流程示意图见图1。总共收集了3922份原始记录构建ROP发生数据集。其中，1106名早产儿被诊断为轻度或重度ROP（占28.2%），其余则无。对于严重程度数据集，为了增强预测模型的性能，使用了一种名为“随机句子反转”的数据增强方法来扩充原始记录。在不改变语义的情况下增加数据样本的多样性可以增强模型的鲁棒性。因此，最终纳入了662例轻度ROP和667例重度ROP。此外，训练集、验证集和测试集按接近8:1:1的比例分配，这有助于分类模型的训练。

如图2所示，在模型训练之前进行了数据预处理。首先，对数据进行去标识化处理，根据已知的婴儿隐私列表对指定文本进行掩码或替换。其次，使用正则表达式过滤掉非文本元素和特殊标点符号。最后，去除与临床情况无关的不必要信息，缩短文档长度，以尽量减少无关噪声对AI模型的影响。

预训练语言模型应用

ROP预测任务的目标是预测早产儿是否会发展为ROP，如果会，则预测ROP的严重程度。在当前研究中，我们将预测任务转换为语言模型框架下的文本分类任务。部署并测试了四种预训练语言模型，包括BERT（Bidirectional Encoder Representations from Transformers）、RoBERTa（Robustly Optimized BERT Pretraining Approach）、MC-BERT（language pre-training via a Meta Controller）和NEZHA（NEural contextualiZed representation for CHinese lAnguage understanding）。

BERT是NLP领域的开创性模型，以其采用Transformer的双向训练而闻名。与依赖于左上下文训练（如传统的LSTM模型）或分别训练上下文两侧（如OpenAI的GPT模型）的前辈不同，BERT同时考虑了两个方向的上下文。它利用大量文本语料库进行预训练，然后针对特定任务进行微调。

RoBERTa是BERT的一个变体，对模型架构和训练方法进行了修改。它采用更大的批大小和字节级字节对编码（BPE），并移除了下一句预测目标。通过在更全面的数据集上进行广泛训练，RoBERTa在众多NLP任务上表现出比BERT更优的性能。

MC-BERT是一种为医学领域概念化的创新性表示学习方法，提出了一种独特的掩码生成过程。它涉及对令牌跨度进行掩码，而不仅仅是随机令牌。MC-BERT结合了两种掩码策略：整体实体掩码和整体跨度掩码。它根据用户提供的实际“句子”对输入文档进行分割，作为正样本，并从其他文档中随机采样句子作为下一句预测的负样本。

NEZHA是专为中文理解设计的模型，引入了一项重要创新：旋转位置编码（Rotary Positional Encoding）。这一特性使模型能够更有效地处理相对位置信息，使NEZHA特别擅长处理长序列，并在需要细致理解词语相对位置的任务中表现出色。

预训练语言模型的微调

在微调语言模型的过程中，我们将输入入院记录编码为输入嵌入，使用最终隐藏向量C（对应于初始输入令牌）作为聚合表示。首先，每个输入令牌x_i使用嵌入矩阵W_e（其中V为词汇表大小）转换为嵌入向量e_i。令牌的嵌入可表示为：e_i= W_ex_i。接下来，将样本输入Transformer网络后，第i个令牌最后一层的输出可数学表达为：C = Transformer(e₁, e₂, ..., e_n)。最后，分类层权重W（其中K表示标签数量）代表了微调阶段引入的唯一新参数。我们使用C和W计算常规分类损失，表示为：L = -log(softmax(CW))。

在本研究中，我们的NLP-ROPCare模型包含两个分类器，如图2所示。第一个模型是一个二元分类器，用于判断是否存在ROP。第二个模型对ROP的严重程度进行分类，通常分为“轻度”或“重度”阶段。两个模型的训练涉及不同的标签和可能不同的特征集，反映了它们所要解决问题的不同性质。有效的特征工程和模型选择对于确保准确和鲁棒的分类性能至关重要。

此外，为了解决语言模型训练参数数量多导致的硬件需求上升问题，我们结合低秩自适应（LoRA）算法设计了一个轻量级的ROP分类网络。

机器学习模型应用

为了更好地展示语言模型的性能，我们采用了两种机器学习模型进行比较，包括随机森林和支持向量机（SVM）。机器学习模型的输入是先前从婴儿入院记录中收集的结构化信息。基于先前研究报告的ROP风险因素，选择了20个临床特征作为输入变量。此外，我们对选定的临床特征进行了归一化处理，以增强数值稳定性并确保模型的鲁棒性：X_{norm = (X - μ) / σ，其中X代表输入样本，μ是均值，σ是样本标准差。}

随机森林是一种集成学习方法，在从原始数据集中随机选择的数据子集上训练多个决策树。这种方法提高了模型的可靠性和泛化能力，通过投票机制显著提升性能。对于ROP预测任务，每个决策树独立进行预测，然后通过投票确定最终预测结果y：y = mode{T₁(X), T₂(X), ..., T_n(X)}，其中T代表决策树，n是决策树的数量。

支持向量机以其卓越的分类能力而闻名，它在特征空间中构建超平面以最大化类间间隔，从而实现高效分类。为了解决非线性分类挑战，SVM使用核函数将数据映射到高维空间，实现线性分离。SVM在具有复杂、高维特征空间和有限样本的医疗场景中特别有效，它利用边界信息进行精确分类。SVM可表述如下：min_w,b(1/2)||w||²，约束条件为 y_i(w^Tx_i+ b) ≥ 1。

可解释性分析

基于BERT模型进行了注意力可视化。具体而言，将入院记录输入语言模型，并提示模型提取15个关键词，这些是病例样本中最重要的术语。然后，计算模型预测过程中与这些关键词相关的注意力权重比例，并对结果进行可视化。

统计分析

将临床医生分配的标签与模型输出的标签进行比对，计算关键性能指标，包括准确率、精确率、召回率、F1分数和受试者工作特征曲线下面积（AUC）。所有实验均使用不同的随机种子进行三次。结果以平均值和标准差表示。使用一对多策略，确定每个类别的真阳性（TP）、假阴性（FN）、真阴性（TN）和假阳性（FP）。模型准确率计算为（TP+TN）/（TP+TN+FN+FP）。精确率计算公式为TP/（TP+FP），召回率计算公式为TP/（TP+FN）。F1分数计算为2TP/（2TP+FP+FN）。AUC是模型性能的度量，AUC值越高表明模型性能越好。

患者和公众参与

没有患者或公众参与本研究的设计、实施或报告。暂无计划将结果直接传达给研究参与者。

Results

ROP发生数据集的人口统计学特征见在线补充表1，NLP模型预测ROP发生的性能见表1。NEZHA模型在预测ROP发生方面表现出最佳性能，平均准确率为84.11%，F1分数为89.35%。其次为RoBERTa模型，平均准确率为81.07%，F1分数为87.62%。与RoBERTa相比，虽然结合LoRA的语言模型在准确率（76.04±0.76%）和F1分数（84.75±0.27%）上略有下降，但模型参数数量得到显著优化。LoRA中的可学习参数量仅为RoBERTa模型的0.24%，显著提高了模型部署效率。此外，与NEZHA相比，两种机器学习模型表现出较差的性能，准确率和F1分数较低（在线补充表2）。

在ROP严重程度预测模型中（表2），NEZHA显示出相对较高的准确率（80.27±5.48%），优于RoBERTa（79.33±1.75%）。然而，RoBERTa实现了略高的F1分数（78.44±1.52%），优于NEZHA（77.81±6.72%）。总体而言，ROP发生预测模型的性能优于ROP严重程度预测模型。

通过比较图3A中不同算法预测ROP发生的ROC曲线，我们观察到NEZHA达到了0.90的AUC，而RoBERTa的AUC略低，为0.89。同样作为比较，两种机器学习模型的ROC曲线显示在在线补充图1中。随机森林的AUC为0.86，SVM的AUC为0.87，均低于NEZHA或RoBERTa。在ROP严重程度预测模型中，RoBERTa的AUC为0.91，而NEZHA为0.90（图3B）。每个ROC曲线及其相应的预测概率直方图单独提供在在线补充图2中。

为了更深入地理解模型预测的原理，基于BERT模型对无ROP和ROP样本的注意力权重进行了可视化（在线补充图3）。对于未患ROP的婴儿，模型在预测过程中更关注出生体重（BW）和生命能力。相反，对于ROP患者，模型更关注Apgar评分、辅助通气和其他治疗方法，同时也考虑了胎龄（GA）和出生体重（BW）。

Discussion

本研究利用早产儿入院记录开发了ROP预测NLP模型（NLP-ROPCare），证明了NLP在辅助ROP预防和个性化治疗方面的潜力。在我们的NLP-ROPCare模型中，NAZHA在预测ROP发生方面表现最佳，而RoBERTa在预测ROP严重程度方面表现稍好。此外，设计了一个基于LoRA的轻量级网络，以最小化所需的计算资源，这可能会扩大我们模型在真实世界临床应用中的适用性。

与处理图像的计算机视觉不同，NLP主要专注于理解和分析自然语言，包括我们日常交流中使用的文本和语音。利用深度学习算法，NLP可以帮助执行文本分类、问答、自动摘要和语音识别等任务，从而在智能医疗领域具有广泛的应用。例如，为了帮助早期检测阿尔茨海默病，Chen的团队提出了一种迁移学习模型，利用NLP进行语音分析。迄今为止，更多的NLP应用集中在使用EHRs、检测疾病相关信息甚至自动诊断。例如，Yang等人提出了一个名为GatorTron的综合临床语言模型，用于处理非结构化医疗记录，在提取临床信息和回答医学问题方面表现出显著性能。更具体地说，Byrd等人开发了一个模型，通过基于Framingham诊断标准自动识别临床记录中的体征和症状，来辅助心力衰竭的早期诊断。此外，现有研究已成功应用NLP来确定肿瘤的分期和预后，有助于提高患者的医疗质量。同样，在眼科领域，NLP在处理临床文档的自由文本数据方面显示出巨大潜力。最初，研究主要使用NLP从临床记录中提取信息以进行进一步的统计分析，例如视力、眼压、性别和年龄。随后，开发了用于眼病自动诊断的算法，包括眼部带状疱疹和假性表皮剥脱综合征。最近，Wang等人尝试利用语言模型处理非结构化自由文本来预测青光眼的进展。

据我们所知，当前研究是首次尝试应用NLP基于早产儿入院记录预测ROP发生和严重程度。在我们的NLP-ROPCare模型中，我们主要结合NEZHA用于ROP发生预测，RoBERTa用于ROP严重程度预测。结果表明，ROP发生预测模型的整体性能优于严重程度模型。这种差异可能主要归因于训练样本的数量，发生预测模型受益于更大的样本量。更多的训练样本可以使模型更好地从数据模式中学习并泛化，从而做出更准确的预测。为了进一步评估NEZHA模型的性能，我们从入院记录中提取了20个临床特征，并使用这些结构化信息开发了两种机器学习模型用于ROP发生预测。结果表明，NLP预测模型NEZHA可以实现更高的性能。

着眼于ROP分类模型的实际应用，我们设计了一个基于LoRA的轻量级网络，以有效缓解训练高参数语言模型的困难，显著提高训练效率。尽管这个以RoBERTa为骨干的轻量级网络略微降低了发生预测模型的准确率，但它仅优化了总参数的不到1%。这种创新方法展示了轻量级网络设计在处理复杂和高风险任务方面的潜力。它强调了算法进步在提高语言模型效率方面的重要性。通过减少所需的计算资源，这种方法可以显著扩展这些模型在各种现实世界背景下的适用性。

最后，可解释性研究结果提供了临床相关的见解，说明模型如何区分会发展为ROP的婴儿和不会发展为ROP的婴儿。在ROP病例中，我们的模型更关注Apgar评分（新生儿健康的重要指标）和特定的治疗干预措施，如辅助通气，因为先前的研究已证实它们与ROP相关。同时，我们的模型也关注了GA和BW，这与它们作为ROP主要风险因素的确立作用相一致。结果表明，我们的模型能够捕捉到ROP的传统预测因子。对额外数据的进一步分析将有助于识别与ROP发病和严重程度相关的新的临床线索。

近年来，语言模型及其在NLP领域的应用已成为全球研究的热点。在医学领域，语言模型可以通过学习医学文献、病历等文本数据，实现对医学知识的深度理解和应用，从而为临床诊断和治疗提供强大支持。在本研究中，我们结合语言模型NEZHA和RoBERTa开发了用于ROP预测的NLP-ROPCare。分析入院记录能够更早地识别高危婴儿，从而为预防性治疗创造有利条件。然而，我们的研究仍存在一些局限性。首先，样本量相对较小，且各组间不平衡。尽管应用了数据增强技术来缓解此问题，但未来工作仍需要更大、更具代表性的样本。其次，所有数据均来自单一中心，这可能限制模型的泛化能力。为解决此问题，未来的工作将侧重于与更多医院合作，获取多中心队列进行外部验证，从而加强模型的适用性和临床相关性。第三，当前研究仅使用入院记录作为预测因子，这可能限制了模型的预测性能。未来的研究将纳入纵向时间序列数据，如每日临床记录、眼底图像和实验室结果，以提高ROP预测的准确性和实时风险评估能力。最后，本研究未评估下游临床结局，例如早期干预率的提高或重度ROP的减少，这对于将模型性能转化为有意义的患者获益至关重要。未来的工作需要对更成熟版本的模型进行前瞻性临床实施，以系统评估其真实世界的临床效用和对患者结局的影响。

Conclusions

NLP-ROPCare是一种创新的ROP预测模型，通过分析早产儿入院记录中的非结构化自由文本实现预测。利用EHR数据微调语言模型在ROP预测任务中展现了令人印象深刻的性能。这一实际应用不仅证实了我们的主张，也为推进临床研究开辟了新途径。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部