在骨质疏松症高发的当下,骨质疏松性椎体压缩骨折(osteoporotic vertebral compression fractures, OVCFs)是导致老年人疼痛、残疾和生活质量下降的常见原因。经皮椎体后凸成形术(percutaneous kyphoplasty, PKP)是治疗OVCFs的微创手术,能有效缓解疼痛、恢复椎体高度。然而,PKP术后并非一劳永逸,两种主要的并发症——骨水泥渗漏(bone cement leakage, BCL)和新发椎体骨折(new vertebral fractures, NVF)——始终是悬在医患头上的“达摩克利斯之剑”。BCL可能导致神经损伤、肺栓塞等严重后果,而NVF则会引发新的疼痛和功能障碍。如何准确预测哪些患者术后容易发生这些并发症,从而实现精准干预,是脊柱外科领域亟待解决的难题。
传统的预测方法主要依赖医生的临床经验,或基于统计学的传统机器学习(traditional machine learning, TML)模型。然而,临床经验主观性强,而TML模型通常需要大量的特征工程和专业知识,且泛化能力有时不足。近年来,以生成式预训练变换模型(large language models, LLMs)为代表的人工智能技术席卷各行各业,其在理解和推理复杂信息方面展现出惊人潜力。那么,这些“博学”的LLMs,在面对专业的医学预测任务时,能否像人类专家一样思考,甚至超越专家和传统模型呢?它们是否能成为外科医生决策的得力助手?为了回答这些问题,一项发表于《npj Digital Medicine》的研究,开展了一项别开生面的“人机大战”,系统评估了GPT-5和DeepSeek R1等先进LLMs在预测PKP术后并发症方面的表现,并与TML模型及脊柱外科医生进行了全面对比。
研究者开展这项工作的关键技术方法包括:1)数据队列构建 :利用一家三级医院的回顾性与前瞻性相结合的临床数据。2)预测任务设置 :基于人口统计学、围手术期基线数据和影像学数据,预测BCL和NVF的发生,并尝试预测并发症亚型。3)模型与评估对象 :测试了两种LLM(采用零样本和少样本策略)、五种TML模型,以及两位脊柱外科医生(在有/无接触LLM预测结果的情况下)的预测能力。4)性能评估指标 :使用F1分数(F1-score)和马修斯相关系数(Matthews correlation coefficient, MCC)等指标综合评价预测性能。
研究结果
1. 骨水泥渗漏(BCL)预测:LLMs初显身手,辅助医生提升表现
在零样本(即不给示例直接提问)条件下,两种大语言模型(GPT-5和DeepSeek R1)在预测BCL时表现出了可接受的性能。它们的F1分数在0.857至0.871之间,MCC在0.164至0.332之间。这一表现与五种传统机器学习模型(F1分数:0.758–0.867;MCC:0.265–0.416)大致相当,甚至略优于单独工作的脊柱外科医生(F1分数:0.675–0.684;MCC:0.074–0.185)。当采用少样本(提供少量示例)提示策略时,LLMs预测的特异性有所提高,但整体性能提升并不明确。一个有趣的发现是,当外科医生能够参考LLM提供的预测解释时,他们在BCL预测任务上的表现得到了提升,这凸显了LLMs作为临床决策支持工具的潜在价值。
2. 新发椎体骨折(NVF)预测:LLMs遭遇滑铁卢,传统模型更稳健
与BCL预测相比,LLMs在NVF预测任务上遭遇了挑战。在零样本条件下,LLMs的表现较差(F1分数:0.309;MCC:0.044)。尽管通过少样本学习,其性能有所改善,但仍未达到理想水平。相比之下,在测试的传统机器学习模型中,径向基函数支持向量机(RBF-SVM)模型展现出了最佳的NVF预测性能(F1分数:0.536;MCC:0.414)。此外,LLMs提供的解释也未能像在BCL预测中那样,有效提升外科医生在NVF预测上的表现。
3. 并发症亚型预测:LLMs能力尚不足
研究还测试了LLMs预测具体并发症亚型(例如,BCL的不同位置或类型)的能力。结果显示,当前的大语言模型在此项更精细的任务上表现不佳,预测能力有限。
结论与讨论
本研究系统地评估了前沿大语言模型在预测PKP术后特定并发症方面的能力,并与传统方法和人类专家进行了对比。主要结论是:当前的大语言模型对于PKP术后不同并发症的预测表现存在显著差异。在预测骨水泥渗漏(BCL)时,它们展现出了与优秀传统机器学习模型相媲美、甚至略优于初判外科医生的潜力,并能通过提供解释来辅助医生提升判断水平,显示出作为临床决策支持工具的初步应用前景。然而,在预测新发椎体骨折(NVF)这一任务上,其零样本性能不佳,且辅助效果有限,表明其泛化能力和对复杂病理机制的理解仍有欠缺。同时,模型在更精细的并发症亚型预测上表现乏力。
这些发现具有多重重要意义。首先,它为大语言模型在高度专业化的医学预测领域的应用提供了一个具体而严谨的效能基准,证实了其潜力与局限性并存,而非“万能”。其次,研究提示,不同临床问题的内在复杂性和数据模式,可能显著影响LLMs的表现,未来研究需针对具体任务进行细致的模型选择和优化。最后,研究表明,将LLMs作为“副驾驶”集成到临床工作流程中,可能通过提供解释性见解来增强而非替代人类专家的决策,但这需要建立在模型对特定任务有足够可靠性的基础上。总而言之,该研究指出,尽管当前的大语言模型在特定医疗预测场景中展现出一定价值,但它们距离成熟的、可靠的临床实际应用仍有距离,需要在模型架构、训练数据、医学知识融合及评估标准等方面进行持续改进和深入研究。
打赏