在当今数字化时代,人工智能的发展可谓日新月异。大语言模型(Large Language Models,LLMs)如 ChatGPT 横空出世,彻底改变了计算机分析人类语言的方式,以及人们与计算机的交互模式。在医学领域,尤其是放射学中,精确且高度依赖上下文的语言使用是日常工作的基石。然而,以往简单的统计语言模型和早期神经网络架构,已无法满足日益复杂的医学文本处理需求。为了深入了解这些系统如何处理和生成医学文本,探究其技术基本原理至关重要,在此背景下,来自苏黎世大学附属医院诊断与介入放射学研究所的研究人员开展了相关研究,研究成果发表在《Die Radiologie》上。
研究人员主要采用叙事性文献分析的方法,深入研究语言模型的起源历史、技术基础、训练过程以及 LLMs 的局限性。
研究结果如下:
- 技术基础:现代语言模型处理文本的第一步是标记化(Tokenisierung)和嵌入(Einbettung)。输入文本被分解为较小的单元 —— 标记(Token),然后每个标记通过高维数字向量表示,这些向量的构造使得含义相似的标记在高维数学空间中具有相似的数值和一定的距离。Transformer 架构是大多数现代语言模型的核心,其中 GPT 等模型常仅使用解码器部分。解码器由多个相同的 Transformer 块组成,包含注意力机制和前馈神经网络。注意力机制能分析文本中所有单词之间的关系,前馈神经网络则进一步处理信息,使模型能够识别更复杂的模式。但 Transformer 架构存在上下文窗口的技术限制,影响对较长文本的处理。在文本生成过程中,模型会根据当前上下文窗口计算每个新位置的下一个标记的概率分布,通过采样选择下一个标记,而采样过程受 “温度” 和 “Top - p” 等参数控制,不同的参数设置会影响生成文本的创造性和准确性 。
- 训练与发展:LLMs 的发展是一个多阶段的过程,包括预训练(Pretraining)、监督微调(supervised fine - tuning,SFT)和对齐(Alignment)。预训练是通过分析大量来自互联网、数字书籍等的文本,让模型学习基本的语言能力,这是一个自我监督学习的过程,但存在数据来源不可靠和信息压缩损失的问题 。监督微调则是使用精心策划的示例对话对预训练模型进行进一步训练,使其适应特定应用场景,“Instruction Tuning” 是其中一种特殊形式 。对齐是使模型行为符合人类价值观和偏好,目前常用人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)方法,通过人类评估模型的多个回答来训练奖励模型,进而优化 LLMs 。
- 模型应用与局限:LLMs 在放射学和许多其他医学领域提供了一种强大且多用途的方式,可更高效地处理语言相关任务并实现部分自动化。但 LLMs 存在生成看似合理但实际错误信息的倾向,用户需仔细检查生成内容的准确性。
研究结论表明,LLMs 的技术基础和训练过程使其成为文本处理的通用工具,在放射学领域有广泛的应用前景。然而,其局限性也不容忽视,在实际应用中需要谨慎对待。这一研究为放射学及其他医学领域合理应用 LLMs 提供了理论依据,有助于推动人工智能技术在医学领域的深入发展,提升医学工作效率和质量。同时,也提醒人们在享受技术带来便利的同时,要关注其潜在风险,进一步探索优化和监管的方法,以确保技术的安全、可靠应用。