ChatGPT 与必应版微软 Copilot 助力产科超声：潜力巨大但需谨慎监管

时间：2025年4月27日

来源：Scientific Reports

编辑推荐：

为评估 ChatGPT-3.5、ChatGPT-4.0 和必应版微软 Copilot（Copilot）在产科超声问题回答及报告分析中的表现，研究人员开展相关研究。结果显示，ChatGPT-3.5 和 ChatGPT-4.0 在准确性和一致性上更优，但三者均有局限性。该研究为 AI 在产科超声中的应用提供参考。

在当今数字化时代，人工智能（AI）技术飞速发展，大语言模型（LLMs）如 ChatGPT 和微软 Copilot 等逐渐走进人们的生活。在医疗领域，人们对这些工具寄予厚望，期望它们能辅助临床工作，提高医疗效率和质量。然而，AI 在医疗应用中的表现究竟如何，尤其是在产科超声这一关乎母婴健康的重要领域，仍存在诸多疑问。一方面，不同的大语言模型在面对产科超声相关问题时，给出的答案是否准确、一致？另一方面，它们分析产科超声报告的能力又怎样？这些问题亟待解决，这也促使了相关研究的开展。

上海交通大学医学院附属瑞金医院和复旦大学附属妇产科医院的研究人员，针对这些问题展开了深入研究。他们旨在评估和比较公开可用的 ChatGPT-3.5、ChatGPT-4.0 和必应版微软 Copilot（Copilot）在回答产科超声问题和分析产科超声报告方面的表现。该研究成果发表在《Scientific Reports》上，为 AI 在产科超声领域的应用提供了重要参考。

研究人员采用了多种技术方法来开展此项研究。首先，他们设计了 20 个与产科超声相关的问题，涵盖超声检查前准备、孕期超声检查频率、超声报告指标基本概念及结果解读等方面。同时，收集了 2018 年 8 月至 2023 年 3 月 107 名孕妇的 110 份产科超声报告。之后，将这些问题和报告分别三次提交给 ChatGPT-3.5、ChatGPT-4.0 和 Copilot，并记录其回答和分析结果。最后，由不同经验的放射科医生依据相关指南、专业书籍及临床经验对这些结果进行评估打分。

下面来看具体的研究结果：

二十个产科超声相关问题的分析结果：ChatGPT-3.5、ChatGPT-4.0 和 Copilot 均回答了所有问题。在 20 个问题的回答中，ChatGPT-3.5 有 18 次回答一致，ChatGPT-4.0 有 17 次，Copilot 有 15 次。从准确性和完整性来看，ChatGPT-3.5 和 ChatGPT-4.0 回答的正确率均为 95.0%（19/20），且 75.00%（15/20）的回答非常全面；而 Copilot 回答的正确率为 80.00%（16/20），只有 40%（8/20）的回答非常全面。不过，三者在回答问题的一致性和准确性上，并无显著差异（P>0.05）。
超声报告的解读结果：研究人员用 110 份超声报告对三个模型进行测试，根据异常指标情况将报告分类。在分析超声报告时，ChatGPT-3.5 和 ChatGPT-4.0 的总体准确率（分别为 83.86%、84.13%）显著高于 Copilot（77.51%），但在分析胎儿生长测量异常、胎盘异常和正常结果的病例时，三者准确率相似。仅在羊水指数（AFI）异常的病例中，ChatGPT-3.5 和 ChatGPT-4.0 的准确率高于 Copilot。此外，三个模型在分析同一超声报告时，均显示出较高的一致性。

综合研究结果和讨论部分，这些大语言模型在产科超声领域展现出了一定的潜力。它们能够为医疗问题提供清晰且通常较为准确的回答，有助于加强患者教育以及医患之间围绕常见产科超声问题的临床沟通。然而，研究也发现了它们存在的局限性。比如，模型的回答可能不一致或不完全正确，在识别胎儿生长测量异常方面准确率较低。而且，AI 模型在医疗领域的应用还存在网络安全隐患。因此，在使用这些模型时，医生的监督至关重要。这项研究为 AI 在产科超声领域的合理应用敲响了警钟，也为后续进一步探索和改进 AI 技术在医疗领域的应用指明了方向，推动医疗行业更加谨慎、科学地利用 AI 技术，保障患者的健康和安全。