在当今科技飞速发展的时代,人工智能(AI)如同一股强劲的浪潮,席卷了各个领域,医学领域也深受其影响。在法医学中,法医报告的撰写是一项极为重要却又耗时费力的工作。传统的法医报告撰写不仅需要法医投入大量的时间和精力,而且随着行政要求的不断增加,报告生成的时间也被进一步延长。在这样的背景下,人工智能,尤其是大语言模型(LLMs),为自动化临床文档记录带来了新的希望 。然而,之前利用 ChatGPT 和 LLAMA 等进行法医报告生成的研究发现,这些模型存在模型大小、处理时间以及信息准确性等方面的问题。那么,人工智能能否真正在法医报告撰写中发挥作用?它的准确性和可靠性又如何呢?这些疑问促使研究人员展开深入探索。
来自土耳其 Ordu 大学培训与研究医院法医医学系等机构的研究人员,针对这一问题展开了研究。他们旨在评估 ChatGPT-4 在撰写法医报告方面的能力,并与法医医学助理进行对比。研究结果表明,ChatGPT-4 在 “危及生命(LT)” 和 “简单医疗干预(SMI)” 等综合类别的评估中,回顾性阶段准确率达到 96.6%,前瞻性阶段为 96.2%。不过,法医医学助理在这些类别中的准确率更高,达到了 99.1% 。这一研究成果发表在《Egyptian Journal of Forensic Sciences》上,为人工智能在法医学领域的应用提供了重要参考,也表明技术与人类专业知识的结合有望为法医报告撰写建立新的标准。
在研究方法上,研究人员首先获得了相关伦理委员会的批准,遵循赫尔辛基宣言的原则开展研究。他们通过 “Askyourpdf”“AIPDF” 和 “LINKREADER” 等扩展插件,将土耳其刑法相关的法医医学指南教授给 ChatGPT-4,并提供 20 个法医报告案例对其进行训练。之后,在回顾性阶段,让 ChatGPT-4 撰写 100 个随机法医案例的结论部分;在前瞻性阶段,让其为 266 个新案例撰写结论,同时 11 名法医医学助理也对这些案例进行结论撰写。最后,由两名经验丰富的法医医学专家依据法医医学指南的特定标准,对 ChatGPT-4 和法医医学助理撰写的报告进行评估 。
下面来看具体的研究结果:
- 回顾性阶段评估:ChatGPT-4 在评估 “LT” 类别时,96.6% 的案例结果正确,但在涉及硬脑膜缺损、C3椎体轻度压缩性骨折和一氧化碳中毒的案例中出现错误。在 “SMI” 类别评估中,准确率达到 100%。评估 “是否造成身体骨折” 时,结论全部正确,但在 7 个案例(7.8%)的骨折评分中存在错误,主要集中在多处骨折和开放性骨折案例 。
- 前瞻性阶段评估:ChatGPT-4 在评估 “LT 条件” 类别时,准确率为 98.7%,但在药物中毒、蛛网膜下腔出血和额窦后壁骨折等案例中出现错误。“SMI” 类别评估的准确率为 97.5%。在 “是否造成身体骨折” 评估中,结论全部正确,但 16 个案例(6.6%)的骨折评分存在错误 。
研究结论和讨论部分指出,ChatGPT-4 在法医分类中具有较高的准确性,尤其是在不需要上下文推理的客观评估中表现出色,有助于实现法医文档的标准化。然而,它也存在局限性,在需要深入解释的案例中,其表现不如法医医学助理,凸显了人类专业知识在确保 AI 辅助法医评估可靠性方面的不可或缺性 。例如,在涉及药物水平关键判断、特定医学术语理解以及复杂案例综合评估时,ChatGPT-4 容易出现错误,而法医医学助理凭借丰富的临床经验和专业技能,能更准确地评估案例。
总的来说,这项研究意义重大。它首次在法医学文献中研究基于 AI 的聊天机器人在法医报告撰写中的应用,验证了 ChatGPT-4 在法医报告撰写方面的可行性和潜力,为人工智能与法医学的结合提供了新的思路和方向。同时也强调了在 AI 应用于法医学的过程中,必须有人的监督和干预,以确保评估的准确性和公正性,推动法医学在人工智能时代朝着更高效、更准确的方向发展。