利用计算机化的自适应测试来对大型语言模型进行经济高效的评估，以应用于医学领域的基准测试

时间：2026年5月20日

来源：npj Digital Medicine

编辑推荐：

摘要大型语言模型（LLMs）在医疗领域的应用日益广泛，但其评估主要依赖于静态基准测试。这些静态测试成本高昂、容易受到干扰，并且缺乏用于精细性能跟踪的校准测量指标。我们开发并验证了一种基于项目反应理论（Item Response Theory）的计算机化自适应测试（CAT）框架，以

摘要

大型语言模型（LLMs）在医疗领域的应用日益广泛，但其评估主要依赖于静态基准测试。这些静态测试成本高昂、容易受到干扰，并且缺乏用于精细性能跟踪的校准测量指标。我们开发并验证了一种基于项目反应理论（Item Response Theory）的计算机化自适应测试（CAT）框架，以实现可扩展的、符合心理测量学要求的LLM标准化医学知识评估。2025年7月至9月期间，我们开展了一项包含蒙特卡洛模拟和38个LLM实际评估的两阶段研究。该CAT协议仅使用了1.3%的测试题目，就与完整测试结果实现了近乎完美的相关性（相关系数 r = 0.988）。评估时间从每个模型6.85小时缩短至8.4分钟，模型使用的令牌数量也从177万个减少到30万个。模型排名得到了完全保留（Spearman相关系数 ρ = 1.0）。按照当前的API定价标准，每个模型的评估成本从大约1,475美元降至5美元以下。这种自适应方法作为一种重要的预筛选和持续监控工具，在标准化测试协议中发挥着关键作用。需要注意的是，它不能替代实际的临床验证或以安全性为导向的前瞻性研究；相反，它使开发者和医疗机构能够在资源密集型的后续测试之前，对基础医学知识进行严格、高频的、基于证据的评估。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部