编辑推荐:
摘要大型语言模型(LLMs)在医疗领域的应用日益广泛,但其评估主要依赖于静态基准测试。这些静态测试成本高昂、容易受到干扰,并且缺乏用于精细性能跟踪的校准测量指标。我们开发并验证了一种基于项目反应理论(Item Response Theory)的计算机化自适应测试(CAT)框架,以
大型语言模型(LLMs)在医疗领域的应用日益广泛,但其评估主要依赖于静态基准测试。这些静态测试成本高昂、容易受到干扰,并且缺乏用于精细性能跟踪的校准测量指标。我们开发并验证了一种基于项目反应理论(Item Response Theory)的计算机化自适应测试(CAT)框架,以实现可扩展的、符合心理测量学要求的LLM标准化医学知识评估。2025年7月至9月期间,我们开展了一项包含蒙特卡洛模拟和38个LLM实际评估的两阶段研究。该CAT协议仅使用了1.3%的测试题目,就与完整测试结果实现了近乎完美的相关性(相关系数 r = 0.988)。评估时间从每个模型6.85小时缩短至8.4分钟,模型使用的令牌数量也从177万个减少到30万个。模型排名得到了完全保留(Spearman相关系数 ρ = 1.0)。按照当前的API定价标准,每个模型的评估成本从大约1,475美元降至5美元以下。这种自适应方法作为一种重要的预筛选和持续监控工具,在标准化测试协议中发挥着关键作用。需要注意的是,它不能替代实际的临床验证或以安全性为导向的前瞻性研究;相反,它使开发者和医疗机构能够在资源密集型的后续测试之前,对基础医学知识进行严格、高频的、基于证据的评估。
生物通 版权所有