在管理医学等关键领域中AI系统使用的主要法律框架中,可信度和透明度被广泛认为是基本要求[1]。然而,当前的框架(如欧洲法规)往往将合规性降低到仅仅满足程序性和报告义务[2],[3]。实际上,这通常意味着合规性仅限于制造商提供一套描述这些模型名义和通用能力的文档,而这些文档通常是在实验室条件下评估的。
临床医生不应仅依赖总体性能指标,尤其是在这些指标来自关于真实临床病例的代表性复杂或不确定的数据集时[4]。因此,实践者或部署者必须能够理解模型的建议在多大程度上是可靠的,即真正可信的。
一个初步建议是,开发者应系统地将置信度分数纳入模型输出中,即每个预测正确的概率估计。例如,在[5]中,作者发现向用户提供替代分类及其相关置信度分数通常会增加用户对自己决策的信心以及他们对AI系统有用性的感知。类似地,[6]中的研究表明,向用户提供置信度指标可以改善人机协作。该研究显示,当用户能够根据AI系统的置信度水平适当调整其对系统的信任时,决策结果得到了改善,同时对系统的过度依赖和依赖不足都得到了缓解。
然而,如果用户不了解模型的校准情况[7],[8](即其概率估计在多大程度上准确反映了实际正确预测的频率[9]),AI系统生成的特定于案例的分数本身也可能不可靠,甚至可能具有误导性。
这引出了另一个关键建议:制造商应至少提供一项校准措施,除了模型卡片和技术规范中已包含的指标(如精确度或阳性预测值PPV和阴性预测值NPV)之外。理想情况下,校准应在全局层面以及相关置信度分数范围内进行报告,即校准区间。
正如我们在这项工作中将展示的,了解每个预测的模型置信度分数及其校准水平对于评估系统的可信度以及确定对其具体建议的重视程度至关重要。然而,仍需要额外的措施。
在专业文献中,这一目标是估计单个概率预测与所谓的“真实正确可能性”的接近程度[10],这项任务通常被称为“每个实例的预测不确定性估计”[11],[12]。后者涉及量化对于给定输入的特定预测,模型置信度分数的可靠性,即预测标签(或回归输出)正确的概率。这与模型校准不同:后者旨在调整概率,以便在许多实例上平均而言,预测置信度与实证正确可能性相匹配;而每个实例的不确定性估计则旨在为每个预测提供定制的不确定性度量,这可能考虑到认知不确定性(由于数据或参数限制导致的模型不确定性)、随机不确定性(数据中的不可减少的噪声)或分布不确定性(输入超出训练分布的情况)。
二元分类器的性能通常以准确率来表示[13]:即正确建议占总建议的比例,或者等价地,1减去错误率。虽然准确率是一个熟悉且直观的指标,但它本质上是一个边际度量,因为所有其他用于评估AI模型(分类器)的指标(如敏感性、特异性及其平均值)也是如此:它们都反映了案例总体(以及决策阈值范围,如AUC分数的情况)的平均性能,但对单个预测的可靠性提供的洞察有限[14],[15]。
在与潜在医生用户的 requirement 收集访谈中,一个反复出现的问题是[16],[17]:他们感到惊讶且常常沮丧的是,系统没有提供他们认为对患者最有利的信息:某个特定建议正确的概率[18]。
已经提出了几种解决方案,但这些方案在医学等高风险领域是不充分的,因为在这些领域,每个决策都可能具有法律、经济和伦理上的重大后果。
第一种常见的方法是模型本身提供一个置信度分数,通常称为与其输出相关的预测概率。第二种方法是指出模型在验证数据集上的预测性能,特别是阳性预测的阳性预测值(PPV)和阴性预测的阴性预测值(NPV)。
然而,这些做法背后的假设是薄弱的,并且在复杂的现实世界环境中经常被违反。特别是关于预测值的回答基于一个有问题的假设[19]:即一个边际性能指标(即在样本上计算的指标)可以可靠地推广到每个单独的实例,甚至推广到来自同一总体(或类似分布的总体)的任何其他实例。另一方面,关于置信度的回答假设模型校准得当,即能够准确估计每个预测正确的概率。然而,这种情况很少见,尤其是对于许多最有效和广泛采用的现代模型[8],[10]。如果校准能够可靠地实现,那么像我们接下来将提出的那样需要额外的不确定性量化方法的需求将会大大减少。
在这项工作中,我们引入了一个度量框架,即使是非专家的决策者也能利用边际信息(如模型的平均预测性能(例如PPV和NPV)以及模型的具体输出和与校准相关的评估来评估单个分类的可靠性。这使得决策者能够在实例层面做出明智的判断,提供关于每个特定预测可靠性的可操作性见解。
尽管这正是临床医生和其他决策支持系统用户所需要的[18],[20],并且尽管越来越强调模型的透明度和可解释性,但我们的框架仍然存在一个显著的研究空白:目前还没有广泛采用的指标能够以可操作且实际有意义的方式提供逐例的可靠性估计[7],[21]。
在接下来的章节中,我们将介绍这个度量框架,描述其实现方式,并将其应用于三个广泛使用的临床基准数据集,以说明其可解释性和增强临床医生对基于ML或AI的分类系统提供的输出可靠性的理解的能力。在讨论中,我们还将讨论我们的提案(或类似提案)对透明度和合规性的更广泛影响。特别是,我们强调了鼓励提供者在外部测试集中发布完整测试数据(包括真实标签和模型预测的概率)的做法,以及传统的边际指标(如来自混淆矩阵的指标)。
这项工作解决了缺乏同时考虑局部模型校准和先验预测性能的每个实例可靠性估计的问题。为此,我们提出了一个基于校准的预测值(CIPV)框架,该框架将模型置信度和观察结果转换为两个互补的量:一个基于局部实证证据的频率主义方式的局部预测值(LPV),以及通过贝叶斯更新先验预测值获得的可信预测值(CPV)。我们在基于临床影像数据的三个案例研究中展示了该框架的行为和可解释性。我们的主要贡献是一个与模型无关且临床可解释的可靠性层,可以附加到任何概率分类器上,提供与阳性预测值和阴性预测值等熟悉度量对齐的每个实例的预测值和不确定性区间。
从方法论的角度来看,我们的框架补充了现有的局部校准诊断和每个实例不确定性估计方法。之前的校准工作主要集中在总体或区间级别的度量上(例如,可靠性图表、全局或局部ECI分数),这些度量并不直接产生临床医生可以解释为PPV或NPV变体的每个实例预测值及其不确定性区间。相反,许多每个实例的不确定性分数,如基于深度集成、贝叶斯近似或事后置信度校准的分数,往往是模型特定的,对最终用户的可解释性较差。相比之下,所提出的框架整合了(i)基于邻域的局部校准指数,(ii)全局先验(如PPV/NPV或疾病患病率),以及(iii)双重频率主义-贝叶斯量化(LPV和CPV及其不确定性区间)到一个可以与任何概率分类器结合的单一模型无关的可靠性层中。