基于校准信息的医学人工智能中实例级预测可靠性的评估指标

时间：2026年2月7日

来源：Artificial Intelligence in Medicine

编辑推荐：

临床决策支持系统中传统指标无法反映个体预测可靠性，本研究提出基于校准的框架，包含本地预测价值（LPV）和可信预测价值（CPV）两个新指标。LPV通过局部置信度区间评估预测正确率，CPV结合贝叶斯方法整合全局预测值生成后验分布。在三个临床影像数据集验证中，该框架能动态调整可靠性估计，揭示局部证据不足或误导情况，为医疗AI提供可解释且鲁棒的信任度评估工具。

Federico Cabitza

米兰-比科卡大学信息学、系统与通信系，意大利米兰Sarca大道336号，20126

摘要

传统的临床决策支持系统性能指标，如准确率或敏感性，无法反映单个预测的可靠性——这对于在高风险环境中工作的临床医生来说是一个至关重要的问题。我们引入了一个基于校准的框架，其中包含两个新的指标：局部预测值（LPV）和可信预测值（CPV）。LPV通过评估其置信度分数附近的正确预测频率来估计预测的实证可靠性。CPV则采用贝叶斯方法对这一估计进行细化，将全局预测值作为先验，生成正确概率的后验分布。LPV提供了对局部可靠性的描述性、数据驱动的视角，而CPV则提供了一种经过信念调整的估计，有助于减少对稀疏局部数据的过拟合。将这些指标应用于医学影像基准数据集后，得到了具有局部适应性和可解释性的可靠性估计。LPV和CPV之间的差异揭示了局部证据不足或具有误导性的情况，强调了贝叶斯平滑处理在应对这些问题时的有效性。通过结合局部校准和贝叶斯推断，LPV和CPV推动了医学AI系统的发展，使这些系统不仅准确，而且在单个病例层面也具有可解释性和可信性。

引言

在管理医学等关键领域中AI系统使用的主要法律框架中，可信度和透明度被广泛认为是基本要求[1]。然而，当前的框架（如欧洲法规）往往将合规性降低到仅仅满足程序性和报告义务[2],[3]。实际上，这通常意味着合规性仅限于制造商提供一套描述这些模型名义和通用能力的文档，而这些文档通常是在实验室条件下评估的。

临床医生不应仅依赖总体性能指标，尤其是在这些指标来自关于真实临床病例的代表性复杂或不确定的数据集时[4]。因此，实践者或部署者必须能够理解模型的建议在多大程度上是可靠的，即真正可信的。

一个初步建议是，开发者应系统地将置信度分数纳入模型输出中，即每个预测正确的概率估计。例如，在[5]中，作者发现向用户提供替代分类及其相关置信度分数通常会增加用户对自己决策的信心以及他们对AI系统有用性的感知。类似地，[6]中的研究表明，向用户提供置信度指标可以改善人机协作。该研究显示，当用户能够根据AI系统的置信度水平适当调整其对系统的信任时，决策结果得到了改善，同时对系统的过度依赖和依赖不足都得到了缓解。

然而，如果用户不了解模型的校准情况[7],[8]（即其概率估计在多大程度上准确反映了实际正确预测的频率[9]），AI系统生成的特定于案例的分数本身也可能不可靠，甚至可能具有误导性。

这引出了另一个关键建议：制造商应至少提供一项校准措施，除了模型卡片和技术规范中已包含的指标（如精确度或阳性预测值PPV和阴性预测值NPV）之外。理想情况下，校准应在全局层面以及相关置信度分数范围内进行报告，即校准区间。

正如我们在这项工作中将展示的，了解每个预测的模型置信度分数及其校准水平对于评估系统的可信度以及确定对其具体建议的重视程度至关重要。然而，仍需要额外的措施。

在专业文献中，这一目标是估计单个概率预测与所谓的“真实正确可能性”的接近程度[10]，这项任务通常被称为“每个实例的预测不确定性估计”[11],[12]。后者涉及量化对于给定输入

x

的特定预测，模型置信度分数的可靠性，即预测标签（或回归输出）正确的概率。这与模型校准不同：后者旨在调整概率，以便在许多实例上平均而言，预测置信度与实证正确可能性相匹配；而每个实例的不确定性估计则旨在为每个预测提供定制的不确定性度量，这可能考虑到认知不确定性（由于数据或参数限制导致的模型不确定性）、随机不确定性（数据中的不可减少的噪声）或分布不确定性（输入超出训练分布的情况）。

二元分类器的性能通常以准确率来表示[13]：即正确建议占总建议的比例，或者等价地，1减去错误率。虽然准确率是一个熟悉且直观的指标，但它本质上是一个边际度量，因为所有其他用于评估AI模型（分类器）的指标（如敏感性、特异性及其平均值）也是如此：它们都反映了案例总体（以及决策阈值范围，如AUC分数的情况）的平均性能，但对单个预测的可靠性提供的洞察有限[14],[15]。

在与潜在医生用户的 requirement 收集访谈中，一个反复出现的问题是[16],[17]：他们感到惊讶且常常沮丧的是，系统没有提供他们认为对患者最有利的信息：某个特定建议正确的概率[18]。

已经提出了几种解决方案，但这些方案在医学等高风险领域是不充分的，因为在这些领域，每个决策都可能具有法律、经济和伦理上的重大后果。

第一种常见的方法是模型本身提供一个置信度分数，通常称为与其输出相关的预测概率。第二种方法是指出模型在验证数据集上的预测性能，特别是阳性预测的阳性预测值（PPV）和阴性预测的阴性预测值（NPV）。

然而，这些做法背后的假设是薄弱的，并且在复杂的现实世界环境中经常被违反。特别是关于预测值的回答基于一个有问题的假设[19]：即一个边际性能指标（即在样本上计算的指标）可以可靠地推广到每个单独的实例，甚至推广到来自同一总体（或类似分布的总体）的任何其他实例。另一方面，关于置信度的回答假设模型校准得当，即能够准确估计每个预测正确的概率。然而，这种情况很少见，尤其是对于许多最有效和广泛采用的现代模型[8],[10]。如果校准能够可靠地实现，那么像我们接下来将提出的那样需要额外的不确定性量化方法的需求将会大大减少。

在这项工作中，我们引入了一个度量框架，即使是非专家的决策者也能利用边际信息（如模型的平均预测性能（例如PPV和NPV）以及模型的具体输出和与校准相关的评估来评估单个分类的可靠性。这使得决策者能够在实例层面做出明智的判断，提供关于每个特定预测可靠性的可操作性见解。

尽管这正是临床医生和其他决策支持系统用户所需要的[18],[20]，并且尽管越来越强调模型的透明度和可解释性，但我们的框架仍然存在一个显著的研究空白：目前还没有广泛采用的指标能够以可操作且实际有意义的方式提供逐例的可靠性估计[7],[21]。

在接下来的章节中，我们将介绍这个度量框架，描述其实现方式，并将其应用于三个广泛使用的临床基准数据集，以说明其可解释性和增强临床医生对基于ML或AI的分类系统提供的输出可靠性的理解的能力。在讨论中，我们还将讨论我们的提案（或类似提案）对透明度和合规性的更广泛影响。特别是，我们强调了鼓励提供者在外部测试集中发布完整测试数据（包括真实标签和模型预测的概率）的做法，以及传统的边际指标（如来自混淆矩阵的指标）。

这项工作解决了缺乏同时考虑局部模型校准和先验预测性能的每个实例可靠性估计的问题。为此，我们提出了一个基于校准的预测值（CIPV）框架，该框架将模型置信度和观察结果转换为两个互补的量：一个基于局部实证证据的频率主义方式的局部预测值（LPV），以及通过贝叶斯更新先验预测值获得的可信预测值（CPV）。我们在基于临床影像数据的三个案例研究中展示了该框架的行为和可解释性。我们的主要贡献是一个与模型无关且临床可解释的可靠性层，可以附加到任何概率分类器上，提供与阳性预测值和阴性预测值等熟悉度量对齐的每个实例的预测值和不确定性区间。

从方法论的角度来看，我们的框架补充了现有的局部校准诊断和每个实例不确定性估计方法。之前的校准工作主要集中在总体或区间级别的度量上（例如，可靠性图表、全局或局部ECI分数），这些度量并不直接产生临床医生可以解释为PPV或NPV变体的每个实例预测值及其不确定性区间。相反，许多每个实例的不确定性分数，如基于深度集成、贝叶斯近似或事后置信度校准的分数，往往是模型特定的，对最终用户的可解释性较差。相比之下，所提出的框架整合了（i）基于邻域的局部校准指数，（ii）全局先验（如PPV/NPV或疾病患病率），以及（iii）双重频率主义-贝叶斯量化（LPV和CPV及其不确定性区间）到一个可以与任何概率分类器结合的单一模型无关的可靠性层中。

部分摘录

基于校准的可靠性框架

我们的框架整合了三个互补的信息来源：（i）模型对预测类别的置信度分数，（ii）该分数所在邻域（区间）的实证校准程度——使用SOTA校准指标局部估计校准指数（local ECI [9]）进行量化，以及（iii）模型的边际阳性预测值（PPV）和阴性预测值（NPV）作为全局先验。由此产生的正确概率是局部的

非专家的解释

我们基于校准的框架中定义的指标是统计构造，但它们的解释可以用临床医生和其他非专家能够理解的语言来表达。它们解决了一个直接而关键的问题：“对于这个个别案例，模型的预测正确的概率有多大？” 与仅反映模型整体准确性的传统预测值不同，LPV和CPV结合了两种互补的证据来源（见图1）

临床数据集上的案例研究

为了说明目的，我们将基于校准的框架应用于在三个流行的临床基准数据集开发的模型：PathMNIST、DermaMNIST和PneumoniaMNIST。目的是展示实际数据集中产生的值范围以及在不同实证支持和局部校准条件下的解释方式。对于每个模型和数据集，我们选择了代表性的测试案例，并分析了LPV和CPV估计的结果，重点关注四个关键方面

实现度量框架的交互式工具

为了促进所提出的度量框架在基于ML的、由AI驱动的决策支持系统中的实际应用，我们开发了一个小型交互式应用程序，该应用程序计算第2节中定义的所有量：该应用程序可在以下地址免费获取：https://www.entechne.com/CIPR/¹

讨论与局限性

在本节中，我们讨论了所提出的基于校准的框架在医学AI中用于实例级别可靠性估计的影响和局限性。我们首先总结了案例研究的主要发现，然后将我们的方法与现有的校准和不确定性量化工作进行了比较，最后概述了其局限性和未来研究的可能方向。

我们的度量框架通过提供一个局部适应性的框架，解决了医学AI系统中的一个关键问题

结论

这项工作通过引入一个基于校准的框架，解决了当前机器学习评估实践中的一个关键局限性，该框架弥合了预测模型评估的方法论差距。使用三个公开可用的临床影像基准数据集作为示例案例研究，我们展示了所提出的指标可以应用于真实的诊断分类器，并产生特定于案例的可靠性估计。我们提出了两个新的指标——局部预测值（LPV）和