意见分歧:评级数据中不确定性可视化对决策的影响

时间:2026年5月16日
来源:Applied Cognitive Psychology

编辑推荐:

**摘要** 当人们根据数据做出决策时,他们往往忽视数据中的变异性,而过分强调数据的中心趋势。然而,不同的可视化方式在表现变异性的方法上有所不同,在某些任务和领域中,研究也观察到人们对变异性是敏感的,例如在客户评分的情况下。在本研究中,参与者被随机分配到不同的评分数据可视化方式

广告
   X   

**摘要**

当人们根据数据做出决策时,他们往往忽视数据中的变异性,而过分强调数据的中心趋势。然而,不同的可视化方式在表现变异性的方法上有所不同,在某些任务和领域中,研究也观察到人们对变异性是敏感的,例如在客户评分的情况下。在本研究中,参与者被随机分配到不同的评分数据可视化方式中,我们考察了评分数据中的变异性如何影响他们在两个选项之间的决策。结果显示,当评分数据以图形方式呈现时,参与者对变异性较为敏感;而当数据以数字方式呈现时,则不那么敏感。直方图条件产生了最显著的效果,当变异性较低时,参与者的偏好明显更强。这些效应并未受到参与者统计培训、决策领域或领域专业知识的调节。我们探讨了这些发现对人们在决策任务中感知不确定性的影响。我们生活在一个高度不确定的世界中;很多时候我们需要相互传达这种不确定性,并在考虑不确定性的情况下做出重要决策。关于是否在飓风来临前撤离、是否进行癌症诊断筛查,或是是否购买评价参差不齐的产品,这些决策都依赖于个人感知和解释可能结果的不确定性的能力。然而,研究发现,即使向人们提供了关于变异性的信息,他们的决策往往仍然没有考虑到这一点。因此,了解不同呈现格式(特别是数据可视化)如何影响人们对不确定性的敏感度,在理论和实践上都非常重要。尽管“变异性”和“不确定性”这两个术语经常被互换使用,但它们实际上指的是不同的但相关的概念。变异性指的是观察数据的统计特性:即个别观测值的分布或离散程度(通常通过标准差或方差来量化)。相比之下,不确定性指的是这种变异性对决策者的影响:即无法准确预测未来结果。这些概念是相关的。观察到的过去数据中的高变异性通常会增加对未来结果的不确定性。然而,变异性和不确定性并不相同,正如下面所讨论的,人们在将变异信息转化为不确定性判断的过程中可能会出错。未能纳入变异信息的原因可能有两个。首先,有时人们根本不理解变异性(Broad等人,2007年;Joslyn和Savelli,2021年)。其次,即使人们正确理解了变异性和不确定性,他们在决策过程中也可能忽视或降低其重要性(Weber,1994年;Kahneman和Tversky,1973年)。Boysen(2017年)在一个与本研究密切相关的情境中展示了这种模式:向大学教师展示了包含数字95%置信区间的学生评价摘要。尽管区间之间存在大量重叠,并且明确标注了差异“没有显著不同”,但教师们仍然过度解读了微小的平均差异,从而得出教师需要改进的结论,实际上忽略了置信区间的信息。关键的是,这种对不确定性的忽视与教师的统计培训无关。鉴于数字形式的变异性信息经常被忽视,研究人员探讨了图形可视化是否能够改善在不确定性下的决策(Lipkus和Hollands,1999年;Spiegelhalter,2017年)。不幸的是,图形似乎并不能提供一个明确的解决方案。许多研究发现,当可视化同时展示一个点估计值和一个不确定性区间(例如围绕平均值的误差条)时,人们往往会过分关注点估计值而忽略误差条(Franconeri等人,2021年;Kale等人,2021年)。研究表明,在各种任务中,误差条在促使人们考虑不确定性方面效果不佳(Belia等人,2005年;Deitrick和Edsall,2006年;Hullman等人,2015年)。同时,其他可视化格式则显示出更大的潜力。展示结果分布的可视化方式(如直方图、分位数点图或集成显示)可以帮助人们更好地将分布信息纳入他们的判断中(Correll和Gleicher,2014年;Fernandes等人,2018年;Holder和Xiong,2022年;Kay等人,2016年)。例如,在传达飓风预报时,展示多条可能路径线的集成图(而不是单一的不确定性锥体)可以改善人们对可能风暴路径的位置和强度的判断(Padilla等人,2017年)。这些发现通常被视为一种基本认知偏见的证据——即当不确定性通过离散频率而非抽象概率来传达时,人们能更有效地进行推理(Cosmides和Tooby,1996年;Gigerenzer和Hoffrage,1995年)。然而,不确定性可视化的有效性也取决于具体任务,研究还应考虑人们使用可视化的方式的决策背景(Franconeri等人,2021年)。一个越来越常见的涉及不确定性的决策场景是人们使用在线评分数据来做选择。现在,网站普遍邀请用户分享他们对餐厅、在线产品甚至大学教师的评价,无论是定量的(例如星级评分)还是定性的(例如书面评论),并且进一步寻求鼓励更多用户提交评论的方法(Yang和Kruschke,2024年)。这些在线评分已被证明会影响消费者的购买行为(例如Chevalier和Mayzlin,2006年;Liu,2006年),以及学生的入学决策(Brown和Kosovich,2014年)。如果评分中的变异性很高,这会引发对选项质量的不确定性。评分数据为决策者带来了一个特定的认知挑战,这一点值得与上述不确定性场景区分开来。当一个餐厅的评分从1星到5星变化较大(标准差较大)时,过去观测结果的这种变异性会带来预测上的不确定性:“我有多大的信心认为我的体验会与过去评分的平均值相符?”决策者必须将历史分布信息转化为未来的预测。这与经典的基于基础率忽略或置信区间解释的研究不同,在那些研究中,不确定性信息本身已经被框架化为概率形式。它也不同于推断性不确定性可视化(例如,展示关于总体平均值的不确定性;Hofman等人,2020年;Padilla等人,2022年),后者关注的是统计估计的精确度而非结果的变异性。在这些先前情境中观察到的敏感性和忽视模式是否适用于基于评分数据的前瞻性决策,仍是一个开放的实证问题。一些关于评分数据的研究关注了描述与体验之间的差距(Hertwig和Erev,2009年),发现人们在书面评论中的个人观点可能会产生偏见(体验),但当他们看到直方图中定量评分的描述性摘要时,他们的决策更能反映评分的整体分布(Wulff等人,2015年)。其他研究表明,即使以数字形式呈现,人们也可能对评分的变异性敏感:West和Broniarczyk(1998年)发现,当评论家的评分变化较大时,人们对电影的兴趣更高;一些现实世界市场表现出对评分方差较大的产品的偏好(Sun,2012年;He和Bond,2015年),尽管其他市场则表现出相反的模式(Ye等人,2009年),并且这些关系可能存在个体差异(Liu等人,2023年)。为了澄清这些混合结果,我们进行了一项预先注册的实验研究,考察不同呈现格式如何影响人们对评分数据中变异性的敏感度。参与者在查看模拟评分的摘要时需要在两个选项(餐厅、教师或消费品)之间做出选择,这些评分的摘要在平均值和变异性上系统地有所不同。关键的是,我们使用不同的格式来呈现这些摘要:显示平均值(带或不带标准差和样本量)的数字表格、显示离散评分完整分布的直方图、显示带有不确定性区间的平均估计值的图表,以及显示选项之间估计差异及不确定性范围的小提琴图。在整个研究过程中,参与者被随机分配到一种呈现格式。在预先注册阶段,我们假设被分配到直方图和平均图可视化格式的参与者会比不显示变异性的对照组表现出更高的敏感性。这一预测基于先前的证据,即直方图和集成显示通过将分布信息作为离散频率而非抽象概率或数字摘要来传达,往往能促进更有效的不确定性推理(Cosmides和Tooby,1996年;Gigerenzer和Hoffrage,1995年;Correll和Gleicher,2014年)。我们的研究采取了一种实用的方法来比较这些可视化类型。现实世界的可视化在核心编码(例如条形图与区间)以及许多视觉特征上必然存在差异:用于不同数据属性的“墨水量”、轴的比例决策、数字标签的明确性以及整体信息密度。我们的研究没有试图控制或消除这些差异,而是对可视化格式在实际应用中的表现进行了粗略比较。这样做牺牲了一些内部有效性,以换取外部有效性,并解决了关于不确定性可视化如何影响选择的更实际的应用问题。通过这种方式,当前研究回应了跨越经典决策范式、信息可视化和应用背景的研究需求(Hullman等人,2019年)。

**1 方法**

**1.1 透明度和开放性**

当前研究的方法和分析计划在数据收集之前就已经注册,下面清晰地标明了额外的探索性(非预先注册)分析。研究注册以及所有研究材料、数据和分析脚本都是公开可用的(https://osf.io/f9cav/)。

**1.2 参与者**

我们在美国通过Prolific招募了598名成年人,他们完成研究后获得了4美元的报酬;然而,只有590名参与者完成了研究。根据我们的预先注册要求,如果参与者完成实验所需时间超过60分钟(n=9),或者他们选择更优选项(平均评分更高的选项)的频率低于83.3%(n=61),则被排除在外。排除这些参与者后,最终样本中有520名参与者;有关排除后各条件下的参与者数量以及排除是否导致当前结果的详细分析,请参见支持信息S1。参与者的平均年龄为42.8岁(标准差=13.1岁);210名为女性(40.4%),307名为男性(59.0%),3名为非二元性别(0.6%);404名为白人(77.7%),57名为黑人(11.0%),35名为亚洲人(6.7%),24名为其他种族(4.6%);另有41名参与者报告有西班牙裔或拉丁裔血统(7.9%)。少数参与者(188名;36.2%)从未学习过统计学课程;127名(24.4%)在高中学习过统计学,190名(36.5%)在大学学习过,15名在高级学位项目中学习过(2.9%)。尽管如此,大多数参与者(60.4%)表示对统计学感到不自在(116名;22.3%)或非常不自在(198名;38.1%)。

**1.3 材料**

在每次试验中,参与者会看到两个选项(A和B)的模拟评分数据的可视化摘要,仿佛每个选项都是由其他人根据5点等级量表进行评分的(评分越高表示质量越好)。选项(A和B)可以是餐厅、教师或在线产品。有序评分数据是使用有序probit模型生成的,该模型假设5点量表上的评分来自一个潜在的正态分布。我们系统地改变了潜在正态分布的平均值和标准差,以及样本量,以创建具有以下特征的有序评分数据集:(1)A和B之间的平均差异小或大;(2)评分的标准差小或大;(3)评分的数量少或多。当两个选项之间的平均差异较大时,较好选项的潜在平均评分为4.35,较差选项的潜在平均评分为3.55。当两个选项之间的平均差异较小时,较好选项的潜在平均评分为4.05,较差选项的潜在平均评分为3.85。我们随机决定了A或B哪个选项的评分更高,偶尔也会让两个选项的平均评分相同,均为3.95。在所有情况下,两个选项的潜在正态分布具有相同的标准差:要么是1.5(大),要么是0.75(小)。同样,在所有情况下,两个选项的模拟评分数量也相同:要么是250个(大),要么是25个(小)。我们为每种领域组合(餐厅/教师/产品)、选项之间的平均差异(大/小)、评分的标准差(大/小)和评分的数量(大/小)生成了模拟评分数据。所有参与者都看到了相同的模拟评分数据摘要,但这些数据根据参与者被分配的条件以不同的格式呈现。模拟评分数据以六种不同的可视化格式呈现(见图1);三种可视化方式用数字在表格中总结了评分(平均值、平均值+标准差、平均值+标准差+样本量),另外三种可视化方式用图形展示了评分(直方图、平均值图、平均值差异图)。仅显示平均值的表格格式(图1中的A面板)是一个对照条件,因为它是唯一不显示评分变异性的显示类型;即便如此,在模拟这个对照条件的评分数据时,仍然使用了相同的评分数据(具有不同的标准差和样本量)。图1中可视化的评分数据显示出平均值的较大差异、较大的评分标准差以及较小的样本量。参与者被随机分配到仅一种可视化格式,并在整个研究过程中保持相同的格式。

图1:模拟评分数据的可视化展示。参与者在选项A和B之间做出偏好选择,这里以餐厅为例;参与者也在讲师和在线产品之间做出类似的决策。可视化展示附带了说明:对于餐厅,说明是“你正在一个新城市旅行并且饿了。使用手机,你查看了下面列出的信息。餐厅A和B提供相同类型的食物,价格也相似。以下数据旨在帮助你在两家餐厅之间做出选择。”较大的数字表示更高的评分。可视化A、B和C以表格形式展示了汇总统计信息。D包含了模拟评分的直方图,E包含了每家餐厅的评分均值及其不确定性范围的图表,F则是两家餐厅评分均值差异及其不确定性范围的图表。可视化A是一个对照条件,没有显示任何变异性。参与者在整个实验过程中被随机分配到单一的可视化格式。我们的可视化条件在某些方面有所不同,这反映了这些格式在实践中的典型应用方式。例如,直方图显示必然会使用条形图来展示离散结果的完整分布,条形图的高度编码了频率,因此需要不同的轴标签,从而比表格显示具有更高的信息密度。带有误差线的均值图显示了带有区间的点估计值,由于序数评分来自潜在的正态分布,误差线的区间范围可能会超过最高评分值。差异图显示的是选项之间的差异,而不是原始评分。这些差异不是需要消除的混淆因素,而是这些可视化类型传达信息的固有特征。因此,我们的研究提供了对可视化格式的全面比较,反映了在传达变异性方面的策略性差异,使我们能够就哪些格式最有效地向决策者传达不确定性提出实际建议。该研究使用jsPsych 7.3(de Leeuw等人,2023年)进行脚本编写。

1.4 实验程序

参与者在台式机或笔记本电脑的网络浏览器上在线完成实验。访问研究后,每位参与者被随机分配到一个可视化格式。他们被告知需要在不同的选项之间做出决策,并且他们的决策将基于其他人之前对这两个选项的评分。每次试验都提供两个选项(A或B)之间的选择,并要求参与者对三个不同的问题在水平滑块上做出响应。第一个问题是:“根据这些信息,你会选择哪个选项?”第二个问题是:“你对之前的回答有多自信?”第三个问题是:“评分的均值在多大程度上代表了选项的实际质量?”这个问题试图衡量参与者对数据统计不确定性的主观印象,与他们对回答的信心分开。在每次试验中,参与者可以将鼠标悬停在工具提示图标上以查看关于如何回答每个问题的详细说明。每个滑块的初始位置都在中间点,参与者需要点击每个滑块才能进入下一个试验。左侧选项(A)或右侧选项(B)的均值评分较高是随机的。试验在评分的均值差异(2个水平,大/小)、评分的标准差(2个水平,大/小)以及评分的数量(2个水平,大/小)方面有所不同。因此,共有8种不同的变量组合(2×2×2),所有这8种可能的试验都以块的形式呈现,此外还有两个选项的均值评分没有差异的额外试验(标准差和评分数量都是随机选择的;这些试验被排除在所有分析之外),每个块包含10次试验。每个块内的10次试验都来自同一个领域,参与者根据不同的选择领域(餐厅、讲师或产品)进行任务。

每个块之后,参与者回答了关于他们过去做决策的经验、查看评分以及在相应领域提供自己评分的问题。所有块结束后,参与者回答了一个关于他们的统计培训和个人人口统计信息的简短问卷。参与者在两个调查问题中自我报告了他们的统计培训情况。首先,参与者回答了“你接受了多少正式的统计培训?”这个问题,通过指出他们所修过的最高级别的统计课程(例如,没有、高中、大学、研究生水平)。其次,参与者在从“没有信心”到“完全有信心”的6点序数尺度上标记了他们的回答。研究的中位完成时间为25分钟。

1.5 数据分析

对于参与者对主要问题“根据这些信息,你会选择哪个选项?”的回答,我们将参与者的滑块响应重新缩放到[-50, 50]的范围内,其中正值表示偏好平均评分较高的选项,负值表示偏好评分较低的选项。当前研究的分析目标是衡量随着我们在选择任务中改变模拟评分的标准差时,参与者的滑块响应(他们的偏好和信心)如何变化,并比较不同的显示类型。为了实现这些目标,我们为每位参与者计算了一个差异分数:当评分数据的标准差较小时的平均滑块响应减去当评分数据的标准差较大时的平均滑块响应(排除了两个选项均值相同的试验)。我们将这种差异称为参与者对变异性的敏感度。如果评分数据变异性的变化导致参与者改变他们的滑块响应,我们预期这些值将是正的:在不确定性较低(标准差较小)时,偏好更强,信心也更高。然后我们使用标准的贝叶斯t检验版本(Kruschke 2013)分析这些参与者级别的敏感度值,从而能够在看到不同显示类型的参与者之间进行统计比较。如果条件之间的差异的后验具有95%的最高密度区间,该区间排除了围绕零的±0.5的实际等价区域(ROPE),这相当于当前研究中测量敏感度值的±十分之一标准差(Kruschke 2018),并且其宽度也等于我们测量工具的默认分辨率(jsPsych滑块插件的默认步长为100点滑块尺度的1%),则我们认为这种差异是可信的。对于预先注册的分析,分析模型中的参数使用JAGS(Plummer 2003)进行估计,通过R的runjags接口(Denwood 2016)以及Kruschke(2014)提供的辅助函数。对于使用JAGS进行的预先注册估计,所有感兴趣参数的有效样本量都大于20,000,且潜在的尺度缩减因子对于所有参数都小于1.01。对于一些探索性分析(如下所述),参数使用R的brms包(Bürkner 2017)在混合效应线性模型中进行估计,使用默认设置和先验。通过在线仓库中公开提供的脚本和材料,以及支持信息S1中提供的完整统计估计,当前研究符合当前的贝叶斯分析报告指南(Kruschke 2021)。我们不会根据评分数量来比较试验,无论是预先注册的分析还是探索性分析。尽管我们在底层评分数据中系统地改变了评分数量,无论是250(大样本量)还是25(小样本量),但这不是当前研究的目标;此外,还有一个技术问题混淆了这种比较。由于生成模拟数据时的舍入问题,当评分数量较少(N=25)时,两个选项之间的均值差异倾向于更大。当前的分析仅关注评分的变异性(标准差)的差异,这些差异不受舍入问题的影响,并且在评分数量的不同水平上保持平衡。

2 结果

对于主要问题“根据这些信息,你会选择哪个选项?”,排除了两个选项之间评分没有差异的试验,所有试验和参与者的平均偏好为26.0(标准差=8.1),在[-50到50]的范围内(其中0表示没有偏好)。这表明略微偏好平均评分较高的选项(滑块值25标记为“略微偏好”),考虑到我们排除了至少83.3%的时间内没有选择更优选项的参与者,这并不令人惊讶。对于问题“你对之前的回答有多自信?”,同样排除了两个选项之间评分没有差异的试验,平均信心响应为63.7(标准差=11.5),在0到100的范围内,接近标记为“非常自信”的锚点67。

2.1 评分均值差异的影响

两个选项的评分均值之间的差异大小对参与者的偏好有显著影响。当评分均值之间的差异较大时,参与者的平均偏好为32.0(标准差=9.5);当评分均值之间的差异较小时,参与者的平均偏好为20.1(标准差=8.9);我们估计偏好强度的差异为11.9(95% HDI:10.9到13.0),在100点滑块尺度上。评分均值之间的差异大小也对参与者的信心有显著影响。当两个选项的评分差异较大时,参与者的平均信心为68.0(标准差=12.5);当评分差异较小时,参与者的平均信心为59.4(标准差=12.3);我们估计信心响应的差异为8.6(95% HDI:7.1到10.1),在100点滑块尺度上。

2.2 评分变异性的影响

虽然两个选项之间的均值差异有总体上的显著影响,但参与者通常对呈现数据的变异性(标准差)的变化不太敏感。在整个结果中,我们使用“敏感性”一词来描述参与者的偏好和信心随着评分数据中的标准差的变化而变化的程度。正的敏感性值表明,当变异性较低(标准差较小)时,参与者表现出更强的偏好和/或更高的信心,这代表了将分布信息适当地纳入他们的判断中。仅考虑那些选项之间存在均值差异并且显示了变异性的试验,当评分的变异性较大时,参与者对更优选项的平均偏好为24.8(标准差=8.8);当评分的变异性较小时,平均偏好为26.9(标准差=8.7);在100点尺度上,整体估计的敏感性仅为2.1(95% HDI:0.9到3.2)。不同可视化类型下参与者对标准差变化的敏感性在图2的顶部面板中显示。与对照条件(标准差从未显示;图2中最左边的列,标记为A)相比,三种图形可视化(直方图、均值图和差异图)都随着标准差的减小而显示出可信的偏好增加。其中,直方图条件的效果最大。当评分以直方图的形式显示时,参与者对变化的敏感性比对照条件更强(敏感性差异:4.4;95% HDI:2.7到6.0),也比其他两种图形条件更强(敏感性差异:2.8;95% HDI:1.2到4.4)。在数值条件下的参与者(图2中的B和C;这些条件以表格形式显示了标准差SD的值)表现出随着SD值减小而偏好增强的趋势,但这些趋势与无效应情况没有显著差异,也与未显示SD值的对照条件没有显著差异。图2在图形查看器中打开。

对SD的敏感性。顶部面板显示了对更优选项偏好的变化,底部面板显示了随着SD减小参与者信心的变化。正值表示SD的减小导致偏好/信心的增加。图表显示了每种显示条件下反应平均变化的后验估计值。后验分布内的实线垂直条表示95%的最高密度区间。灰色区域表示零点周围的±0.5实际等效区(ROPE)。水平轴标签(A–F)对应于图1中的面板。最左边的列(“A:表格”)是未显示SD的对照条件。在探索性对比中,我们发现,在三种图形可视化条件(直方图、均值图和差异图)下的参与者对变异性的敏感性明显高于在两种以表格形式显示变异性的条件下的参与者(条件间的敏感性差异:1.7;95% HDI:0.6至2.6)。所有条件间的成对对比都提供在支持信息S1中。参与者的信心反应也对评分标准差的变化表现出较低的敏感性。当SD较大时,参与者的平均信心为61.9(SD=13.1);当SD较小时,参与者的平均信心为64.6(SD=11.7),在100分制上的总体估计敏感性为2.7(95% HDI:1.0至4.4)。不同可视化类型的敏感性显示在图2的底部面板中。与对照条件相比,均值图(2.4;95% HDI:1.1至3.8)和差异图(1.9;95% HDI:0.5至3.2)的信心反应对SD评分变化的敏感性明显更高。直方图条件下的参与者也显示出随着SD减小信心增加的证据,因为估计的敏感性明显高于零点周围的±0.5 ROPE(估计值:2.1;95% HDI:0.9至3.2);然而,直方图与对照条件之间的差异估计值与ROPE有重叠(1.7;95% HDI:0.3至2.9)。在数值条件下的参与者(图2中的B和C;这些条件以表格形式显示SD的值)中,SD变化与无效应情况以及与对照条件相比,没有显示出显著的差异。

2.3 领域对变异性的敏感性影响

使用预先注册的分析模型进行的探索性对比发现,在三个领域(教师评分、餐厅评分和在线产品评分)中,参与者对SD的敏感性没有显著差异,无论是偏好强度还是信心方面。此外,领域与显示条件之间也没有对参与者对SD敏感性产生显著交互作用的效应。

2.4 领域经验对变异性的敏感性影响

在每个实验块结束时,我们提出了三个不同的调查问题,以评估参与者在该领域内的不同经验:他们在该领域内做出决策的频率、查看评分的频率以及提供自己评分的频率。探索性分析测试了参与者在某个应用领域内的个人经验(上课、去餐厅和购买产品)是否会影响他们在该领域内对SD的敏感性,包括他们的偏好和信心评分。我们还测试了领域经验是否会对不同可视化条件的效果产生显著的调节作用。这些效应是在一系列线性混合效应模型中估计的,模型包括了领域经验和可视化条件的固定效应(及其交互作用),以及每个领域和每个参与者的随机截距。在所有这些比较中,我们没有观察到领域经验对参与者对SD的敏感性有显著的主效应,无论是在他们的偏好还是信心评分方面,对于衡量领域经验的三个问题中的任何一个。此外,任何领域经验的测量指标都没有对不同可视化条件对SD敏感性效果产生显著的调节作用。

2.5 统计培训对变异性的敏感性影响

参与者自我报告了他们的最高统计课程水平和对统计的熟悉程度。探索性分析检查了这两个统计培训指标是否会影响参与者对SD的敏感性,并进一步测试了统计培训是否会对不同可视化条件对他们的敏感性效果产生调节作用。这些效应是在线性模型中估计的,模型包括了参与者统计培训水平和分配的可视化条件的固定效应,以及它们的交互作用。在这些模型中,我们没有观察到统计培训(无论是课程水平还是熟悉程度)对参与者偏好或信心的显著效应。此外,在这些模型中,统计培训与显示条件之间也没有对SD敏感性产生显著的交互作用。

3 讨论

我们使用了一个决策任务来研究模拟评分的显示方式如何影响参与者对评分数据变异性的敏感性。过去的研究结果不一,有些研究表明参与者会忽略不确定性,而其他研究则表明人们会根据可视化格式和任务的不同而对不确定性敏感。我们的预先注册研究发现,当评分数据的变异性较小时,在所有图形可视化条件(直方图、均值图和差异图)下,参与者的偏好强度和他们对决策的信心显著增加;但当变异性以数字形式显示时则没有这种效果。在三种图形条件中,看到直方图的参与者表现出由于评分数据中的不确定性而导致的偏好强度变化最为显著。探索性分析没有发现参与者统计培训、领域背景或领域内经验对其有调节作用的证据。观察到不确定性效应在直方图中最强,这证实了我们的预先注册假设,并增加了现有文献的支持,即当离散结果的完整分布被可视化时,数据驱动的决策更受变异性的影响(Correll和Gleicher 2014;Fernandes等人2018;Kay等人2016;Padilla等人2017)。这些发现通常被视为证据,表明当不确定性以频率而非概率的形式传达时,个体在推理不确定性方面表现得更好(例如,Cosmides和Tooby 1996;Gigerenzer和Hoffrage 1995)。尽管如此,当前的研究结果表明,当不确定性通过其他图形显示方式可视化时,人们仍然可以对不确定性敏感。虽然在均值图和差异图显示中这种效应的幅度较小,但这并不意味着在这些条件下的参与者“忽略了不确定性”(Franconeri等人2021,146)。相反,结果表明,当使用带有误差线的可视化方式时,参与者的偏好强度可能主要由视觉启发式规则决定(例如,分布之间的视觉距离或分布位于两个选项之间的位置;Kale等人2021),其次才受到误差线宽度的影响。在参与者标记出两个选项之间的偏好后,他们接着标记了对自己回答的信心。当评分数据的变异性较小时,参与者表现出更高的信心,但这仅限于图形显示条件(直方图、均值图和差异图可视化)。这一结果可能与过去的研究相矛盾,后者表明在决策任务中增加结果范围可能会增加参与者的信心(例如,Peterson和Pitz 1988;Kuhn和Sniezek 1996)。然而,与过去呈现逐渐增加的模拟结果集的研究相比,当前研究中的参与者是在两个选项之间做出二元决策,而图形的变异性可视化可能有效地传达了特定结果的不确定性,即一个选项更优的不确定性。这种区别很重要:看到许多离散的可能情景可能会传达出全面性,从而增加信心;而看到过去的经验分布广泛则可能会降低对自己经验的预测信心。此外,我们参与者的偏好和信心在变异性较低时都增加了,这表明他们正确理解了变异性较小的评分提供了更可靠的信息。这与过去的研究结果形成对比,后者表明人们常常无法区分对判断的信心和支持该判断的证据的可靠性(Grounds等人2017)。当前研究中的参与者在很大程度上忽略了评分数据中变异性的数值呈现,但当不确定性通过图形显示方式传达时,他们变得对不确定性敏感。这种效应在直方图显示中最强,但当不确定性通过误差线传达时也显著存在。尽管这种影响相对较小,但人们对误差线的大小是敏感的。更广泛地说,我们的发现为关于人类在不确定性下的推理的持续研究做出了贡献,提供了证据,表明当不确定性通过误差线传达时,表面上忽略不确定性可能并不反映根本的认知缺陷,而可能反映了任务需求或使用了仅降低不确定性优先级的启发式规则。鉴于当前结果没有受到统计知识或领域专业知识的调节,未来研究可以探讨新的干预措施、支架或培训是否可以提高参与者对不确定性的敏感性。

作者贡献

Benjamin Motz:概念化、调查、写作——原始草稿、方法论、正式分析、项目管理、验证、可视化、数据管理、监督。Richard Hullinger:概念化、调查、资金获取、方法论、软件、项目管理、写作——审阅和编辑、验证、数据管理。Bradley Celestin:概念化、调查、写作——审阅和编辑、验证、方法论。Hunter Butz:概念化、调查、验证、写作——审阅和编辑。John Kruschke:概念化、调查、写作——审阅和编辑、项目管理、监督、方法论、软件、正式分析、数据管理。

这项研究得到了印第安纳大学创新教学与学习中心的资助。

利益冲突

作者声明没有利益冲突。

注释

1. 在本文中,我们仅报告了预先注册的前两个问题(偏好和信心评分)的结果。第三个问题(统计不确定性)的分析没有预先注册,探索性分析没有发现第二个和第三个问题之间存在系统差异。

2. 预先注册的实验还包括第四个领域(酒店),但由于实验演示脚本中的错误,导致该领域的数据缺失(没有展示标准差较大且平均差异较小的酒店试验数据)。为了避免不平衡问题,我们决定在所有当前分析中排除酒店试验的数据。

数据可用性声明

支持本研究发现的数据可在https://osf.io/f9cav/公开获取。

生物通微信公众号
微信
新浪微博


生物通 版权所有