摘要
向政策制定者传达科学理念一直是一个长期存在的挑战,尤其是在流行病学建模领域,因为其中的证据本质上具有不确定性。这种沟通的核心是可视化——通过图表、图形和图像来直观展示复杂的流行病学建模概念。有效的模型可视化应该清晰、简洁且易于理解。本文将视觉科学的理论应用于帮助建模者提高他们对自己环境中可视化的理解和评估能力。设计师可以利用视觉科学的基本原理来辅助他们向政策制定者传达建模概念。我们分类了模型可视化可能失败的不同方式,并提供了必要的理论和示例,以解决流行病学环境中的这些问题。
1. 引言
流行病学家与政策制定者之间的密切沟通对于成功管理传染病爆发至关重要。我们很少正式考虑自己的科学沟通实践(1)。可视化(图表、图形等)在这种沟通中起着核心作用,它们提供了一种展示不同政策方案、澄清理解并找到共同点的方法。在过去的几十年里,尤其是自COVID-19大流行以来,已有大量文献致力于定量信息的可视化(2),但专门针对流行病学建模可视化的研究却很少。流行病学建模使用数学、统计和/或计算工具来研究传染病在不同人群中的传播方式(3, 4)。与一般数据可视化相比,流行病学建模可视化面临独特的要求和限制。在本文中,我们描述了流行病学建模可视化与其他类型可视化的区别,探讨了什么是优秀的政策导向型流行病学建模可视化,并讨论了如何衡量和评估模型可视化的有效性。
以往关于流行病学建模可视化的研究考察了政策制定者认为最有帮助的图表方面,强调了建模者可以做出的简单改进(5–8)。在这里,我们旨在更深入地探讨视觉科学理论,并将其应用于流行病学建模。我们的目标是让感兴趣的建模者掌握相关理论,以便在他们自己的环境中改进可视化效果。
2. 流行病学建模可视化的角色和要求
流行病学建模可视化具有多种作用,例如减少认知负担(利用视觉感知而非工作记忆)、降低维度、构建叙事以及添加背景信息。这些可视化自然需要捕捉不确定性。建模过程中存在多种不确定性来源,而可视化可以帮助总结并向政策制定者突出不同类型的不确定性。随机不确定性(即自然随机性)是不可减少的,而认知不确定性(如知识缺失、数据缺失)则可以通过额外努力来降低。不确定性是建模固有的,建模可视化的作用是向政策制定者清晰地呈现各种选项,使他们意识到预测的局限性(12, 13)。重要的是要考虑要突出哪些方面的不确定性:例如,用可信区间来表示平均流行病轨迹的方法可能不如突出低概率但高影响(即最坏情况)的情景更有用。
流行病学模型及其可视化通常有两个主要作用:预测,即对疫情短期趋势进行明确的定量预测;以及情景建模,目的是理解长期后果、潜在行动方案的定性影响以及关于病原体及其传播方式的假设的影响(14)。实现这些不同目标可能需要不同的可视化选择:例如,预测可视化可能更侧重于模型输出,将模型本身视为“黑箱”,而情景可视化则可能将模型作为研究的核心对象,利用可视化来展示模型的结构及其对预测流行病学结果的影响。
除了流行病学之外,模型可视化还出现在多个领域,包括临床医学、气象学和军事科学(15, 16)。例如,在气象学中,美国国家飓风中心和其他气象机构会生成带有不确定性锥体和意大利面图的地图,这些地图都是基于底层模型制作的(15)。在军事环境中,防空系统的3D模型可视化有助于操作人员了解薄弱环节和潜在威胁(16)。尽管模型可视化应用广泛且影响深远,但关于特定于建模可视化的独特目标、方法和评估策略的正式理论却很少。一个类似的例子是飓风建模,它在生产速度(模型可能需要在几天内生成、解释和采取行动)、集合方法和不确定性沟通方面有相似的要求(17–20)。然而,流行病学建模可视化受到的关注相对较少,并且具有一些使其与其他类型建模可视化不同的特点:底层模型的多样性(例如,与气象学不同,我们的领域缺乏标准模型),以及可视化本身可以直接影响疫情(无论是否有意)这一事实。缺乏标准模型可能导致不同模型之间的理解不足,从而增加了将一种模型的含义转化为另一种模型语言的难度;在根据具体情境定制可视化与积极创建一种预期可视化类型的子领域文化之间存在权衡;最后,由于缺乏默认标准,它可能被认为不够客观。对于行为反馈循环而言,在支持行为建议(如封锁、戴口罩)与传达复杂性/不确定性之间需要做出权衡。
对于可视化来说,这些特点意味着首先需要标准化从模型中需要传达的数据类型,从而基于其有效性证据制定可视化标准。其次,需要开发基于科学评估的可视化标准,以提前识别可能出现的沟通失误。我们建议不是一成不变地推荐一种可视化方式,而是开发一套基于证据的设计和可视化评估工具。这样,沟通团队就可以有选择的空间,并在发布之前测试这些可视化的基本操作效果。
模型可视化在疫情管理和响应中发挥了重要作用。图1展示了一系列有影响力的数据/模型可视化的示例。一些定量流行病学领域的开创性文献中包含了模型可视化,例如约翰·斯诺1855年绘制的伦敦中心霍乱爆发的地图(21, 22)。如今,早期对COVID-19发病率可能耗尽医疗资源的预测促使美国和英国实施了封锁措施(23)。通过简洁地展示可能的未来情景,这些流行病学模型可视化有助于快速了解每种威胁的潜在严重程度(图1D)。
图1
从数据可视化到模型可视化的示例。(A)约翰·斯诺1855年绘制的布罗德街霍乱爆发地图(22)。该可视化通过当时新颖的地理空间布局展示了政策相关性(1条杠代表1例死亡)。图(B)是经威尔逊许可复制的另一个版本(24),其中死亡人数以更大的相对体积比例显示,泵的标记也更清晰,使用了不同的颜色和符号。图(A)和(B)与如果约翰·斯诺生活在现代并希望向当前政策制定者通报热图中高亮地址的居民面临的霍乱风险时的可视化示例(C)不同。图(C)中的模型可视化需要呈现带有不确定性的预测风险估计。图(C)使用Esri教程在ArcGIS中生成,©Esri,采用CC BY-NC-SA许可(25)。(D)伦敦帝国学院COVID-19建模团队2020年的“报告9”,由于其设计简洁性和明确的政策相关性而产生了重要影响。该图表展示了英国的重症监护(ICU)床位需求。转载自Ferguson等人(23)。进一步使用视觉维度(如线条粗细、形状、颜色对比——见图2)可能会进一步提高其可读性。
从以往的研究中可以看出,流行病学模型可视化的三个主要目标是:(1)快速解释模型结果(5);(2)迭代模型开发(30);(3)为模型用户提供一种向他人传达模型见解的方式(重新解释)(6)。借鉴视觉科学、认知科学和各种应用领域的理论,我们探讨了:(a)模型制作者与政策制定者之间视觉沟通可能出现的障碍(3.1);(b)如何最好地通过视觉方式向政策制定者传达流行病学建模(3.2);(c)基于模型的科学-政策沟通中的互动性(3.3);(d)如何评估和改进可视化(3.4);(e)一个示例研究设计(3.5)。
3. 什么是好的模型可视化,我们如何判断?
3.1 沟通障碍
要理解什么是好的模型可视化,我们可以先看看相反的情况,即导致模型可视化失败的原因(表1)。一个主要的失败原因是视觉设计的复杂性:由于过度拥挤或颜色、间距、图案或分组使用不当,可视化可能难以理解。来自视觉科学(第3.2节)和相关可视化工具(第3.4节)的见解在克服这些挑战方面取得了显著进展,但其在流行病学建模中的应用仍然有限。值得注意的是,在极简主义和更复杂的视觉设计方法之间可能存在权衡;例如,Borkin等人发现视觉装饰可以提高记忆性,这在需要同时向多个受众(包括建模专家、政策制定者和公众)传达信息时尤为重要(31)。
表1
流行病学建模可视化中的沟通障碍
类型 | 可能的解决方案及支持文献
--- | ---
设计复杂性(拥挤、颜色使用不当等) | 大量关于视觉设计原则的研究,见第3.2节。还开发了工具,帮助建模者测量自己图形的复杂性(26–28)。
误解 | 例如,在(29)中讨论了视觉理解的问题。提供额外的模型情景或交互式可视化也可能有助于模型用户(第3.3节)。
缺乏政策相关指标 | 考虑用政策制定者熟悉的语言和指标来呈现结果(例如,参见关于如何呈现流行病学建模的建议(5–8)。
与现有信念的冲突 | 给新概念吸收和更新信念系统留出时间。额外的支持性模型图形可能会有所帮助。
流行病学建模可视化中的第二个潜在失败原因是误解——如果图表未能准确传达其试图表达的概念和叙事。例如,在环境系统建模中,这种误解被归类为“对概念的混淆”或“难以描绘整个系统”(32)。在培训流行病学建模者时,对流行病学概念的视觉表示重视不足。即使政策制定者对建模可视化的概念感到舒适,沟通也可能失败。例如,输出可能没有用政策相关的术语呈现。如果模型发现与先前的信念不符,也可能产生紧张情绪,从而需要额外的支持性图形。
表1总结了这四类视觉沟通障碍,并提供了克服每种障碍的示例。
3.2 设计可视化:基本原则
借鉴视觉科学的基本原理,首先应确定三个要素:用户、信息和任务(33)。这里的用户是政策制定者或决策者,信息是模型输出/过程(可能来自具有不同参数的多个模型),以及任何相关的背景数据,示例任务可能包括探索可能的公共卫生干预措施的影响或预测未来病例。每当用户、信息或任务发生变化时,通常都需要新的或调整后的可视化。在视觉科学中,还区分了图的不同维度或方面,即图示维度(数量、位置、变量之间的关系)、视觉维度(颜色、形状、线条、图案、轮廓、图标)和结构维度(排序所有输出、分组输出子集)(图2)(34)。在为政策传达模型时,可以利用这些可视化理论。为了获得关于更快或更慢的处理活动、颜色与形状的对比、分组的使用、高亮和注释以及其他格式塔原则的更多想法,我们建议感兴趣的读者参考Franconeri等人(35)的研究。图2展示了使用流行病曲线来说明的可视化组件的各个部分。图表的维度包括数量、位置和关系;视觉维度包括颜色、形状、线条、图案、图标/同型以及轮廓;结构维度包括信息的排序和分组。术语遵循Hil和Lachenmeier(34)的定义。此外,可视化可以根据用户输入的程度进行分类:它们可以是静态的、动态的或交互式的。静态可视化可能包含在纸质文档中。交互式可视化可以从包含超链接、切换开关来隐藏/显示不同数据层,到用户可以调整并观察其对模型结果影响的完整控制室输入系统。
其他流行病学建模研究也提出了为政策制定者创建可视化内容的建议,重点关注政策制定者如何接收和理解信息。这些建议包括确保模型可视化尽可能简单以传达所需信息,每周使用一致的风格和格式,避免使用叠加图表而选择单独的图表,并且发现将模型输出以情景或选项的形式并排展示通常很有帮助(5-7)。建议使用简单可视化的部分原因在于记忆和信息流的感知和认知限制。建议使用一致性可以被视为一种培训形式(对政策制定者进行视觉方面的培训)。培训和经验显著影响感知和认知结果(36)。进一步验证这些建议有助于填补当前的知识空白。
3.3 交互性
传统的科学-政策沟通遵循科学家从模型输出中呈现连贯叙述的核心理念,并可选择性地接收口头或书面反馈、后续问题或其他回应。模型输出通常由科学家控制。这里提出另一种方式:如果政策制定者愿意,他们可以通过滑块、切换开关、下拉过滤器以及参数控制等交互组件直接与可视化内容进行互动。这对于希望深入了解流行病学的公共卫生政策制定者来说可能是合适的(与职责更广泛的决策者相比)。这种交互性与主导模型可视化文献的静态设计原则不同(37)。
确实存在一些用于流行病学模型的交互工具[例如(38-40)],尽管主要的沟通方式仍然是静态图表和图形。如果使用得当,交互式可视化可以改变模型在科学家与政策制定者对话中的角色。交互性允许感兴趣的政策制定者和建模者同时查询模型,从而并行进行探究,可能使开发新见解和情景的过程更快。可视化可以作为对话的框架,建模者(或其他知识中介)可以帮助解释和背景化模型结果。通过观察政策制定者如何与模型可视化互动,建模者还可以发现改进模型的方法,考虑到之前可能未考虑的情景。建模者和政策制定者都可以对见解产生影响力。
此外,交互性可以开启不同且可能更深入的理解途径(41)。哲学家Gilbert Ryle提出了“知道什么”和“知道如何”之间的区别(42)。“知道什么”是一种通过阅读书籍、听取报告和被动观察世界获得的智力知识。在流行病学背景下,例如,人们可能知道放宽聚集限制会使流行病的增长率增加1.4倍。“知道如何”则指能够建立因果关系,而不一定需要了解两者之间的机制。这通常与一种体现的知识、直觉或实践智慧相关。根据具体情况,“知道如何”可以通过与世界的互动来发展。培训和经验显著影响感知和认知结果(36)。进一步验证这些建议有助于填补当前的知识空白。
3.4 测量和评估有效的模型可视化
在流行病学响应工作中,一个及时的问题是“如何评估公共卫生干预措施?”评估有助于识别进展、问题以及未来的改进方向。同样地,对于模型可视化,我们也会问“如何评估一个模型可视化?”我们如何衡量那些被政策制定者有效理解和接受的模型可视化?这可以通过量化方法来实现,例如测量用户响应时间或“学习时间”以及检索/回忆准确性。其他视觉设计指标也可以提供信息,如对比敏感度和视觉显著性(眼睛是否被吸引到图表的正确部分,关键科学信息是否突出?)、边缘拥挤度(是否有清晰的间距?)以及颜色分析(视觉是否使用颜色清晰?)(43)。正在开发一些工具,使建模者和其他设计师能够轻松地根据这些视觉设计“质量指标”(VizQM)(26-28)来测试他们的图形。
图表和图形也可以通过定性方式进行评估,例如通过用户意见和理解度测量。用户意见可以包括调查“你觉得哪个图表最清晰/最容易理解?”或“你更喜欢哪个图表以及原因?”,以及更深入的问题,如“模型可视化在多大程度上回答了它所面临的问题?”需要注意的是,这些政策问题可能事先并不明确。建模的目标可能因流行病学事件的时间不同而不同,例如展示情景之间的定性差异或精确预测ICU床位的需求。
为了衡量图形的复杂性,我们还可以借鉴语言学的知识。最近的一项研究将语言复杂性分为两类:语义复杂性(“平均词长或句子长度较高”)和概念复杂性(“由于根本不理解某些词汇或事物之间的关系而难以理解信息,例如难以理解的概念、术语或从未听说过的内容”)(44)。我们能否以这种方式分解视觉复杂性?类似的还有视觉设计复杂性(传统的拥挤度、颜色分析等指标)和概念复杂性(不熟悉的或不常见的图表维度、需要特定知识来解释的图形格式,如对数刻度等)。这可能是评估可视化效果的另一方法。
在表2中,我们总结了上述用于评估有效模型可视化的指标,将其分为测量视觉效果、用户体验和后续实际变化的指标。
表2
- 测量视觉效果
- 测量用户体验
- 测量实际变化
- 对比敏感度
- 用户响应时间/学习时间
- 采用率(例如,成为首选的可视化格式)
- 边缘拥挤度
- 检索/回忆准确性
- 视觉显著性
- 用户意见
- 颜色分析
- 证明/书面理解
- 概念复杂性
示例指标用于评估有效的可视化。需要注意的是,虽然测量后续实际变化是一个有效的评估标准,但对于为政策提供信息的科学来说,这往往不是直接目标——科学的作用通常是提供信息而不是说服。
3.5 设计研究以评估流行病学模型可视化
以往的研究使用了定性访谈和利益相关者调查(5-8, 45)。实验设计研究可以带来更深入的学习。在模型可视化的背景下,理解的速度和深度起着重要作用。一个假设的研究设计如下:
招募相关的公共卫生政策和决策者,即那些已经在日常工作中使用流行病学建模或对开始使用建模感兴趣的人。依次向参与者展示一系列静态流行病学图表、情景或预测。每次可以并排展示一对图表,每次改变一个关键的视觉维度。对于每个图表,可以要求参与者评估他们对每个图表所表达含义的掌握程度,以及他们认为最容易理解的图表,并/或撰写一份文本回答,就像在为同事撰写政策简报一样。这些指标可以用来评估用户偏好,或者从文本回答中评估理解的准确性和完整性,以及将关键结果传达给其他政策制定者的能力。所有回答的分析可以用于指导未来创建和解释流行病学模型见解时的图表维度选择(间距、颜色、分组等)。这种风格的研究还可以扩展到包括对模型可视化旁边附带的图例或标题的文本分析。
类似的研究也可以比较同一流行病学概念的静态、交互式和动态(即视频)可视化。对响应的分析可以揭示让政策制定者直接参与交互式模型可视化的潜在优势和劣势,如第3.3节所述。
更广泛地说,这些例子激发了设计模型可视化有效性研究的关键考虑因素:基于用户偏好的有效性、作为效率的有效性、作为理解的有效性、作为信任的有效性,以及(如果有意义且可衡量)对下游政策建议的有效性。
4 展望:给建模者的建议
这篇评论介绍了一系列可用于流行病学建模和政策的可视化概念。希望将这一理论应用于自己工作的流行病学建模者应注意以下几点:
- 确保图表的视觉设计简单,忠实反映其主要概念,并包含与政策相关的指标。基本的设计原则在正文中有所描述。
- 为了更深入的理解和理论基础,可以参考本文引用的视觉科学文献。
- 尝试使用交互性,但要警惕信息过载。
- 咨询或寻求与可视化专家的合作。感兴趣的读者可以参考Alan Turing研究所和其他相关倡议(46)。
- 如果有兴趣,可以进行关于流行病学建模中可视化效果的形式化研究。需要定期研究和评估这些科学沟通和建模-政策实践的方面。