综述:谁害怕合成数据?混合方法实现医学数字孪生

时间:2026年1月19日
来源:Informatics in Medicine Unlocked

编辑推荐:

这篇立场论文提出,克服精准医学面临的数据稀缺、标签噪声和反事实结果不可观测等结构性限制,需要构建结合多尺度虚拟组织模型、合成数据生成和AI/ML的混合系统。作者借鉴数值天气预报等领域的经验,建立了以机制模型为核心,通过前向(机制→合成数据→AI)、后向(AI→机制)和闭环(患者锚定的数字孪生)循环连接AI的概念框架。文章论证了生物系统的复杂性、适应性和稀疏观测如何限制医学数字孪生的预测能力,从而支持群体和队列层面的预测而非精确的个体复制。最后,作者将风险感知的验证、确认和治理框架(如ASME V&V 40、Good Simulation Practice)适配到一个跨越机制核心、合成数据产品、AI组件和临床工作流的四层架构中,为构建可信赖的混合系统提供了路线图。

广告
   X   

克服数据障碍:合成数据与数字孪生的作用
精准医学的前景依赖于充足、有代表性、标注良好且纵向的临床数据。然而现实中,临床数据集很少能满足这些条件。罕见病和非典型表型系统性采样不足;常规护理产生碎片化记录;监管、法律和后勤障碍限制了高价值数据的重用和共享。作为应对,合成数据生成和医学数字孪生这两条技术路线应运而生。合成数据算法创建的人工数据集能模拟真实临床数据的统计结构,同时降低隐私风险并促进数据共享。数字孪生则从工程和制造领域演化至健康领域,被设想为患者、器官或过程的动态计算副本,可随新数据不断更新。
在此背景下,基于物理的多尺度虚拟组织模型占据了一个独特的生态位。通过将生物物理过程编码为可执行的模拟,它们充当数字孪生的机制“引擎”,并作为生成受生物学约束的合成队列的生成器。当用于生成合成队列时,这些模型将数十年的实验和临床知识转化为富含注释、受生物学约束的数据集——图像、时间序列和轨迹——可供机器学习系统使用。本文认为,最富有成效的前进道路是将合成数据、虚拟组织、数字孪生和AI视为单一混合生态系统的组件,而非孤立的技术。
真实世界临床数据的挑战
临床数据面临两大交织的限制:数据质量问题,即标签和测量存在噪声或不一致;以及临床研究设计的结构性特征,导致许多对精准医学最相关的结果无法被观测到,即反事实差距。随机对照试验估计的是跨人群的平均治疗效应,但每个患者只遵循一种治疗方案;不可能观察到同一个体在替代方案下的结果。临床数据集因而只追踪了潜在轨迹大树中的一个分支。虚拟组织建模直接针对这一差距,通过实现受控的计算机模拟实验,探索同一“虚拟患者”的替代轨迹,同时保持生物学保真度。
生物医学中的数字孪生范式
数字孪生源于工程领域,通过连续传感器反馈和预测建模对物理系统进行实时监测和优化。将其范式转化到生物医学领域具有吸引力但也充满挑战。医疗数字孪生旨在创建持续更新的、患者特异性模型,整合可穿戴传感器、定期临床测量和电子健康记录数据。原则上,此类系统可以通过比较实际结果和模拟结果,支持虚拟干预测试、早期疾病检测和治疗优化。然而,生物系统带来了独特的挑战:许多生物标志物难以连续测量,关键过程跨越从分子到器官水平的多个尺度,并且潜在的调控网络可能在治疗下发生改变。
在此新兴范式中,虚拟组织模型提供了器官和微环境尺度的机制核心。基于细胞和多尺度的框架(如CompuCell3D和PhysiCell)捕捉局部规则(细胞粘附、增殖、迁移和死亡)如何与扩散场和组织力学相结合,产生涌现的组织尺度行为。当与临床或实验数据耦合时,这些模型可以被参数化以代表患者类别或特定个体,并用于生成合成队列,探索合理的轨迹和治疗反应。从这个意义上讲,来自虚拟组织的合成数据更像是一种知识压缩的形式,将机制假设展开为在体内无法详尽采样观察的模式。
概念框架
为了组织庞杂的文献,我们采用一个框架,将虚拟组织、合成数据、数字孪生和AI/ML视为耦合系统的组件。其核心是一个机制核心,由多尺度、基于物理的虚拟组织或器官级模型组成,参数化后代表患者类别或特定个体。围绕此核心,我们区分了三种交互(“循环”)和一个横切的验证层:从机制模型到合成数据再到AI的前向循环;从AI到机制模型的后向循环;以及组合系统作为锚定于患者或队列的数字孪生运行的闭环循环。验证和治理作为横切层,所有三个循环必须在明确的验证和治理结构内运行。
前向循环:机制模型 → 合成数据 → AI。虚拟组织模拟可以通过对生物学上合理的参数范围和初始条件进行采样,生成“虚拟患者”的合成队列,产生带注释的图像、时间序列和结果轨迹。这些合成数据集随后可用于训练或压力测试AI模型,特别是在真实临床数据稀疏或有偏差的情况下(如疾病早期进展、罕见表型或非典型治疗过程)。在此循环中,合成数据的功能是真实世界数据的受控、基于机制的增强,而非替代品。
后向循环:AI → 机制模型。数据驱动的方法可以作为昂贵模拟的替代模型,加速参数探索,或推断潜在参数和结构以协调模型预测与观测数据。在我们的框架中,此类方法允许临床和实验数据以原则性的方式对机制假设进行反馈:模型输出与数据之间的差异成为改进模型结构、约束参数范围或提出新生物学假设的信号,而非被视为噪声。
闭环循环:锚定于患者的数字孪生。在最外层循环中,机制和AI组件共同根据来自个体患者或特定队列的纵向数据进行校准,然后用于模拟替代干预策略、预测近期轨迹或指导适应性治疗。来自数字孪生的合成轨迹不断与实际结果进行比较;显著差异触发机制和AI组件的重新校准。
生物系统中合成数据的理论基础
生物组织是复杂适应系统(CAS):许多相互作用的组分产生跨尺度的涌现行为,其方式无法还原到任何单一描述层次。这种多尺度结构并非信息缺失的产物,而是生命系统的基本属性。作为生命系统,组织在远离平衡的状态下维持稳态,并主动利用随机性而非将其视为纯粹的噪声。基因表达、信号传导和细胞间相互作用的波动产生了可能未来的分支“锥体”,而非任何个体的单一确定性轨迹。在群体层面,这促使进行集成模拟和概率预测;在个体层面,它限制了我们能有意义地预测未来状态的粒度。
在此复杂系统视角下,虚拟组织模型为合成数据生成提供了机制基础。它们将组织或器官表示为耦合的动力系统,连接细胞内调控、细胞行为和组织尺度传输或力学,通常通过结合区室常微分方程(ODE)、基于代理的规则和连续偏微分方程(PDE)描述来实现。这些模型并非复制每个分子细节,而是编码被认为驱动涌现结构和动态的过程。一旦经过校准,虚拟组织可以生成难以或无法在体内获得的数据集。通过系统性地改变参数(如细胞周期时长、粘附强度或突变模式),它们可以模拟罕见表型、疾病早期阶段以及同一“虚拟患者”的反事实治疗策略。
天气预报常被用作混合机制-AI系统的隐喻,它既提供了灵感也发出了警示。早期数值天气预报面临的约束与当前虚拟组织建模相似:有限的计算资源迫使使用粗网格和简化物理,因此模型必须在分辨率、复杂性和运行时间之间取得平衡,以提供快于实时的预报。随着时间的推移,进展来自于结合三个方向——物理模型、统计和经验模型以及混合方法——每个都针对不同的问题和时间范围进行调整。最近的机器学习天气系统(如FuXi、GraphCast、FourCastNet)经过数十年再分析数据(如ERA5)的训练,在许多全球中期预报指标上匹配或超越了领先的NWP模型,且通常计算成本低得多。这些系统并非取代物理学;相反,基于物理的模型和ML预报器正越来越多地协同使用,混合方法利用各自的优势。
然而,这个类比是强大的但也是有限的。大气遵循固定的物理定律,而生物系统可以通过进化、可塑性和治疗诱导的适应来改变其有效规则。气象学受益于密集、标准化、近乎全球的数据集(如ERA5),而生物医学的数据分布则是碎片化、有偏差且稀疏的,没有相当于人类疾病的长期均匀“ERA5”。天气预报在很大程度上是非自反的——预报不会改变动态——而临床预测可以改变治疗,从而改变数据生成过程。伦理和实践约束也限制了在患者身上进行传感器部署和实验,这与大气不同。
连接虚拟组织和真实生物学需要明确的管道,将成像、组学和临床测量与模型状态和参数联系起来,同时尊重生命系统的适应性、非平稳性。与大气物理学不同,生物调控可以在选择和治疗下重新连接,微环境信号、微生物群和机械力不断重塑基因表达和代谢。多尺度模型因此必须使用能够跨尺度探测结构和动态的数据进行校准和验证。
最近的工作展示了具体策略。例如,使用分割的3D共聚焦显微镜图像初始化模拟,并定义形态学指标以指导参数调整,使模拟的球体匹配实验结构。多层网络模型连接基因组学、蛋白质组学和代谢组学数据与细胞和组织表型,提供了将通路级知识嵌入更高尺度动态的途径。多重成像平台(如CODEX)通过测量数十种蛋白质标记物同时保留空间背景,增加了另一层,能够在特定时间点对模型预测的空间模式和细胞类型分布进行严格测试。
这些例子强调,不同类型的数据在模型生命周期中扮演着不同的角色。高维静态数据,包括多重成像,非常适合初始化模型状态和约束空间组织。纵向实验或临床测量测试动态轨迹,队列级数据约束结果分布和状态频率。“制图师的诅咒”提醒我们,单一模型无法同时重现所有尺度和细节:试图穷尽表征可能会损害可解释性和可处理性。相反,有效的桥接策略明确选择哪些尺度和可观测量对给定的使用情境是重要的,将每种数据类型与特定任务(参数推断、结构验证或动态测试)相匹配,并接受生物学的某些方面将保持粗略分辨率。
我们实际上能预测什么?认知极限与模型设计
最近关于数字孪生的工作强调,它们应被理解为决策工具,而非患者个体的完美虚拟副本。美国国家科学院将数字孪生定义为模仿某个系统的虚拟构造,通过来自其物理对应物的数据动态更新,具有预测能力,并通过模型与现实之间的双向反馈环为决策提供信息。在此框架下,生物医学数字孪生的目标是提供经过校准的、以决策为重点的预测,其范围和限制针对特定问题、时间跨度和患者群体被明确表征。
在该框架内,前面章节的内容以及来自多个领域的结果指出了任何混合机制-AI系统所能提供的硬性限制。在生态学和种群动力学中,无模型或低参数方法在短期预测范围内甚至可以胜过“正确”的机制模型,并且所有模型最终都会随着时间跨度的延长而失去技能。类似地发现,基于聚合的、更粗尺度变量构建的预测通常比基于细粒度状态的预测更稳健,因为小尺度波动既嘈杂又难以观测。在肿瘤学中,增加空间癌症模型中的机制复杂性并不能保证更好的洞察力或样本外性能;在受数据约束且与决策相关的情况下,详细的生物学是有价值的,但超出这个范围,它主要增加参数和可识别性问题。肿瘤进化、免疫逃逸和治疗诱导的可塑性意味着今天校准的模型明天可能被系统性地错误设定,这促使了适应性治疗和机制学习框架的发展,这些框架明确地将进化和治疗视为需要建模和优化的耦合过程。
这些见解转化为具体的设计原则。问题和预测时间跨度必须预先明确说明。例如,一个旨在六个月内选择两种化疗方案的模型,与一个用于探索数年耐药机制的模型相比,具有不同的结构和数据要求。评估应针对集成和不确定性,询问模型是否捕捉到了分布、转变和定性的状态变化(例如耐药克隆的出现或免疫主导地位的转变),而非优化单点误差指标。最后,当AI组件被部署为替代模型或推断引擎,以加速参数探索或将机制模型拟合到数据,同时保持参数可解释并在生物学合理范围内时,它们最为有用。
目前,最可靠的预测通常是群体层面的。随着稳态和疾病“空间”被更系统地绘制,用于精准医学的数字孪生最好被视为将个体定位在这些分层空间内并估计近期转变概率的工具,而非独特微观未来的精确模拟器。与此同时,AI模型可以发现未在机制结构中明确编码的模式,这引发了关于如何解释和信任此类模式的问题。组织病理学及相关领域可解释AI(XAI)和模型可解释性的进展提供了将预测与候选机制或空间特征联系起来的工具,但并未消除对明确机制推理的需求。综上所述,这些论点支持一种风险和情境感知的方法:虚拟组织和混合机制-AI系统应被视为有界的、针对特定问题的近似,它们生成合理的轨迹集成和状态分类。合成数据可以在明确定义的领域内扩展和压力测试这些模型,但无法消除由生物适应性和数据约束所施加的基本限制。
虚拟组织模型用于AI训练的技术实现
基于第1.4节介绍的循环,本节总结了现有工作如何在实践中实例化这些思想。我们将文献归纳为三个主题:实现前向、后向和闭环循环的架构模式;探索和约束参数空间的方法;以及在现实规模部署此类系统的计算和工作流考量。
已发表的将虚拟组织与AI结合的系统通常实现了图1中的一个或多个循环,而非完整的数字孪生。大多数系统耦合了基于图像或多模态的AI模型(通常在数字病理学或影像组学中)、机制模拟引擎以及在组件间移动信息的数据管道。在前向循环配置中,虚拟组织主要充当合成数据引擎。经过全切片图像或其他临床模态训练的深度网络,通过模拟轨迹或“虚拟组织学”进行增强,这些轨迹覆盖了真实数据中稀疏表示的罕见表型、早期转变状态或非典型治疗过程。在后向循环视角下,核心任务是将观测到的成像、组学和临床时间序列映射到机制参数或潜在状态。双向编码器和变分自编码器(VAE)可以将模拟输出压缩到低维潜在变量中,当在模拟和真实数据上联合训练时,可以学习观测模式与参数空间区域之间的对应关系。
模拟基推断(SBI)方法通过训练神经密度估计器来近似给定观测数据后参数的后验分布,使这一思想变得明确;最近的工作展示了如何使用此类方法构建虚拟患者,其参数与模型结构和测量的变异性保持一致。在此后向循环设置中,贝叶斯网络和符号回归方法为结构参数推断提供了互补的方式。贝叶斯网络提供了一种概率图形式主义,用于编码先验生物结构和不确定性,并长期用于从嘈杂的分子和生理数据中推断潜在相互作用网络。嵌入虚拟组织框架中,它们可以充当中间层,连接异构可观测量(成像特征、实验室值、通路活性评分)与潜在机制状态或参数簇,使哪些依赖关系是先验假设的、哪些是从数据推断的变得明确。
符号回归方法(如PySR和LogicSR)通过发现将一小组特征映射到结果或参数的显式方程,增加了一个可解释的对应部分。在此上下文中,它们可以将转录组或通路活性特征转化为基于代理的模型规则——例如,将基因表达模式映射到分裂速率、死亡概率或迁移速度——使得高维组学数据通过人类可读的关系而非不透明的潜在向量进入机制模型。
主动学习和模型知情强化学习(RL)策略随后在循环中操作参数空间探索。对类别标签、参数后验或策略性能的不确定性估计可用于将额外的模拟定向到参数空间中最具信息性的区域,这与生物网络发现的主动实验设计工作相呼应。用于精准给药和适应性治疗的模型知情强化学习框架已经在计算机中实例化了这种模式,使用机制模拟器作为环境,同时通过先验边界、安全约束和定期根据新临床数据重新拟合来限制探索。
在这些方法中,生物学相关性依赖于明确的约束和多层次验证。实际实施结合了合成图像和轨迹质量的定量指标、模拟形态学和进展模式的专家评审,以及合成增强如何影响下游预测任务的评估。参数空间探索最好被视为一个迭代的假设生成过程,其中候选参数集成反复面对独立的真实数据。
混合合成数据系统的验证、偏见与治理
混合虚拟组织-AI系统的可信度不能作为一个整体来评估。我们将这些系统视为一个四层堆栈:机制核心、合成数据产品、AI组件以及它们所嵌入的临床或操作工作流。该堆栈的完整性依赖于“监管链”:将生成机制与下游AI决策联系起来的机器可读文档。
机制模型层。虚拟组织或数字孪生核心必须满足常规的验证和确认标准,但可信度也取决于透明度和可持续性。由COMBINE倡议协调的社区标准——例如用于模型结构的SBML和用于模拟实验的SED-ML——提供了必要的基础设施,以可移植、机器可读的形式编码模型方程、参数和模拟协议。当捆绑到COMBINE存档中时,这些格式不仅仅是描述生物学;它们充当合成数据的不可变“制造规范”。这确保了每个合成数据集都可以追溯到特定的模型版本和参数集,支持可重复性以及后续对AI行为的审计。
合成数据层。合成输出必须作为数据产品进行评估,而非假设其构造有效。至少,报告应量化(i)与真实数据的分布相似性(保真度),(ii)在合成数据与真实数据上训练的下游模型的性能(效用),以及(iii)隐私风险。最近的框架强调沿这些轴对合成健康数据进行多维评估。类似于AHRQ的SyH-DR(为治理维护可链接性)等公共资源,虚拟组织驱动的合成队列应使用稳定的标识符,将每个合成记录连接回其生成的COMBINE存档及其报告。这使得用户能够准确识别是哪个机制假设产生了特定的异常值或伪影。
AI组件层。使用混合真实-合成数据的AI模型应通过按数据源和临床相关亚组进行明确分层来评估。在增强数据集上训练的模型必须在纯真实的外部队列上进行测试,以检测合成引入的伪影。由于在机制模型和合成数据之间建立了链接,我们可以更有效地采用可解释AI(XAI)技术。XAI应验证决策边界依赖于生物学上合理的特征,而非合成生成器的特性。如果AI组件失败,“监管链”允许开发人员调试底层机制假设,而非仅将AI视为黑箱。
系统与反馈层。最后,必须对数字孪生与患者之间的完整反馈环进行可信度评估。随着新数据的到来,它们会重新校准机制核心,这反过来又会改变用于重新训练AI的合成数据。监管框架(FDA的风险知情指南、良好模拟实践(GSP)、ICH M15、EMA)为此循环强调了三个关键的可信度因素。首先,相对准确性与绝对准确性。GSP和MIDD强调,对于许多临床问题(例如,“肿瘤负荷会缩小吗?”),捕捉变化的方向比绝对值更为关键。验证指标必须与这个特定的关注问题保持一致。其次,生理合理性。根据新患者数据重新拟合必须将参数保持在生物学可解释的范围内。大的、无法解释的偏移应触发低置信度标志和模型审查,而非强制拟合——这是基于机制理解的安全阀。第三,及时性作为有效性指标。GSP将“性能”定义为包括时效性。如果基础设施限制使重新校准延迟超过临床决策窗口(例如,下一个化疗周期),则该系统对该使用情境无效,无论其准确性如何。
在所有四层中,“缺陷”是相对于使用情境定义的。一个简化的虚拟组织可能不足以生成用于分割训练的真实组织学图块,但对于在队列层面模拟纵向反应可能完全合适。因此,可信度要求在下游决策问题重要的维度上具有足够的保真度,而非在每个方面都追求最大程度的真实感。
偏见、漂移与合成数据中的来源
偏见、分布漂移和不完整的来源是AI和建模中长期存在的问题,但混合虚拟组织-AI系统引入了它们可能产生和放大的额外渠道。合成数据可以通过(例如)增加罕见表型的权重来减轻某些偏见,但如果其生成和使用未得到仔细控制,也可能复制或加剧现有的不平衡。
偏见与公平性。最近对合成健康数据的综述表明,生成模型通常会复制源数据中存在的人口统计学和临床偏差,并且即使整体指标有所改善,简单的增强也可能降低少数亚组的性能。因此,新的框架提出沿保真度、效用、隐私和公平性轴对合成数据进行多维评估。例如,明确基准测试了几种表格合成器的公平性-效用权衡,表明即使

生物通微信公众号
微信
新浪微博


生物通 版权所有