基于电子健康记录的部分缺失混杂因素因果推断方法比较：模拟研究与实践建议

时间：2025年10月1日

来源：BMC Medical Research Methodology

编辑推荐：

本研究针对电子健康记录(EHR)中混杂因素部分缺失的挑战，比较了传统临时方法（如插补后结合结果回归或逆概率加权）与Levis等人提出的CCMAR框架新估计量。通过基于真实减重手术数据的模拟实验发现，虽然临时方法在特定场景下有效，但CCMAR影响函数估计量具有理论优势。研究为EHR因果推断提供了方法学指导，强调了模型灵活性与正确规范的重要性。

在当今医疗研究领域，电子健康记录(EHR)数据库正成为不可或缺的资源宝库。这些数据库收录了海量患者在医疗过程中产生的真实世界数据，为临床和公共卫生研究提供了前所未有的机会。然而，与精心设计的随机对照试验(RCT)不同，EHR数据存在两个关键挑战：治疗分配非随机导致的混杂偏倚，以及重要变量部分缺失的问题。当研究人员试图评估某种治疗的因果效应时，如果恰好那些能够调整混杂的关键变量在某些患者中缺失，就会陷入两难境地——既要处理缺失数据，又要调整混杂偏倚。

传统上，分析人员通常采用分步策略：先通过插补处理缺失数据，再应用标准因果推断方法（如结果回归或逆概率加权）来调整混杂。这种"临时组合"方法在实践中的表现如何？是否存在更严谨的框架来同时解决这两个问题？这正是Benz等人在《BMC Medical Research Methodology》上发表的最新研究要探讨的核心问题。

本研究基于Levis等人近期提出的理论框架，通过一系列精心设计的模拟实验，系统比较了多种处理部分缺失混杂因素的方法。研究团队以已发表的减重手术长期效果研究为背景，构建了贴近真实的模拟情境，评估了从简单到复杂的各种分析策略。研究发现，虽然某些临时方法在特定条件下表现良好，但没有一种方法在所有场景下都是最优的。这一发现强调了在实际研究中需要根据具体情况谨慎选择分析方法，而不是依赖"一刀切"的解决方案。

为开展这项研究，作者团队主要采用了以下几种关键技术方法：基于真实世界减重手术队列的模拟数据生成技术，通过从Kaiser Permanente华盛顿州的5,693例患者中抽样构建贴近现实的模拟数据集；多种因果推断方法的系统比较框架，包括传统方法（结果回归、逆概率加权）和新兴的CCMAR框架估计量；灵活的模型设定策略，涵盖参数模型、半参数广义可加模型(GAM)和非参数随机森林等方法；以及全面的性能评估指标，重点关注估计偏差、效率和稳健性等关键统计特性。

数据生成过程

研究设计了四种主要模拟场景，分别基于不同的数据生成机制。场景1-3采用Levis提出的因子分解（公式1），其中混杂因素_p的分布依赖于完全观测的变量_c、处理A和结果Y。场景4则采用更"自然"的替代因子分解（公式3），其中混杂因素在治疗分配前生成。这种设计使研究人员能够评估当真实数据生成过程与分析方法假设不一致时，各种估计量的表现。

方法比较

研究比较了多种分析策略，主要包括三大类：完整病例分析（直接删除有缺失值的个体）、临时组合方法（先插补缺失值再调整混杂）以及Levis等人提出的CCMAR框架估计量。临时组合方法又细分为不同插补策略（正确指定、简单线性插补、带交互项的插补）与不同混杂调整方法（结果回归、逆概率加权）的组合。

模拟结果

结果显示，完整病例分析在所有场景下均表现不佳，相对偏差约为20%，这强调了简单删除缺失病例的严重局限性。临时组合方法的表现则高度依赖于模型设定的灵活性——当包含必要的交互项时，参数模型（如线性回归、逻辑回归）能够显著减少偏差；而半参数和非参数方法（如GAM、随机森林）在多数情况下表现出良好的偏差控制和效率特性。

CCMAR框架的影响函数(IF)估计量在理论条件下（当模型正确指定时）表现出无偏性和高效性，但当其组分模型误设时可能出现明显偏差。值得注意的是，当使用更灵活的模型（如GAM）来估计CCMAR框架中的组分模型时，即使真实数据生成过程与假设不符，IF估计量仍能保持良好性能。

非参数模拟研究

额外的模拟实验评估了完全非参数版本的CCMAR估计量。结果显示，影响函数估计量在非参数设定下仍能保持无偏性，而逆概率加权结果回归(IWOR)估计量则表现出一定的有限样本偏差，这强调了影响函数估计量在完全灵活设定下的必要性。

研究通过图3直观展示了CCMAR框架下两种估计量的分布特性，可见影响函数估计量比逆概率加权结果回归估计量更快地接近渐近正态分布，这解释了后者在某些场景下出现的有限样本偏差。

本研究通过系统的模拟实验，为处理电子健康记录中部分缺失混杂因素的因果推断提供了重要见解。首先，研究明确展示了完整病例分析的严重局限性，强调在实践中应避免简单删除缺失病例的做法。其次，研究证明了许多临时组合方法在合理设定下确实是有效的，这为以往使用这些方法的研究提供了某种程度的验证。

然而，最重要的发现可能是：没有一种方法在所有场景下都是最优的。这一结论强调了在实际研究中选择分析方法时需要谨慎考虑数据特征和模型假设。研究结果表明，CCMAR影响函数估计量是一个有前景的选择，特别是在配合灵活模型设定时，它能够提供稳健且高效的估计。

从实践角度看，本研究为分析人员提供了几条关键建议：不应忽视缺失数据问题，而应积极采用适当的插补方法；不应害怕使用灵活模型，因为适当的灵活性往往能提高估计质量而无明显效率损失；但同时也需要注意，复杂模型需要仔细设定和调试，不能简单依赖默认参数。

随着电子健康记录数据库的不断扩展和应用的日益广泛，处理缺失数据和混杂偏倚的方法学研究将变得越来越重要。本研究不仅为当前实践提供了指导，也为未来方法学发展奠定了基础。尽管CCMAR框架在处理高维缺失混杂因素时仍面临计算挑战，但随着条件密度估计方法的进步，这一框架有望在更广泛的应用场景中发挥重要作用。

总之，这项研究填补了因果推断与缺失数据方法学交叉领域的重要空白，为使用真实世界数据进行有效因果推断提供了实用指导。其发现将有助于提高基于电子健康记录的观察性研究的科学严谨性和结果可靠性，最终为临床和公共卫生决策提供更可靠的证据基础。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部