在当今医疗研究领域,电子健康记录(EHR)数据库正成为不可或缺的资源宝库。这些数据库收录了海量患者在医疗过程中产生的真实世界数据,为临床和公共卫生研究提供了前所未有的机会。然而,与精心设计的随机对照试验(RCT)不同,EHR数据存在两个关键挑战:治疗分配非随机导致的混杂偏倚,以及重要变量部分缺失的问题。当研究人员试图评估某种治疗的因果效应时,如果恰好那些能够调整混杂的关键变量在某些患者中缺失,就会陷入两难境地——既要处理缺失数据,又要调整混杂偏倚。传统上,分析人员通常采用分步策略:先通过插补处理缺失数据,再应用标准因果推断方法(如结果回归或逆概率加权)来调整混杂。这种"临时组合"方法在实践中的表现如何?是否存在更严谨的框架来同时解决这两个问题?这正是Benz等人在《BMC Medical Research Methodology》上发表的最新研究要探讨的核心问题。本研究基于Levis等人近期提出的理论框架,通过一系列精心设计的模拟实验,系统比较了多种处理部分缺失混杂因素的方法。研究团队以已发表的减重手术长期效果研究为背景,构建了贴近真实的模拟情境,评估了从简单到复杂的各种分析策略。研究发现,虽然某些临时方法在特定条件下表现良好,但没有一种方法在所有场景下都是最优的。这一发现强调了在实际研究中需要根据具体情况谨慎选择分析方法,而不是依赖"一刀切"的解决方案。为开展这项研究,作者团队主要采用了以下几种关键技术方法:基于真实世界减重手术队列的模拟数据生成技术,通过从Kaiser Permanente华盛顿州的5,693例患者中抽样构建贴近现实的模拟数据集;多种因果推断方法的系统比较框架,包括传统方法(结果回归、逆概率加权)和新兴的CCMAR框架估计量;灵活的模型设定策略,涵盖参数模型、半参数广义可加模型(GAM)和非参数随机森林等方法;以及全面的性能评估指标,重点关注估计偏差、效率和稳健性等关键统计特性。数据生成过程研究设计了四种主要模拟场景,分别基于不同的数据生成机制。场景1-3采用Levis提出的因子分解(公式1),其中混杂因素p的分布依赖于完全观测的变量c、处理A和结果Y。场景4则采用更"自然"的替代因子分解(公式3),其中混杂因素在治疗分配前生成。这种设计使研究人员能够评估当真实数据生成过程与分析方法假设不一致时,各种估计量的表现。