领域适应(Domain Adaptation,DA)通过调整学习到的表示方式,使预测模型能够在具有不同人群特征的领域中进行泛化,尤其是在目标领域数据有限、无法训练特定领域模型时。在医疗保健领域,这一技术尤为重要,因为患者群体和测量协议因医院、表型组及疾病阶段的不同而有所差异。临床风险预测通常涉及事件发生时间的数据,其中如死亡这样的结果事件需要长期随访,且经常受到患者退出研究或随访丢失的影响,导致生存结果只能部分观察到。然而,针对异构特征空间和部分监督情况下的生存分析的领域适应方法尚未得到充分研究。本研究提出了一个用于部分观察结果生存分析的异构领域适应(Heterogeneous Domain Adaptation,HDA)框架。该框架结合了字典学习(Dictionary Learning)、最大均值差异(Maximum Mean Discrepancy,MMD)和Cox比例风险模型(Cox Proportional Hazards model),即使源特征和目标特征的维度不同,也能学习到共同的潜在表示,从而提高目标领域的生存预测能力。在模拟实验和真实世界案例研究中,HDA-CoxPH模型的绝对C指数提升范围为0.027至0.130,优于其他顶级基准模型。与传统生存模型相比,该框架在仅使用最多50%未标记目标数据的情况下仍能保持出色的预测性能。总体而言,我们的研究表明,通过字典学习和基于MMD的特征分布对齐,所提出的HDA框架能够在数据稀缺且结果部分观察到的环境中提升生存预测能力。我们的框架实现代码可公开获取,链接如下:
https://github.com/dannilin2601/hda_survival_analysis