癌症数据本质上复杂且异质性高,源于格式、术语和结构各异的不同数据源,导致显著的互操作性挑战。观测性医疗结果合作组织(Observational Medical Outcomes Partnership, OMOP)通用数据模型(Common Data Mode
广告
X
癌症数据本质上复杂且异质性高,源于格式、术语和结构各异的不同数据源,导致显著的互操作性挑战。观测性医疗结果合作组织(Observational Medical Outcomes Partnership, OMOP)通用数据模型(Common Data Model, CDM)由观测性健康数据科学与信息学(Observational Health Data Sciences and Informatics, OHDSI)倡议提供,已被采纳为缓解数据碎片化和增强证据生成的标准化框架。然而,将癌症数据协调至OMOP CDM仍具挑战性,原因在于数据粒度细、非结构化格式以及缺乏癌症特异性协调方法。该研究开发了一种将癌症数据整合至OMOP CDM的通用协调流程,通过审视现有方法并识别模式与挑战。遵循设计科学研究方法学(Design Science Research Methodology, DSRM),该流程以文献为基础并结合专家反馈进行完善。所提出的流程包含五个步骤:启动、需求分析、设计规划、技术实施和维护。每个步骤均纳入癌症特异性考量。其解决了包括源数据质量与复杂性、映射问题及维护等挑战,支持肿瘤学研究和不断演进的技术发展。
研究背景方面,癌症数据具有高度复杂性和异质性,需要对肿瘤组织学、生物标志物、疾病进展和多模式治疗方案进行详细表征。这些数据源自电子健康档案(Electronic Health Records, EHRs)、保险理赔和癌症登记系统等多种来源,各来源使用不同的格式、术语和结构,造成严重的互操作性障碍。为减少数据碎片化并增强真实世界证据(Real-World Evidence, RWE)生成,研究人员已采用OMOP CDM作为癌症数据整合的标准化框架。然而,癌症数据协调仍面临三大关键挑战:一是癌症需要高度详细的特征描述,包括肿瘤组织学、生物标志物、基因组变异、疾病分期、复杂治疗路径和纵向疾病进展,捕捉这种复杂性通常需要将低层级临床事件抽象为更高层级的患者时段表征;二是关键的癌症相关信息如癌症分期和生物标志物数据常存储于自由文本临床记录中,需要额外的人工整理和使用高级自然语言处理(Natural Language Processing, NLP)技术进行提取;三是现有框架如OHDSI四项最佳实践和Henke等人提出的九步协调流程虽提供了一般性指导,但未能充分解决肿瘤学数据整合的独特复杂性,特别是非结构化文本处理和肿瘤学特异性映射问题。这些局限性促使研究人员开发临时性、数据集特异性的协调策略,降低了可重复性和可扩展性。
研究人员强调了多组学、医学影像和新兴数据模型协调方面的重大空白。癌症数据本质上是多模态的,整合多组学层面(基因组学、转录组学、蛋白质组学、表观基因组学)、影像组学、影像基因组学等,引入大量整合挑战。尽管OHDSI社区正在积极开发多组学、医学影像、PROs和FHIR到OMOP转换工具的扩展,这些工作仍处于积极开发阶段。此外,该研究还发现,虽然考虑了FHIR和openEHR等互操作性框架,但未系统考察肿瘤学特异性模型如最小通用肿瘤学数据元素(minimal Common Oncology Data Elements, mCODE)。