癌症数据协调至观测性医疗结果合作组织通用数据模型的流程研究

时间：2026年5月23日

来源：Scientific Reports

编辑推荐：

癌症数据本质上复杂且异质性高，源于格式、术语和结构各异的不同数据源，导致显著的互操作性挑战。观测性医疗结果合作组织（Observational Medical Outcomes Partnership, OMOP）通用数据模型（Common Data Mode

癌症数据本质上复杂且异质性高，源于格式、术语和结构各异的不同数据源，导致显著的互操作性挑战。观测性医疗结果合作组织（Observational Medical Outcomes Partnership, OMOP）通用数据模型（Common Data Model, CDM）由观测性健康数据科学与信息学（Observational Health Data Sciences and Informatics, OHDSI）倡议提供，已被采纳为缓解数据碎片化和增强证据生成的标准化框架。然而，将癌症数据协调至OMOP CDM仍具挑战性，原因在于数据粒度细、非结构化格式以及缺乏癌症特异性协调方法。该研究开发了一种将癌症数据整合至OMOP CDM的通用协调流程，通过审视现有方法并识别模式与挑战。遵循设计科学研究方法学（Design Science Research Methodology, DSRM），该流程以文献为基础并结合专家反馈进行完善。所提出的流程包含五个步骤：启动、需求分析、设计规划、技术实施和维护。每个步骤均纳入癌症特异性考量。其解决了包括源数据质量与复杂性、映射问题及维护等挑战，支持肿瘤学研究和不断演进的技术发展。

该研究旨在解决癌症数据协调至OMOP CDM过程中缺乏标准化方法的突出问题，为肿瘤学领域的数据整合提供结构化框架，相关成果发表于《Scientific Reports》。

研究背景方面，癌症数据具有高度复杂性和异质性，需要对肿瘤组织学、生物标志物、疾病进展和多模式治疗方案进行详细表征。这些数据源自电子健康档案（Electronic Health Records, EHRs）、保险理赔和癌症登记系统等多种来源，各来源使用不同的格式、术语和结构，造成严重的互操作性障碍。为减少数据碎片化并增强真实世界证据（Real-World Evidence, RWE）生成，研究人员已采用OMOP CDM作为癌症数据整合的标准化框架。然而，癌症数据协调仍面临三大关键挑战：一是癌症需要高度详细的特征描述，包括肿瘤组织学、生物标志物、基因组变异、疾病分期、复杂治疗路径和纵向疾病进展，捕捉这种复杂性通常需要将低层级临床事件抽象为更高层级的患者时段表征；二是关键的癌症相关信息如癌症分期和生物标志物数据常存储于自由文本临床记录中，需要额外的人工整理和使用高级自然语言处理（Natural Language Processing, NLP）技术进行提取；三是现有框架如OHDSI四项最佳实践和Henke等人提出的九步协调流程虽提供了一般性指导，但未能充分解决肿瘤学数据整合的独特复杂性，特别是非结构化文本处理和肿瘤学特异性映射问题。这些局限性促使研究人员开发临时性、数据集特异性的协调策略，降低了可重复性和可扩展性。

研究人员开展了以下研究：通过系统文献回顾识别现有癌症数据协调至OMOP CDM的方法、模式与挑战，并基于设计科学研究方法学开发一套通用的癌症数据协调流程。该流程经过三轮迭代完善，包括学术专家评审和领域专家（10人完成访谈、8人完成问卷）的反馈。研究得出以下结论：所提出的五步协调流程（启动、需求分析、设计规划、技术实施、维护）能够有效指导癌症数据的标准化整合，专家评估显示该流程在易用性（平均分4.43）、完整性（4.43）、效率性（4.71）和通用性（4.29）方面均获认可。

该研究的重要意义在于：填补了癌症特异性数据协调流程的空白，为肿瘤学研究提供了可重复、可扩展的标准化方法，支持观测性分析、真实世界证据生成和联邦式分析，促进全球范围内癌症数据的互操作性与可比性。

该研究采用的关键技术方法主要包括：基于PRISMA指南的系统文献回顾（检索6个学术数据库、OHDSI网站灰色文献及Google Scholar）、归纳式主题分析与演绎式内容分析相结合的双轨分析方法、设计科学研究方法学（DSRM）指导下的迭代式流程开发与评估、以及混合方法专家评估（半结构化访谈与Likert量表问卷）。研究未涉及特定样本队列。

研究结果部分以文献回顾为首个小标题，通过对20篇纳入文献的分析得出以下结论：通过系统检索与筛选（455篇学术文献、1335篇灰色文献-source原文为1,335 G，此处按上下文理解为灰色文献数量），发现学术文献与灰色文献各占45%和55%；两个主导的预期用例被识别——约30%研究支持临床和转化肿瘤学研究中的观测性和真实世界数据驱动活动，70%支持肿瘤学人群健康研究和分析；癌症类型覆盖方面，50%文献聚焦单一癌种，45%讨论泛癌种数据；数据来源方面，50%研究使用单一数据源，癌症登记系统占30.3%，EHRs占27.27%；80%的综述研究引用了OHDSI工具，Athena使用最广泛（15.69%）；70%的研究使用欧洲地区临床数据。第二个小标题为协调中的挑战，识别出三大主题挑战：源数据质量与复杂性、映射问题、维护问题。第三个小标题为协调流程模式，基于文献识别出五个关键步骤：启动、需求分析、设计规划、技术实施、维护。评估部分显示该流程经三轮反馈迭代优化，在四项评估标准中获得较高评分，专家认可其逻辑性、清晰度和实用性。

讨论部分，研究人员首先指出文献回顾揭示了癌症数据协调研究中的显著空白，仅9篇学术论文专门论述向OMOP CDM的转化。大多数研究依赖癌症登记系统和EHRs，而患者报告结局（Patient-Reported Outcomes, PROs）和生物样本库数据使用较少。地理代表性方面，70%的纳入文章使用欧洲临床数据，来自美洲和亚洲的较少，这可能反映了出版物模式和区域性协调倡议的支持，而非全球 uptake 的差异。

研究人员强调了多组学、医学影像和新兴数据模型协调方面的重大空白。癌症数据本质上是多模态的，整合多组学层面（基因组学、转录组学、蛋白质组学、表观基因组学）、影像组学、影像基因组学等，引入大量整合挑战。尽管OHDSI社区正在积极开发多组学、医学影像、PROs和FHIR到OMOP转换工具的扩展，这些工作仍处于积极开发阶段。此外，该研究还发现，虽然考虑了FHIR和openEHR等互操作性框架，但未系统考察肿瘤学特异性模型如最小通用肿瘤学数据元素（minimal Common Oncology Data Elements, mCODE）。

在与现有方法学的比较中，研究人员发现所提出的流程与OHDSI的ETL最佳实践及Henke等人的框架在结构上总体对齐，但存在两个关键分歧：明确的"启动"和"维护"步骤，这两个步骤在现有框架中未明确涉及。该流程引入了三个相互依存的基础方面：数据、团队和基础设施，特别强调基础设施作为每一步的组成部分。在数据方面，区分了数据信息层和语义词汇与句法结构层，突出了理解源特征对于准确和情境感知协调的重要性。该流程还强调了全面文档记录作为核心原则的重要性，以确保透明度、可重复性、可追溯性和长期可持续性。

研究所提出的协调流程考虑了实用性，不仅基于文献回顾中识别的模式和挑战，还通过具有癌症协调实践经验的领域专家反馈进行了完善。例如，在技术实施步骤中引入"数据预处理与整理"活动，以解决信息丢失、非结构化数据人工整理以及非标准词汇、分子数据和PROs处理等反复出现的挑战。专家反馈还促使引入了一些在先前的研究中不常报告的实践要素，包括团队培训、熟悉OHDSI生态系统、识别类似项目以确保可扩展的证据生成，以及早期考虑机构法规等。

研究结论部分，该研究通过综合学术和灰色文献，结合领域专家反馈，开发了一种针对癌症数据协调至OMOP CDM的通用五步流程。该流程通过明确的基础方面（团队、基础设施、分层数据考量）、核心原则（迭代、文档记录）和癌症特异性适应（如Episode表和Episode_event表的使用、OncoRegimenFinder和ARTEMIS等专业工具），解决了现有框架在癌症数据整合方面的不足。该流程的这项研究为增强肿瘤学研究的可重复性、加速真实世界证据生成以及支持联邦式分析提供了标准化基础，同时通过其维护步骤确保了在快速发展的技术和研究环境中的长期适应性和可持续性。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部