综述:公共生物医学数据的资源与应用

时间:2026年5月22日
来源:Frontiers in Bioinformatics

编辑推荐:

本综述对公共生物医学数据库及其在生物医学研究中的应用进行了代表性概述。研究人员将这些资源依据主导数据类型划分为四大类:公共卫生数据库、临床数据库、综合队列数据库和组学数据库。针对每一类别,研究人员简要总结了其主要特征与访问途径。在应用层面,研究人员概述了这些资

广告
   X   

本综述对公共生物医学数据库及其在生物医学研究中的应用进行了代表性概述。研究人员将这些资源依据主导数据类型划分为四大类:公共卫生数据库、临床数据库、综合队列数据库和组学数据库。针对每一类别,研究人员简要总结了其主要特征与访问途径。在应用层面,研究人员概述了这些资源在人群健康监测、临床研究、预测建模和生物标志物发现中的主要用途。在方法学层面,研究人员总结了使用这些资源时两种互补的研究策略,即假设驱动型研究和数据驱动型研究。研究人员进一步讨论了使用公共生物医学数据库面临的主要挑战,并强调了严谨、规范使用的基本原则。总体而言,公共生物医学数据库已成为现代研究的重要基础设施。本综述旨在为研究人员更高效、可靠地利用这些资源开展科学探索与临床转化提供参考框架。
1 引言
随着计算机软件、硬件及互联网技术的持续进步,全球数据的规模与产生速度呈前所未有的增长趋势。大数据已成为数字时代的重要特征,并对医疗保健等诸多领域产生深远影响。过去几十年间,受电子健康记录信息化、医学影像与传感设备普及、高通量组学技术迭代以及跨机构协作研究常态化的推动,生物医学数据的体量与复杂度加速提升。大数据通常具备4V特征,即体量(Volume)、多样性(Variety)、速度(Velocity)和真实性(Veracity)。在生物医学领域,这些特征尤为突出:数据既包含结构化与非结构化文本、图像及信号数据,又表现出大规模生成与高更新频率的特点。此外,生物医学数据通常基于特定研究或医疗方案收集,结构相对规范,但同时存在获取难度大、来源异质性强及质量差异显著等问题。规模与复杂度的双重挑战对生物医学研究提出了更高要求。在此背景下,随着信息技术的不断进步,生物医学数据库持续发展完善,其开放共享趋势逐步形成,成为推动科研合作与知识发现的重要基础设施。开放生物医学数据库的发展代表了变革性进展,通过结构化平台管理与传播大规模数据集,极大降低了数据获取门槛,为跨学科研究人员在不承担原始数据采集高额成本的前提下开展高影响力研究创造了条件。
本综述旨在为希望在生物医学研究中利用这些资源的科研人员提供代表性公共生物医学数据库的实用概览。为确保纳入数据库的代表性,研究人员结合定向Web of Science检索、官方数据库网站与门户、数据库描述性论文、方法学综述及关键资源交叉引用进行筛选。检索词涵盖通用资源相关术语(如database、registry、repository、portal、biobank、cohort)以及公共卫生、临床和组学数据的类别特异性术语。文献检索与网站核查更新至2025年8月26日。纳入标准包括:(i)具备官方网站或门户,且有充分文档可核实其范围、内容与访问条件;(ii)可公开访问或通过明确定义的研究访问路径获取,并在数据库描述性论文、方法学综述或其他可引用的生物医学来源中有记录。本综述所选数据库旨在对不同数据类型与研究场景下的主要公共生物医学数据库进行代表性而非穷尽性概述,从而为生物医学研究中合理选择与使用这些资源提供结构化参考。
2 公共生物医学数据库的分类与概述
本综述根据主导数据类型与主要研究场景,将公共可用的生物医学数据库分为四类:公共卫生数据库、临床数据库、综合队列数据库和组学数据库,以提供更清晰的数据库选择框架。
2.1 公共卫生数据库
公共卫生数据库主要指捕获人群健康状况及相关行为、环境与社会保障因素的资源,数据主要来源于健康调查、监测系统与疾病负担估算项目。代表性资源包括美国全国健康与营养检查调查(NHANES)、韩国全国健康与营养检查调查(KNHANES)、中国健康与营养调查(CHNS)、中国老年健康影响因素跟踪调查(CLHLS)、健康与退休研究(HRS)、英国老龄化纵向研究(ELSA)等老龄化队列系列、美国中年发展研究(MIDUS)、英国千禧队列研究(MCS)、全球疾病负担研究(GBD)及美国CDC WONDER系统等。这类数据库最适用于人群层面的流行病学与公共卫生分析。针对同一研究问题,不同公共卫生数据库可提供不同分析层面的互补证据:NHANES与KNHANES等全国性调查可用于估算关键健康指标在不同人群中的患病率与分布特征;HRS与ELSA等研究可评估跨国间的模式一致性;GBD等资源则可将研究结果置于更广泛的人群负担与时间趋势背景下。与临床及综合队列数据库相比,公共卫生数据库通常具有更广的代表性与更标准化的非临床因素测量,但临床管理与疾病严重程度相关信息较少。其数据多以结构化格式发布,获取相对容易,通常无需专业技术即可完成下载与初步检索,降低了包括临床医生在内的研究人员的实际访问门槛。
2.2 临床数据库
临床数据库主要指在真实世界医疗场景中常规诊疗过程中产生的患者层面数据,数据主要来源于疾病登记系统、电子健康记录(EHR)及其他带时间戳的临床记录。代表性资源包括监测、流行病学与最终结果数据库(SEER)、国家癌症数据库(NCDB)、癌症影像档案库(TCIA)、重症监护医疗信息集市(MIMIC)、eICU协作研究数据库(eICU-CRD)、国家睡眠研究资源库(NSRR)、阿尔茨海默病神经影像学倡议(ADNI)、开放获取影像研究系列(OASIS)及DeepLesion数据库等。当研究问题需要详细表征诊断、治疗、疾病严重程度、短期结局或临床护理期间的动态生理变化时,临床数据库最为适用。该类别内部异质性较强,资源选择应以研究问题为导向:例如同为癌症登记数据库,SEER基于人群,更适合需要广泛人群代表性的问题;NCDB基于医院,病例数量通常更大。更广泛而言,基于登记的数据库更适合比较不同患者群体的结局及识别与预后相关的因素,而基于EHR的数据集更适合研究住院期间疾病进展、治疗过程与短期结局。与公共卫生数据库相比,临床数据库临床细节更丰富,但代表性常受限于医疗场景、转诊模式或机构范围。访问与技术负担在该类别内也存在差异:基于登记的资源多以结构化文件形式提供,而基于EHR的数据集通常需要更复杂的提取与预处理,有时涉及SQL等关系型数据库查询;波形与影像数据往往需要更专业的技术能力进行处理与分析。
2.3 综合队列数据库
综合队列数据库指对同一参与者随时间推移采集多维个体层面数据的纵向资源,数据主要来源于基线评估、重复随访及后续健康记录关联,部分队列还包含影像或组学数据。代表性资源包括英国生物样本库(UKB)与中国慢性病前瞻性研究(CKB)。当研究问题需要整合同一参与者的多维数据并评估其与后续健康结局的纵向关联时,这类数据库尤为适用。若变量与结局定义在队列间具有足够可比性,不同队列的分析还可帮助评估发现在不同人群中是否一致。在该类别中,数据库选择取决于数据广度与访问框架:例如与CKB相比,UKB提供更广泛的数据类型,包括更全面的遗传、影像及其他组学资源,更适合全表型组关联研究(PheWAS)与暴露组关联研究等大规模数据驱动分析;而CKB在其当前数据共享框架下更侧重于假设驱动型分析。与公共卫生及临床数据库相比,综合队列数据库通常提供更完整的暴露、表型、结局及部分队列影像或组学谱的整合纵向数据,可将多个数据维度与远期健康结局相关联。该类数据库的访问与分析负担也往往更高,通常涉及正式申请、治理审查及付费访问;部分资源(如UKB)要求在安全云环境或受控研究环境中进行分析,而非简单本地下载,提高了研究人员的技术要求。
2.4 组学数据库
组学数据库主要指捕获基因组、转录组、表观基因组、蛋白质组、代谢组及相关分子水平高维数据的资源,数据主要来源于高通量分子分型实验。代表性资源可分为原始测序存档(如序列读段存档SRA、欧洲核苷酸档案库ENA)、通用存储库(如基因表达综合数据库GEO、ArrayExpress)、疾病导向整合多组学资源(如癌症基因组图谱计划TCGA)、参考与注释资源(如1000基因组计划、DNA元件百科全书ENCODE、Roadmap表观基因组学计划、哺乳动物基因组功能注释计划FANTOM、基因型-组织表达项目GTEx)以及蛋白质或代谢物水平的参考资源(如人类蛋白质图谱HPA、人类代谢组数据库HMDB)。数据库选择应依据研究需求:是需要原始序列数据、独立验证、疾病导向整合分析、功能注释与生物学背景,还是下游蛋白质或代谢物水平解读。组学数据库在需要直接分子证据来表征生物学过程或疾病机制的研究问题中尤为重要,也可通过支持机制解释与候选生物标志物或治疗靶点发现,对其他公共生物医学数据库的研究结果形成补充。尽管许多组学资源获取与下载相对便捷,但分析负担通常较重,预处理、标准化、批次校正、特征注释及多平台整合一般需要专业的生物信息学技能。
3 公共生物医学数据库的主要应用
公共生物医学数据库不仅是数据存储库,更已成为生物医学研究不可或缺的资源,其应用主要覆盖人群层面研究、临床研究与分子发现三大领域。
3.1 人群层面流行病学研究与公共卫生应用
公共生物医学数据库广泛用于生成人群层面的公共卫生研究、预防与政策规划证据。首先,GBD等标准化资源通过量化不同疾病、人群、地区和时间维度的发病率、患病率、死亡率、伤残及相关负担指标,支持人群健康监测与负担评估。其次,这类数据库通过将行为、环境、饮食与社会经济因素与健康结局相关联,支持疾病风险因素的识别。第三,老龄化队列与综合队列等纵向数据库可用于考察随时间变化的人群健康、老龄化与疾病轨迹,包括认知衰退、功能变化、疼痛轨迹、下游共病模式及相关改变。
3.2 真实世界临床研究与预测建模
公共生物医学数据库广泛用于生成临床相关证据,补充随机对照试验,支持风险分层,并提升对常规诊疗环境下疾病进程的理解。首先,这类数据库可用于评估治疗方案与临床管理策略在真实世界患者群体中的有效性与安全性。其次,公共生物医学数据库可通过识别与预后相关的因素,开发针对患者群体临床相关结局的预测模型;此类模型还可整合临床、影像及部分场景下的分子特征,以提升预测能力并支持临床表型分型或治疗分层。
3.3 分子证据与转化发现
公共生物医学数据库广泛用于生成分子层面的证据,支持机制导向研究与转化发现。首先,这类数据库可通过将疾病相关基因位点与基因表达等下游分子表型相关联,对基因位点进行功能解读,从而为遗传变异影响疾病易感性的潜在通路提供线索。其次,公共生物医学数据库可通过整合复杂疾病中的基因组、转录组、蛋白质组及相关分子数据,识别与诊断、预后及治疗分层相关的生物标志物与分子亚型。第三,这类数据库可用于优先排序候选治疗靶点并评估其潜在效应。
4 数据利用流程与研究策略
除主要应用外,理解研究人员如何利用公共生物医学数据库解决科学问题同样关键。一般而言,存在两种互补的研究策略:假设驱动型研究与数据驱动型研究。假设驱动型研究始于预先定义的科学、临床或生物学问题,主要用于检验先验知识、评估预期关联或考察生物学上合理的机制。数据驱动型研究则始于复杂数据,主要用于识别模式、生成候选信号或构建预测模型。二者的核心区别在于研究问题的提出方式与结果的解读意图,而非所用数据库或分析方法的复杂程度。假设驱动与数据驱动不应简单等同于传统统计模型与机器学习方法的划分,分析方法本质上是可根据研究问题服务于不同目的的工具。在实践中,这两种策略往往是衔接而非割裂的,数据驱动的发现、结构化评估与生物学解读可作为同一研究周期中的连续阶段。针对不同目的设计的数据库分析,其可支持的结论也不同,因此研究人员应在从公共生物医学数据库得出结论前明确分析的预设角色,确保结果解读与研究设计及分析目标保持一致。
5 公共生物医学数据库使用的挑战与推荐实践
公共生物医学数据库的可用性不断提升极大拓展了研究机会,但可用性并不等同于适用性、有效性或可重复性。
5.1 公共生物医学数据库使用的共性挑战
主要包括:(i)数据库选择受便利性或流行度驱动,而非由明确定义的研究问题引导,表现为基于大型公共数据集的“公式化”出版物快速增长;(ii)对数据库中关联进行过度因果解读,尤其是在无法确立时间顺序且混杂因素无法得到充分控制时;(iii)在同一或重叠数据上同时进行模型开发与评估时,夸大了预测或生物标志物研究的性能;(iv)部分发表结果的外部有效性有限,源于人群偏倚与非代表性样本;(v)发表研究中未充分报告数据库版本、发布日期或预处理步骤,导致可重复性受限;(vi)访问与使用的实际障碍,包括特定国家数据库的语言障碍、下载与处理大规模数据集所需的计算能力与资源,以及临床敏感资源的受控访问程序可能不透明、耗时长或最终无法获批。
5.2 不同类型公共生物医学数据库的方法学挑战
公共卫生数据库中,调查设计信息常被不当纳入分析。NHANES与KNHANES等公共卫生调查采用复杂的分层、多阶段整群抽样,需要使用样本权重、分层与聚类变量;将其视为简单随机抽样数据进行分析会导致估计偏倚、标准误低估与显著性水平夸大。此外,跨波次或跨国分析需要谨慎的同质化处理,否则可能因调查周期合并不当或变量定义与测量框架在不同波次或国家间缺乏足够可比性而产生误导性比较。
临床数据库中,几个方法学问题尤为常见。首先是治疗比较常受疾病严重程度、临床判断与机构实践影响,“指征混杂”是核心关切。其次,临床数据集中的缺失通常具有信息性,实验室检查或影像学检查是否实施本身可能反映临床关注程度,将缺失值视为随机处理会引入偏倚。第三,索引时间或暴露时间定义错误可引入时间相关偏倚(如永恒时间偏倚),扭曲治疗效应或预后的分析结果。
综合队列数据库中,一个常见方法学问题是过度解读大规模探索性分析的结果。由于这类资源支持暴露组、表型组或多模态筛选,当探索性发现未与预设或独立验证分析明确区分时,分析极易产生假阳性与不稳定结果。
组学数据库中,几个方法学问题尤为常见。首先是技术伪影与样本异质性是组学分析中偏倚与解读不确定性的常见来源,批次效应、平台差异、标准化选择与注释差异均可引入系统性偏倚,而组织异质性与细胞组成差异会进一步复杂化解读,尤其在批量数据分析中。其次,高维组学分析易出现过度拟合与不稳定的特征选择,尤其是在测量特征数量远大于样本数量且发现未得到充分验证时。
5.3 公共生物医学数据库严谨规范使用的推荐实践
为提高使用公共生物医学数据库研究的严谨性、可重复性与可解读性,应遵循若干基本原则。
第一,研究人员应根据明确定义的研究问题选择数据库,并明确说明分析是描述性、探索性、预测性,还是旨在支持因果推断。在确定数据库前,研究者应核实数据库能否充分覆盖目标人群、关键变量、测量时间及与问题相关的主要混杂来源。
第二,研究人员应透明且详细地报告数据库与分析流程,包括数据库版本、提取日期、纳排标准、队列构建、变量定义与预处理步骤。使用常规收集健康数据的研究可参考RECORD声明进行报告;组学研究可参考相关最小信息报告标准。
第三,研究人员应选择与研究问题及可用数据结构相匹配的研究设计与分析策略,并使用基于设计与分析的方法来减少偏倚、随机误差与过度解读。实践中,复杂调查数据分析应纳入抽样权重、分层与聚类变量,以解释不等选择概率与多阶段抽样设计,避免偏倚估计与误导性推断。临床数据库的治疗比较应通过研究设计选择(如活动对照或新使用者设计)增强组间可比性,再通过倾向评分方法甚至工具变量方法在选定场景下处理残余混杂。当缺失可能具有信息性时,研究者应明确评估缺失模式,避免默认假定随机缺失,在适当情况下使用多重插补,比较插补结果与完整病例结果,并在不同缺失数据假设下进行敏感性分析。在队列或组学数据的高维分析中,分析流程应预先设定,控制多重检验,处理批次效应与生物异质性,并明确区分探索性分析与验证性分析。
最后,研究人员应通过敏感性分析及可行情况下的独立验证或外部验证来评估稳健性,同时考虑普适性与人群代表性,确保结论不超过底层数据能够合理支持的范围。
6 结论
公共生物医学数据库已成为当代生物医学研究的重要基础设施,支持人群、临床与分子层面的证据生成。其价值不仅在于提升数据可及性与支持跨学科研究,还在于为监测、病因学调查、临床预测与转化发现提供互补证据。然而,开放可用并不自动确保适用性、有效性或可重复性。这些资源的科学价值取决于以问题为导向的数据库选择、恰当的研究设计与分析、透明的报告以及对稳健性与普适性的审慎评估。总体而言,公共生物医学数据库的未来影响力不仅取决于更广泛的访问,还依赖于持续提升方法学严谨性、可重复性与治理水平的持续努力。

生物通微信公众号
微信
新浪微博


生物通 版权所有