综述:脂质组学与代谢组学在人类疾病中的文献计量及文本挖掘分析

时间:2026年5月19日
来源:Frontiers in Physiology

编辑推荐:

引言:脂质组学和代谢组学已成为理解与诊断人类疾病的关键技术,涵盖2型糖尿病、阿尔茨海默病、癌症及肾功能障碍等领域。本研究通过对2004年至2024年的科研成果进行文献计量与文本挖掘分析,结合Scopus数据并采用多数据库交叉验证,系统梳理了该学科的发展演变。方

广告
   X   

引言:脂质组学和代谢组学已成为理解与诊断人类疾病的关键技术,涵盖2型糖尿病、阿尔茨海默病、癌症及肾功能障碍等领域。本研究通过对2004年至2024年的科研成果进行文献计量与文本挖掘分析,结合Scopus数据并采用多数据库交叉验证,系统梳理了该学科的发展演变。方法:共纳入9628篇文献,利用Bibliometrix、Scimago Graphica、OpenRefine及定制化R脚本进行数据整合分析,识别高产期刊、作者、国家及机构,并绘制主题结构与关键词动态图谱。除传统文献计量指标外,本研究融合定量趋势分析与语义概念映射,追踪该领域的方法学与转化演进。为确保结果的稳健性与普适性,同时在Web of Science核心合集(WoSCC)和PubMed中执行等效检索,并通过跨数据库验证评估期刊与国家排名、时间及主题趋势的一致性。结果:该领域呈现快速扩张态势,年增长率达32.6%。美国与中国引领全球产出,欧洲主要国家紧随其后。核心研究主题包括阿尔茨海默病、肥胖及乳腺癌,新兴领域则聚焦于人工智能、多组学整合及孟德尔随机化(Mendelian randomization)。液相色谱-质谱(LC-MS)、气相色谱-质谱(GC-MS)及核磁共振(NMR)等分析技术,连同代谢性疾病,仍是该领域的核心支柱。相比之下,微生物组-COVID-19互作及氧化应激-癌症关联等小众主题代表了新兴的交叉学科桥梁。讨论:总体而言,脂质组学与代谢组学正朝着整合性与计算性框架演进,具备强大的诊断潜力,这凸显了实现临床转化所需的经验证生物标志物、标准化数据流程及开放存储库的必要性。
1 引言
代谢组学系统研究代谢物,即细胞代谢过程中产生、利用或转化的化合物。代谢物(如氨基酸、脂肪酸和碳水化合物)是生物学过程的下游终产物,可作为临床诊断的生物标志物。此外,代谢组学可阐明代谢物的动态变化、组成、相互作用以及对药物、饮食或环境条件等外部干预的反应。这些转变直接影响细胞、组织和生物体液,强调了代谢组学在连接人类生理学、脂质代谢和营养学方面的作用。脂质是一类多样化的代谢物,作为细胞膜的结构成分、能量储存来源以及信号通路的中间体。与基因和蛋白质类似,代谢物也可作为生化活动的特征,便于其与疾病表型相关联。如今,多组学研究深入探索人类脂质组和/或代谢组,以促进个性化治疗的发展,例如通过监测代谢物和脂质水平相对于遗传学或表观遗传学的改变。除了阐明每个基因与其促进人类健康的分子功能之间的协调外,当代研究还旨在阐明营养素、宿主代谢和肠道微生物组之间的关系,以更全面地理解生物过程及其对表型和疾病的影响。
尽管“脂质组学”和“代谢组学”这两个术语在21世纪初才广为人人知,但定量分析代谢物和化学成分有助于监测患者健康的理念可追溯至数十年前。20世纪初质谱法的出现,加上气相色谱(GC)和液相色谱(LC)等分离技术的发展,使得研究人员能够分析呼吸和尿液中的挥发物。脂质组学和代谢组学在疾病诊断中的相关性日益增加。特定代谢物(包括异亮氨酸、亮氨酸、缬氨酸、酪氨酸和苯丙氨酸)在2型糖尿病发病前即与胰岛素抵抗和β细胞功能相关。脂质在疾病中的作用范围广泛,从阿尔茨海默病血浆脂质组的失调,到利用质谱(MS)加速前列腺癌诊断的新研究成果,再到改善肾功能的诊断与预防。此外,研究人员还调查了COVID-19患者的脂质组学和代谢组学特征,显示尽管存在临床异质性,但与健康对照组相比,患者始终表现出独特的代谢谱。托珠单抗治疗前后的分析显示这些改变部分逆转,表明脂质组学和代谢组学分析可能有助于监测治疗效果。
文献计量学研究对于监测一个领域的研究增长至关重要。这类研究能够分析和预测趋势,包括估计特定研究领域的时间跨度和参与者。现有文献的初步分析表明,尚无研究全面审视其在各类疾病中的概念和转化演变。近期虽有研究基于数据挖掘描绘了2003年至2024年脂质组学的研究格局,但未涉及诊断维度或与代谢组学的跨组学融合。相比之下,本研究联合考察脂质组学与代谢组学,旨在捕捉其概念趋同、研究互联性及诊断转化路径。
2 材料与方法
2.1 数据来源与检索策略
本研究以Scopus为主要数据源,因其对健康和生物医学科学的高质量文献覆盖广泛。检索于2025年2月8日进行,限定文献关注脂质组学和代谢组学在人类疾病相关背景下的作用。检索策略旨在获取专注于人类生物医学研究的原创性文章,排除基于动物或植物模型及非生物医学学科的出版物,仅纳入2004年至2024年间发表的英文文献。检索共获得9728条记录,构成后续文献计量分析的主要数据集。
2.2 数据筛选
使用Bibliometrix包的Biblioshiny界面进行数据筛选,仅保留具有完整书目元数据的记录。初始检索的9728篇文章中,共有9628条记录符合标准并被保留用于后续分析。
2.3 数据协调
文献计量分析需要对书目元数据进行初步协调,以解决不一致性问题。本研究主要针对作者关键词进行协调,因为这些术语最能捕捉每篇文章的概念内容。采用自动化与手动相结合的协调策略,使用开源工具OpenRefine将不同词形表达的语义等价术语进行统一。首先应用自动聚类方法对相关关键词变体进行分组,随后进行人工检查以防止过度泛化并确保概念准确性。这一过程将同义疾病名称、分析平台和方法论术语合并为标准表示,形成了适用于下游分析的协调关键词数据集。
2.4 数据分析
数据分析结合了Bibliometrix/Biblioshiny、OpenRefine和定制R脚本,以执行绩效分析和科学图谱绘制。开发定制脚本以解决自动文献计量工具的已知局限性,特别是针对作者消歧和国家层面生产力指标。为避免多作者出版物导致国家研究产出虚高,科研产出按文献级别而非作者数量进行量化。使用Scimago Graphica对选定指标进行图形化展示。进行文献级分析以解答与疾病表征和主题焦点相关的问题。分析作者关键词以确定研究最多的疾病,并使用经过整理的疾病词典将其归入更广泛的概念类别。进行时间分析以检查研究重点随时间的推移而发生的变化,包括2020年后与大流行相关的研究的出现。
2.5 多数据库验证
为评估基于Scopus数据集结果的稳健性和全面性,在Web of Science核心合集(WoSCC)和PubMed中进行了额外检索。基于相同关键词、布尔运算符和时间范围(2004-2024)的等效检索策略被调整为适应每个数据库的语法。所有来源均一致应用纳入和排除标准以确保可比性。对于每个补充数据库,应用了相同的通用分析框架,包括元数据完整性验证。关键词协调未进行,因为预计不同数据库之间的索引术语存在差异。分析侧重于总记录数、年度发表趋势以及基于出版物和通讯作者信息的国家层面生产力。跨数据库比较强调概念一致性而非精确的数值吻合。使用年度出版物数量的线性回归分析评估时间趋势的一致性。
3 结果
3.1 概述
3.1.1 主要信息
对9628篇文献的初步分析揭示了脂质组学和代谢组学在疾病诊断中演变的丰富信息。观察到显著的年增长率为32.58%,这与脂质组学和代谢组学在疾病诊断和个性化医疗中加速扩张相一致。文献的平均年龄为5.47年,表明近期出版物激增。合作趋势分析显示,每10篇文章中有3篇(31.38%)源于国际合作,平均每篇出版物有9.91位合著者,反映了该领域高度的多学科性质。
3.1.2 年度科学产出
年度科学产出自2004年以来持续增长,2010年后上升轨迹更为明显。2011年是一个里程碑,当年出版物首次超过100篇。十年后的2021年,出版物超过1000篇。2024年产出达到迄今为止的最高水平。拟合的二阶多项式回归模型调整后的R2值为0.99,表明与观测数据高度吻合。基于模型的预测估计2025年将发表约1535篇论文,但截至2026年4月中旬更新的Scopus数据显示2025年已有1788篇出版物,表明该领域的近期增长可能超出了模型捕捉的趋势。
3.2 来源
根据布拉德福定律,最富产和最有影响力的核心期刊区包括28种来源(占1.48%),共发表了3205篇文献(占33.29%)。高产期刊包括《Scientific Reports》(441篇)、《Metabolites》(329篇)和《Metabolomics》(283篇)。在引用影响力方面,领先的来源是《Journal of Proteome Research》、《PLoS ONE》和《Scientific Reports》。在声望方面,基于CiteScore(CS)、SCImago期刊排名(SJR)和每篇论文源标准化影响(SNIP),顶级期刊是《eBiomedicine》、《Journal of Lipid Research》和《Journal of Clinical Endocrinology and Metabolism》。
3.3 贡献者
3.3.1 作者
徐国旺(中国科学院大连化学物理研究所)是最高产的作者,在发文量、h指数、g指数和m指数方面均处于领先地位。Clary B. Clish虽然发文量排名第九,但在总被引频次方面位居首位。对这十位作者的深入分析显示,他们的研究关键词频繁提及阿尔茨海默病和心血管疾病,突显了其贡献的临床相关性和主题焦点。
3.3.2 所属机构
贡献最大的机构包括哈佛大学医学院、中国科学院、中华人民共和国教育部、伦敦帝国理工学院等。
3.3.3 国家
美国和中国是发表文献最多的两个国家。芬兰、瑞典和丹麦是合作程度最高的国家。除非洲外,各大洲均有代表。
3.4 文献分析
3.4.1 全球被引频次最高的文献
被引频次最高的研究是描述人类代谢组数据库(HMDB)作为人类代谢组研究标准参考资源的文献。第三大被引研究“代谢物谱与患糖尿病风险”对2422名血糖正常个体进行了12年随访,发现五种支链和芳香族氨基酸与糖尿病发病显著相关。其他高被引文献涵盖了前列腺癌、炎症性肠病、COVID-19等多个疾病领域。
3.4.2 高频词汇与词汇动态
前十位的作者关键词依次为:代谢组学、生物标志物、脂质组学、质谱、核磁共振、代谢物、蛋白质组学、代谢组、气相色谱-质谱。按疾病统计,阿尔茨海默病、肥胖、乳腺癌、COVID-19和代谢综合征位列前茅。趋势分析显示,孟德尔随机化和机器学习算法的应用激增。疾病组群动态显示,传染病自2020年起更为频繁,癌症和代谢内分泌疾病持续占据主导地位。
3.5 概念结构
3.5.1 网络方法:作者关键词共现网络
共识别出多个主题簇:红色簇受代谢组学、生物标志物和核磁共振主导;蓝色簇以脂质组学、质谱和磷脂为特征;绿色簇聚焦于代谢组、微生物组和肠道微生物组;紫色簇以炎症和氧化应激为中心;橙色簇与氨基酸、肥胖、胰岛素抵抗和多囊卵巢综合征相关;棕色簇与COVID-19相关;粉色簇与炎症性肠病相关。
3.5.2 网络方法:主题地图
在利基主题中,微生物组、肠道微生物组与SARS-CoV-2之间的关系吸引了大量关注。氧化应激与癌症的关联也是肿瘤学的重要课题。炎症与鞘脂类共同出现,表明了免疫代谢领域的重要研究方向。基础主题包括方法论途径(NMR、蛋白质组学、GC-MS、LC-MS等)以及与代谢性疾病(代谢综合征、胰岛素抵抗、2型糖尿病、肥胖)的关系。
3.5.3 网络方法:主题演化图
在方法学方面,2004年至2010年强调磁共振波谱和质谱等经典分析技术;2011年至2015年,LC-MS等更具体的方法巩固了该领域的技术基础;2016年至2024年,这些方法主要作为交叉工具持续存在,而更广泛的概念方法日益突出。疾病重点也从肥胖、癌症和心血管疾病扩展到类风湿性关节炎等更具特异性或免疫相关疾病,最终转向更具整合性的视角。
3.6 结果的多数据库验证
在WoSCC和PubMed中进行的等效检索分别产生了7333篇和5096篇出版物。尽管绝对数量因数据库覆盖范围而异,但三个数据库的年度出版物时间趋势高度一致,决定系数(R2)分别为0.992(Scopus vs WoSCC)和0.995(Scopus vs PubMed)。高产期刊、国家排名及趋势主题在不同数据库中均保持一致。
4 讨论
4.1 绩效分析
32.58%的年增长率证实了脂质组学和代谢组学作为诊断工具的迅速崛起。美国和中国在发文量上占主导地位,国际合作比例高达31.38%,平均每位作者9.91人,凸显了该领域固有的多学科和全球性质。然而,研究产出在地理上高度集中,反映了先进分析基础设施、专业培训和持续研究资金获取方面的结构性差异。
4.2 科学图谱
利用网络方法,识别了该领域的主要主题领域和趋势。基础主题仍然是方法学技术(LC-MS、GC-MS、NMR)和代谢性疾病(糖尿病、肥胖、代谢综合征)。利基主题包括微生物组-COVID-19、炎症与鞘脂类、氧化应激和癌症。新兴主题包括机器学习、孟德尔随机化和多组学整合,标志着该领域正从疾病特异性方法转向更广泛的交叉框架。
4.2.1 机器学习
机器学习(ML)是人工智能的一个分支,指无需显式编程即可从数据中学习的算法。监督学习使用标记数据集训练预测模型,无监督学习识别未标记数据中的模式或亚群,深度学习依赖多层神经网络处理复杂关系。临床转化需要可解释的人工智能(XAI)方法来确保透明度。
4.2.2 孟德尔随机化
孟德尔随机化是一种利用遗传变异作为工具变量来推断可改变暴露与结果之间因果关系的方法论框架。其核心假设包括工具变量与暴露强相关、独立于混杂因素、且仅通过暴露影响结果。
4.2.3 多组学整合
代谢组学与基因组、转录组和蛋白质组共同构成了系统生物学的基石。多组学数据的整合为精准医疗提供了依据,能够评估个体疾病风险、检测早期临床前状态并启动预防策略。
4.3 优势与局限性
本研究的优势在于其整合与比较的范围,采用了脂质组学-代谢组学联合框架,揭示了单组学分析中不易观察到的跨组学趋同模式。广泛的时限覆盖、严谨的数据清洗流程以及多数据库验证增强了结果的稳健性。局限性在于主要依赖Scopus数据库,可能存在索引偏差;关键词协调虽经处理但仍可能存在细微偏差;且Scopus不支持导出引文参考文献,限制了共被引网络等深入分析。
4.4 启示与未来方向
该领域正朝着多组学整合、人工智能与机器学习应用以及微生物组-代谢-脑轴探索的方向发展。未来的进展将取决于数据标准化的持续推进、大型国际队列的建立以及临床医生、生物信息学家和系统生物学家之间持续的跨学科合作。

生物通微信公众号
微信
新浪微博


生物通 版权所有