综述：机器学习算法在免疫系统疾病新型生物标志物识别中的应用

时间：2026年1月26日

来源：Advances in Biomarker Sciences and Technology

编辑推荐：

这篇综述系统阐述了机器学习（ML）在免疫系统疾病新型生物标志物发现中的变革性作用。文章详细解析了监督学习（如随机森林、支持向量机）、无监督学习（如聚类、PCA、t-SNE）和半监督学习等ML方法如何从高通量数据中识别复杂模式，并结合ELISA、Western blotting、PCR等传统实验技术验证生物标志物。通过银屑病、系统性红斑狼疮（SLE）、类风湿关节炎（RA）等案例，展现了ML在提高诊断精度、实现个性化医疗方面的巨大潜力，同时讨论了算法验证与临床整合等挑战。

机器学习算法在免疫系统疾病新型生物标志物识别中的应用

引言

免疫系统疾病因其病因多样性和早期症状非特异性，给临床诊断带来巨大挑战。早期诊断对于改善患者预后、降低医疗成本至关重要，而生物标志物在其中扮演着核心角色。然而，传统生物标志物发现方法在灵敏度、可扩展性和复杂性方面存在局限。机器学习（ML）算法通过分析高维数据集，能够识别传统统计方法难以发现的复杂模式，为免疫系统疾病的生物标志物发现带来了革命性突破。

机器学习方法概述

机器学习使计算机能够通过经验改进特定任务的性能。根据学习方式的不同，ML算法主要分为监督学习、无监督学习、半监督学习和强化学习四大类。

监督学习使用标记数据训练模型，适用于分类和回归任务。例如，利用带有疾病标签的生物标志物数据集，可以训练模型预测新样本的疾病状态。常见的算法包括支持向量机（SVM）、随机森林（RF）和最小绝对收缩和选择算子（LASSO）。

无监督学习不依赖预定义标签，专注于发现数据中的内在结构和模式。聚类和降维是其主要应用方向。主成分分析（PCA）、t分布随机邻域嵌入（t-SNE）和均匀流形近似与投影（UMAP）等降维技术能够将复杂的高维数据投影到低维空间，便于可视化和分析。

半监督学习结合了标记和未标记数据的优势，在标记数据有限的情况下尤其有用。强化学习则通过与环境交互获得的反馈来优化决策过程。

生物标志物发现的实验技术

生物标志物是指示机体生理或病理状态的可测量指标，包括基因、蛋白质、代谢途径等。传统的生物标志物识别技术包括酶联免疫吸附试验（ELISA）、蛋白质印迹、聚合酶链式反应（PCR）和免疫组织化学（IHC）。

ELISA虽然具有高灵敏度和特异性，但其检测灵敏度有限（≥1 pM），难以检测疾病早期阶段的微量生物标志物。蛋白质印迹需要特异性一抗，且技术难度大、成本高。PCR能够指数级扩增目标DNA序列，但对低丰度靶标的检测能力有限，且需要预先了解靶序列。IHC结果受多种因素影响，存在较大的解释偏倚。

这些传统技术产生的数据为ML算法提供了必要的输入，ML通过分析模式来识别免疫系统疾病的潜在生物标志物。

机器学习在免疫学生物标志物发现中的应用

在组学尺度上识别生物标志物对传统统计方法构成了挑战，而ML已成为分析大型数据集、识别模式、预测结果和进行群体分类的强大工具。

监督学习模型的应用

在银屑病研究中，研究人员结合单细胞RNA测序（scRNA-seq）和三种ML算法（LASSO、RF、SVM-RFE），分析了银屑病皮损和正常皮肤组织样本，成功鉴定出FABP5和KLRB1两个基因作为稳健的诊断生物标志物。这些生物标志物在银屑病皮损中显著上调，并通过免疫组织化学、PCR和免疫荧光得到了实验验证。

对于系统性红斑狼疮（SLE），研究团队通过整合基因表达谱和线粒体相关基因（MRGs），使用RF、SVM和LASSO等算法，识别出FAM210B、SCO2、LYRM7、IFI27和MSRB2等枢纽基因，这些基因在区分SLE患者与健康对照方面表现出高诊断准确性。

在接触性皮炎研究中，通过转录组分析和ML技术，研究人员发现了28个能够区分过敏性接触性皮炎（ACD）和刺激性接触性皮炎（ICD）的基因集。遗传算法特征选择和RF分类鉴定出CD47、BATF、ADAM8、IL13等ACD相关基因，以及MELK、CDK1、RRM2等ICD相关基因。

混合学习模型的创新

混合学习方法结合了监督和无监督方法的优势，在多种疾病的生物标志物发现中展现出强大潜力。

在银屑病和特应性皮炎（AD）研究中，LASSO和SVM-RFE算法结合CIBERSORT免疫细胞分型，鉴定出UGGT1、MMP9、CCNE1和ARHGEF28等关键基因，这些基因在银屑病皮损中呈现特异性表达模式。

对于类风湿关节炎（RA），研究人员通过整合血液和滑膜组织的转录组数据集，应用特征选择和RF模型，确定了53个潜在的RA生物标志物。基于13个核心基因表达的RA评分系统，在区分RA与骨关节炎和监测治疗反应方面表现出良好性能。

在哮喘诊断方面，马哈拉诺比斯-田口系统（MTS）利用常规血液生物标志物数据（如血小板分布宽度PDW、平均血小板体积MPV、白细胞计数WBC等），实现了高达94.15%的诊断准确率。另一项研究通过SVM-RFE和LASSO回归，识别出BCL3、S100A14和DDIT4作为重度哮喘的潜在生物标志物。

多发性硬化症（MS）研究中，研究人员结合无监督的拓扑保持自组织特征映射（ESOM）和监督的RF算法，从血清脂质组学数据中鉴定出8种关键脂质标志物（包括神经酰胺、溶血磷脂酸、前列腺素等），在区分MS患者与健康对照方面达到约95%的准确率。

在糖尿病（DM）研究中，文本挖掘和基因表达分析结合决策树、RF等ML算法，发现HLA-DQB1是早期糖尿病检测的关键生物标志物。特应性皮炎研究则通过整合转录组和微生物组数据，开发出具有高预测性能的分类器，鉴定出CCL22、Akkermansia等关键生物标志物。

对于强直性脊柱炎（AS），无监督的k均值聚类识别出两种具有显著异质性的患者亚型。LASSO回归和RF算法构建的预测模型，基于C反应蛋白（CRP）、中性粒细胞计数（NEU）和单核细胞计数（MONO）等指标，达到了0.983的曲线下面积（AUC）。

结论与展望

机器学习方法为免疫系统疾病的生物标志物发现提供了强大而有效的框架，特别是在处理高维生物数据时表现出显著优势。各种ML技术在不同类型的生物数据和疾病应用中各具特色：监督学习方法如SVM和SVM-RFE在基因表达和转录组数据中表现优异；集成模型如RF适用于cfDNA和多组学数据；无监督技术如SOM和k均值聚类有利于脂质组学等复杂数据集中的亚型发现；混合方法在多模态数据和重叠疾病表型中显示出独特价值。

未来研究应致力于提高ML技术的鲁棒性、可扩展性和临床适用性。将多组学数据整合到ML流程中，结合可解释人工智能（XAI）的发展，将有助于弥合复杂算法与临床实践之间的差距，最终实现免疫系统疾病的精准诊断和治疗。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部