综述：基于心电图信号的非侵入性糖尿病预测人工智能方法：系统性综述

时间：2026年2月4日

来源：Computer Methods and Programs in Biomedicine

编辑推荐：

本综述系统评估了人工智能（AI）在心电图（ECG）分析中用于糖尿病及糖尿病前期非侵入性预测的应用。文章指出，尽管现有机器学习（ML）与深度学习（DL）模型在内部验证中展现出高准确率（>90%），但普遍存在研究样本量小、缺乏外部验证、方法学标准化不足以及忽略农村和服务不足人群等关键局限。综述强调了ECG作为一种低成本、易获取工具的潜力，并为未来研究在提升模型泛化性、可重复性及公平性方面指明了方向。

引言

糖尿病是一种以血糖水平持续升高为特征的慢性代谢性疾病，是全球重大的公共卫生挑战。传统的筛查方法，如空腹血糖、口服葡萄糖耐量试验和糖化血红蛋白（HbA1_c）检测，虽然有效，但具有侵入性、耗时且在农村或资源有限地区难以普及。这导致全球有大量糖尿病患者未被诊断。因此，开发低成本、非侵入性、可扩展的早期检测技术至关重要。在各种被探索的技术中，心电图（ECG）因其广泛使用和非侵入性特点，成为一个极具前景的工具。其理论基础在于，糖尿病患者常并发心血管自主神经病变（CAN），这会引|起心率变异性（HRV）降低、QT间期延长等可被ECG捕捉的生理变化。人工智能（AI），特别是机器学习（ML）和深度学习（DL），能够从大规模ECG数据中自动学习这些细微的模式，为糖尿病早期检测提供了强大的解决方案。

方法与研究概览

本综述严格遵循PRISMA 2020指南，对PubMed、Embase等多个数据库进行了系统性文献检索，最终纳入了25项符合标准的研究。这些研究发表于2011年至2024年间，地理分布广泛，包括印度、中国、美国、韩国等多个国家。大多数研究的主要目标是评估ML和DL模型利用ECG信号预测或分类糖尿病及糖尿病前期的可行性和性能。

在数据方面，研究使用的数据源各异，包括医院ECG记录、电子健康记录（EHR）、可穿戴设备以及研究数据集。样本规模差异巨大，从最少24名参与者到超过19万名参与者不等。然而，绝大多数研究依赖于单中心、横断面的小规模数据集，这限制了研究结果的普遍适用性。ECG信号的配置也各不相同，多数研究使用单导联信号，部分研究使用了标准的12导联甚至高密度（如98导联）ECG。

数据预处理与特征工程的多样性

为确保ECG信号质量并满足模型输入要求，各项研究采用了多样化的预处理流程。常见的步骤包括使用各种滤波器（如低通、高通、带阻）来消除噪声和基线漂移，以及使用Pan-Tompkins算法进行R波峰值检测以分割心动周期。数据标准化（如Min-Max缩放、Z-score标准化）和异常值处理也被广泛采用。此外，信号分解技术，如经验模态分解（EMD）和离散小波变换（DWT），被用于提取时频特征。滑动窗口分割是处理时间序列数据的常用方法，窗口长度从5秒到数分钟不等。值得注意的是，一些端到端的DL模型尝试绕过复杂的手工特征工程，直接从原始或轻微处理的ECG信号中学习特征。

从ECG信号中提取的特征种类繁多，主要可分为以下几类：

•
时域特征：如全部正常窦性心搏间期（NN间期）的标准差（SDNN）、相邻NN间期差值的均方根（RMSSD）、相邻NN间期差值大于50毫秒的个数（NN50）及其百分比（pNN50）等HRV参数。
•
频域特征：如低频（LF）、高频（HF）、极低频（VLF）功率以及LF/HF比值等。
•
非线性特征：如近似熵、样本熵、去趋势波动分析（DFA）标度指数（α₁, α₂）、庞加莱图指标（SD1, SD2）等。
•
形态学特征：基于ECG波形（如P波、QRS波群、T波）的间期和幅度。
•
图像特征：将ECG信号转换为频谱图或利用方向梯度直方图（HOG）等方法提取特征。

尽管特征种类丰富，但各研究在特征选择策略上缺乏一致性，许多研究未采用正式的特征筛选方法，而是依赖模型性能来间接评估特征效用。

人工智能模型架构与性能

纳入综述的研究探索了多种AI模型架构。传统机器学习方法包括决策树（DT）、支持向量机（SVM）、相关向量机（RVM）和高斯过程分类器（GPC）等。集成学习方法如AdaBoost、极限梯度提升（XGBoost）和类别梯度提升（CatBoost）也表现出色。在深度学习领域，模型更为多样，包括全连接深度神经网络（DNN）、自动机器学习框架（如AutoKeras）、卷积神经网络（CNN）、长短期记忆网络（LSTM）以及CNN-LSTM、CNN-SVM等混合模型。一些研究还使用了先进的CNN架构，如DenseNet161。

在模型性能方面，大多数研究报告的内部测试集准确率很高（>90%），灵敏度、特异性等指标也相当优异。例如，一些模型达到了97%以上的准确率和98%以上的召回率。然而，这些高性能结果主要基于内部验证，且数据划分策略（如训练集/测试集比例）不尽相同，最常用的是80/20划分。一个突出的问题是，绝大多数研究缺乏真正的外部验证（即在独立、未见过的数据集上测试模型），仅有一项研究在外部验证集上获得了76.2%的受试者工作特征曲线下面积（AUROC）。此外，部分研究可能存在受试者层面数据泄露的风险，这可能导致性能估计过于乐观。模型的可解释性也是一个被普遍忽视的方面，大多数深度学习模型缺乏对预测结果的解释。

挑战、局限与未来方向

尽管前景广阔，当前基于AI的ECG糖尿病预测研究仍面临若干重大挑战和局限性：

1.
泛化性与验证不足：小样本、单中心、横断面研究设计以及外部验证的缺乏，严重制约了模型在更广泛人群中的适用性和可靠性。
2.
方法与报告缺乏标准化：数据预处理、特征提取和模型评估方法各异，导致研究间难以直接比较，也影响了结果的可重复性。
3.
透明性与可重复性：仅有一项研究提供了开源代码，仅一项研究使用了完全开放的数据集。代码和数据的缺失阻碍了独立验证和进一步研究。
4.
人群多样性不足：没有研究专门针对农村或服务不足人群进行模型开发或验证，且普遍缺乏按年龄、性别、种族/民族等亚组进行的性能分析，这引发了模型公平性的担忧。
5.
共病因素干扰：大多数研究仅比较糖尿病患者与健康对照者的ECG，未考虑高血压、冠心病等常见心血管共病对ECG模式的影响，这会影响模型在真实临床环境中的特异性。

为推进该领域发展，未来研究应优先关注以下战略方向：建立大规模、多样化、纵向随访的数据集；推行标准化的预处理和特征工程流程；强制进行严格的外部验证和亚组性能分析；将合并症纳入模型开发与测试；增强模型的可解释性（如利用SHAP、LIME等可解释AI技术）；重点关注在农村和资源有限环境下的部署可行性；以及大力倡导开源科学实践，共享代码和数据。

结论

综上所述，人工智能驱动的ECG分析为糖尿病的非侵入性筛查提供了一条充满希望的道路。现有研究已证明了其技术可行性，但在迈向临床广泛应用之前，必须解决在泛化性、标准化、公平性和透明度方面的关键局限。通过优先考虑严谨的验证、多样化的数据收集、可解释的模型设计以及面向资源有限环境的部署策略，基于ECG的AI工具有潜力发展成为可扩展、公平且有效的糖尿病早期检测和慢性病管理解决方案。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部