人工智能驱动的鼾声模型与可穿戴设备在睡眠呼吸暂停诊断中的多中心验证研究

时间:2026年5月27日
来源:Nature and Science of Sleep

编辑推荐:

摘要背景 睡眠呼吸暂停低通气综合征(SAHS)具有较高患病率,并伴随心血管/脑血管共病。多导睡眠监测(PSG)是诊断金标准,但受限于流程复杂、成本较高及可及性不足;智能可穿戴设备使用便捷,但准确性较低。本研究以多导睡眠监测(PSG)为参照,对一种基于人工智能(

广告
   X   

摘要背景 睡眠呼吸暂停低通气综合征(SAHS)具有较高患病率,并伴随心血管/脑血管共病。多导睡眠监测(PSG)是诊断金标准,但受限于流程复杂、成本较高及可及性不足;智能可穿戴设备使用便捷,但准确性较低。本研究以多导睡眠监测(PSG)为参照,对一种基于人工智能(AI)的鼾声模型进行验证,并比较其与可穿戴设备的诊断性能。

方法 纳入疑似睡眠呼吸暂停低通气综合征(SAHS)的成年受试者(n = 134),均接受整夜多导睡眠监测(PSG),同时记录鼾声音频与可穿戴设备信号。鼾声算法采用短时傅里叶变换(STFT)频谱图,并结合多尺度编码器-注意力-解码器神经网络进行分类。采用相关性分析、组内相关系数(ICC)、Bland–Altman图及受试者工作特征(ROC)分析评估模型性能。分别计算两种模型的准确率、灵敏度、特异度及曲线下面积(AUC)。

结果 疾病严重程度与体重指数(BMI)变化相关(p < 0.001),并与氧饱和度下降相关(p < 0.001)。与可穿戴设备相比,鼾声模型与PSG所得呼吸暂停低通气指数(AHI)具有更强相关性和更高一致性(r = 0.79,ICC = 0.753;可穿戴设备r = 0.68)。尽管鼾声模型持续表现出更高的AUC,尤其在轻度睡眠呼吸暂停低通气综合征(SAHS)中更为明显(AUC = 0.83 vs. 0.72,p = 0.07),但两种方法间差异均未达到统计学显著性(均p > 0.05)。两种模型在重度睡眠呼吸暂停低通气综合征(SAHS)中均表现出优异区分能力(AUC ≥ 0.90)。

结论 人工智能(AI)驱动的鼾声分析模型显示出与可穿戴设备总体相当的性能,并在某些情境下,尤其是在识别轻度睡眠呼吸暂停低通气综合征(SAHS)方面,表现出数值上更优的性能。
该研究发表于《Nature and Science of Sleep》,围绕睡眠呼吸暂停低通气综合征(sleep apnea–hypopnea syndrome,SAHS)的无创筛查与分级诊断问题展开。SAHS是常见的睡眠相关呼吸障碍,其核心病理特征为睡眠过程中反复出现的上气道阻塞,进而导致间歇性低氧血症、睡眠片段化以及日间嗜睡,并与高血压、冠心病、心力衰竭、心房颤动和脑卒中等心脑血管疾病密切相关。既有流行病学资料显示,中国成年人SAHS患病负担较重,因此建立可推广、低负担且具有临床可用性的筛查方法具有明确现实意义。当前,多导睡眠监测(polysomnography,PSG)仍是SAHS诊断金标准,能够综合记录气流、呼吸努力和血氧饱和度等多维生理信号,但其流程复杂、成本较高、资源依赖性强,难以满足大规模筛查需求。相比之下,智能可穿戴设备便于居家使用,但由于缺乏对气流和觉醒事件的直接测量,其诊断精度仍受限制。鼾声作为SAHS最具代表性的临床表现之一,源于上气道内气流湍流和软组织振动,其声学特征可反映气道阻塞的部位与程度。基于这一生理基础,研究人员尝试利用人工智能(AI)对鼾声进行自动识别与量化评估,以探索一种非接触、可扩展的SAHS辅助诊断路径。

研究人员开展的是一项多中心临床验证研究,目的在于利用独立收集的多中心新样本,验证AI驱动鼾声分析模型的诊断效能,并以PSG为参照,直接比较该模型与智能可穿戴设备在SAHS识别及严重程度分层中的表现。结果表明,鼾声模型与PSG导出的呼吸暂停低通气指数(apnea-hypopnea index,AHI)之间具有较强相关性和较好一致性,整体表现优于可穿戴设备;尤其在轻度SAHS识别中,鼾声模型的曲线下面积(AUC)数值更高,提示其在早期或较轻微呼吸异常检测方面具有潜在优势。该研究的重要意义在于,基于普通声学信号的AI模型可能成为介于传统PSG与消费级可穿戴设备之间的有价值工具,为临床前筛查、资源分流和真实世界场景下的无创监测提供支持。

方法概括:本研究纳入来自复旦大学附属眼耳鼻喉科医院耳鼻喉研究院、深圳市第二人民医院、厦门大学附属第一医院3个中心的疑似SAHS成年患者。所有受试者接受整夜PSG,并同步采集床旁鼾声音频及可穿戴设备信号。鼾声数据经预处理与分段后,转换为短时傅里叶变换(STFT)频谱图,输入多尺度编码器-注意力-解码器神经网络进行分类;可穿戴设备数据由云端导出并与PSG时间轴同步。统计学上采用相关性分析、组内相关系数(ICC)、Bland–Altman一致性分析、受试者工作特征(ROC)分析及DeLong检验,并按性别、年龄和体重指数(BMI)进行亚组分析。

以下为论文主体结果的结构化解读。

研究流程(Workflow of the Study)
研究在3家协作机构开展,所有受试者在PSG检查当晚同步进行鼾声音频记录和可穿戴设备信号采集。研究人员明确指出,数据脱落主要来自3类质量控制问题:PSG伪差或睡眠时间不足、鼾声音频信噪比过低,以及可穿戴设备佩戴不当或同步不完整。经质量控制后,最终有效数据包括144例PSG记录、121例鼾声记录和107例可穿戴设备记录。分析时,各模态均基于可用的有效记录分别纳入,而非仅限于三种数据均完整的受试者。该设计反映出研究重视真实临床采集条件下的数据可用性,也说明不同技术路径在现实应用中的数据完整性存在差异。

患者人群(Patient Population)
研究于2025年6月至2025年8月期间完成入组,纳入18–70岁的成年疑似SAHS患者,不限性别和BMI。样本量依据Cohen’s kappa系数预先估算,目标样本量为150例。最终入组分布与预设接近:复旦大学90例,深圳33例,厦门29例。所有受试者均接受EMBLA设备完成的整夜PSG,并依据美国睡眠医学会(AASM)标准进行呼吸事件判定和AHI计算。SAHS定义为AHI ≥ 5次/小时,并分为轻度、中度和重度。研究特别强调,本研究所用数据完全独立于研究团队既往发表的多模态数据集,未复用任何既往参与者或记录,因此本项工作属于独立样本上的临床验证,而非训练集内部评估。

鼾声分析模型算法(Snoring Analysis Model Algorithm)
该模型首先对原始音频进行预处理和分段,并将每一段转换为STFT频谱图作为输入。网络结构采用多尺度神经架构,由编码器-注意力-解码器组成;并行的不同扩张率深度可分离卷积分支用于提取多尺度时间特征,通道注意力模块用于自适应强调重要表征,随后通过轻量化解码器完成多尺度特征融合与最终分类。研究人员说明,该AI模型在本研究开展前已完成预训练,当前多中心数据集仅用于性能验证,未进一步训练或调参。这一处理有助于评估模型在独立临床队列中的泛化能力。

研究队列的人口学特征(Demographics of the Study Cohort)
共134例受试者进入人口学分析,其中重度SAHS占比最高,为55.2%。男性占80.6%,且男性比例随疾病严重程度增加而显著升高。BMI同样随着病情加重而递增。高血压是最常见共病,占20.9%。呼吸事件类型方面,以阻塞性事件为主,占78.5%,混合型和仅低通气型较少,中枢型罕见。与此同时,最长呼吸暂停持续时间随严重程度升高而延长,最低血氧饱和度与平均SpO2则呈进行性下降,而总睡眠时间在各组间无显著差异。PSG-derived AHI、Wearable Device_AHI与Snoring Analysis_AHI均随疾病分层升高,提示两种替代方法均能在一定程度上反映疾病负担。

鼾声模型、可穿戴设备与PSG之间的一致性和相关性(Agreement and Correlation Between Snoring-Sound–Based Model, Wearable Device Model, and Polysomnography)
以PSG为参照时,鼾声模型所得AHI与PSG-derived AHI呈强正相关,相关系数r = 0.79,而可穿戴设备仅为中等相关,r = 0.68。进一步一致性分析显示,鼾声模型与PSG之间的组内相关系数(ICC)为0.753,提示具有较高一致性。Bland–Altman分析显示,两者平均偏倚为–9.12次/小时,95%一致性界限为–41.25至23次/小时,表明鼾声模型相较PSG略有低估AHI的系统性趋势,但总体一致性良好。基于这些结果,研究人员认为鼾声分析可为AHI提供有效且可靠的估计。

鼾声模型与可穿戴设备模型的诊断性能(Diagnostic Performance of Snoring-Sound–Based Model and Wearable Device Model)
研究采用一对其余(one-vs-rest,OVR)ROC框架,对不同PSG定义的严重程度进行分类评估。对于识别无SAHS者(AHI < 5次/小时),鼾声模型AUC为0.83,可穿戴设备为0.75。对于轻度SAHS,鼾声模型AUC为0.87,高于可穿戴设备的0.73。对于中度SAHS,两者表现相近,分别为0.80和0.82。对于重度SAHS,两种方法均表现优异,鼾声模型AUC为0.96,可穿戴设备为0.90。整体上,两种方法均具备良好至优异的分辨能力,但鼾声模型在较低严重度区间呈现更高的数值表现。

鼾声模型表现相当且AUC数值更高(Snoring-Sound–Based Model Shows Comparable Performance with Numerically Higher AUCs)
在配对样本中,研究人员使用DeLong检验直接比较两种方法的ROC曲线。结果显示,鼾声模型在多数类别中的AUC高于可穿戴设备,但差异均未达到统计学显著性。对于无SAHS者,鼾声模型AUC为0.82,可穿戴设备为0.75;轻度SAHS分别为0.83和0.72,p = 0.07,提示存在未达显著性的优势趋势。中度SAHS中,可穿戴设备略高于鼾声模型;重度SAHS中,两者均保持高区分能力。该部分结果支持这样一个结论:鼾声模型与可穿戴设备总体性能相当,但在识别无SAHS和轻度SAHS方面更具潜在价值。

诊断性能的亚组分析(Subgroup Analysis of Diagnostic Performance)
按性别、年龄和BMI进行的一对其余分类亚组分析显示,两种方法总体模式较为一致。对于无SAHS识别,各亚组AUC大致处于中等至良好水平,但部分亚组置信区间较宽,提示样本量受限。对于轻度SAHS,鼾声模型在多数亚组中均显示更高AUC,尤其在男性、年龄<40岁以及不同BMI分层中均呈现数值优势。对于中度SAHS,两种方法表现接近,且不同亚组间相对优势并不一致。对于重度SAHS,两种方法在各亚组中均维持较高AUC。总体而言,鼾声模型在不同临床亚组中表现较稳定,而其在轻度疾病阶段的相对优势更加突出。

讨论总结
讨论部分指出,本研究最核心的发现是:与智能手表导出的指数相比,鼾声模型与PSG-derived AHI之间具有更强相关性和更高一致性,且在轻度SAHS等低严重度区间呈现更高区分能力。研究人员认为,可穿戴设备通常主要依赖腕部光电容积描记(photoplethysmography,PPG)和加速度计信号,缺乏AASM标准所要求的直接气流、胸腹呼吸努力和基于脑电图(EEG)的觉醒检测,因此难以识别细微低通气或呼吸努力相关觉醒,这也解释了其对轻症患者可能存在的系统性低估。相比之下,鼾声声学特征能够更敏感地捕捉早期上气道狭窄带来的气流动力学变化,因此在轻症识别方面具有优势趋势。

研究同时将结果置于既往文献背景下讨论。既往关于声学方法的证据并不完全一致,有系统综述认为鼾声声学分析具有一定准确性,但并非强有力的OSA诊断方法;也有研究提示单一鼾声频率等指标预测价值有限。然而,较新的智能手机呼吸声研究和家庭场景录音研究显示,基于声学的预测在实际环境中具备较好的灵敏度与特异度。研究人员据此指出,声学方法的诊断效能具有情境依赖性,受到信号定义、记录环境和模型设计的影响。本研究采用多尺度深度学习架构并在多中心独立队列中进行验证,构成了对声学诊断路径更贴近临床真实环境的证据补充。

作者还讨论了研究局限。首先,样本量虽足以支持初步性能估计,但仍相对有限,可能影响检出方法间微小差异的统计效能。其次,所有受试者均来自中国临床中心,外推至其他族群和医疗环境仍需验证。第三,低通气事件采用AASM 2.0版中“可接受”标准,即≥30%气流下降并伴≥4%氧减饱和,可能较保守,从而低估轻度病例AHI。第四,不同模态数据完整性不一致,可能影响跨模态比较。第五,受试者主要来自因打鼾、张口呼吸或目击呼吸暂停就诊的门诊人群,共病信息主要依赖自报,且未进行系统代谢筛查。第六,中重度病例占比较高,可能削弱对低AHI阈值下模型行为的评估敏感性。最后,可穿戴设备算法为专有黑箱,研究人员无法获取其内部特征提取与处理机制,因此难以开展更深入的方法学比较。

研究结论翻译
本项多中心研究表明,基于鼾声的模型能够对AHI提供可靠且具有临床意义的估计,其总体性能与PSG比较具有可比性,并且较可穿戴设备表现出更好的一致性,尤其在识别轻度SAHS方面更具优势。这些结果提示,声学特征在检测早期或细微呼吸异常方面可能具有独特价值。然而,该模型是在特定临床场景中完成评估,未来仍需在更大规模、独立的外部队列中进一步验证其泛化能力。总体而言,声学分析是一种有前景的、无创的SAHS真实世界筛查工具。

生物通微信公众号
微信
新浪微博


生物通 版权所有