摘要:基于智能手机的肺部听诊结合人工智能(AI)可能为儿科呼吸远程监测提供一种有前景的替代方案。本研究的目的是评估AI模型在通过智能手机录制的儿科呼吸声音中检测喘息声的表现。我们在葡萄牙一家三级医院的儿科部门进行了一项观察性横断面研究,研究对象包括0-17岁的儿童(学龄前、学龄和青少年),无论他们是否患有呼吸系统疾病。使用智能手机麦克风在四个位置记录呼吸声音,并由至少两名盲法注释者独立地对声音的质量和是否存在喘息声进行分类。我们使用了一个在公共电子听诊器数据库上训练的混合卷积-循环神经网络(CNN + LSTM)来检测喘息声。通过阳性预测值、敏感性、特异性、准确率和F1分数来评估AI模型的性能。共有217名儿童(59.9%为男性;中位年龄10岁[四分位数范围4.5-13岁])参与了研究。在2020条呼吸声音记录中,有1500条(74.3%)符合质量标准。手动注释识别出271条含有喘息声的记录,而AI检测出217条,其中学龄前儿童的比例最高(AI检测出64.5%,手动识别出53.9%)。该模型的总体准确率为87%(95%置信区间86-89),F1分数为61%(95%置信区间56-66)。青少年的准确率最高(92%,95%置信区间90-94),而学龄前儿童的F1分数最高(64%,95%置信区间58-71)。
结论:本研究支持在现实环境中使用AI辅助分析智能手机录制的儿科呼吸声音的可行性。预计未来的多中心研究将使用更大的数据集并对模型进行微调,从而提高AI模型的性能和泛化能力。
已知事实:
- 持续监测儿科呼吸系统疾病对于改善预后和减轻医疗及家庭负担至关重要。
- 智能手机肺部听诊在儿童中是可行的,但AI喘息声检测模型目前仅应用于电子听诊器的记录。
新发现:
- 首次研究应用AI模型来检测智能手机录制的肺部声音中的喘息声。
- 在所有儿科年龄组中都获得了高质量的声音记录,AI模型的表现显示出有希望的结果,与使用电子听诊器的研究相当。
引言:呼吸系统疾病是全球儿童发病率和医疗负担的主要原因之一[1]。持续监测儿童的呼吸状况(包括哮喘和较少见的慢性疾病如囊性纤维化)对于早期发现疾病控制不良或恶化的迹象并及时干预至关重要[2, 3]。这对于改善临床结果和减轻家庭及医疗系统的负担非常重要[4]。
移动健康(mHealth)技术发展迅速,为远程监测和管理儿童呼吸系统疾病提供了新的机会,有可能在临床和家庭环境中改善疾病控制[5, 6, 7]。然而,为这一人群选择合适的监测工具仍然具有挑战性。当前的技术通常依赖于电子问卷[8]和家庭肺功能测试[9, 10]。尽管这些方法很有价值,但它们依赖于患者的积极参与,这可能会限制其在年幼儿童中的应用。因此,客观测量方法(如数字肺部听诊)特别有价值,因为它们不依赖于患者的配合[11],在所有年龄段的儿科护理中都适用[10]。智能手机听诊是一种有前景的技术,可以集成到远程监测系统中。配备高质量麦克风的智能手机的广泛可用性为在临床和家庭环境中记录呼吸声音提供了实用、无创且可扩展的解决方案,从而消除了对额外设备的需求,并通过一个熟悉的工具实现数据收集。先前的研究比较了传统和智能手机肺部听诊,在专业医疗人员[12, 13]和护理人员[14]执行时证明了后者的现实可行性。此外,护理人员发现这项技术非常受欢迎[14]。这些研究表明,智能手机肺部听诊在记录异常呼吸声音(如喘息声)方面是可行的,这一点通过专家的手动分类得到了验证[12, 13, 14]。喘息声在儿童中非常常见,通常表明下呼吸道阻塞,这是最常见的儿科呼吸系统疾病的症状[15, 16]。虽然检测喘息声对于监测呼吸系统疾病很有帮助,因为它与放射学发现和疾病严重程度相关,但其有效性取决于准确的识别、解释和专业经验[17]。由于手动分类的固有主观性,需要自动化方法[18]。欧洲过敏与临床免疫学学会最近的一份立场文件强调了人工智能(AI)解决方案在支持儿科临床决策和疾病监测方面的潜力[19]。事实上,AI似乎是解释复杂生理信号(包括呼吸声音)的强大工具[20, 21, 22]。已有研究评估了AI算法在电子听诊器捕获的儿科呼吸声音上的表现,并将其结果与手动分类进行了比较[22, 23, 24]。然而,到目前为止,还没有研究探索将AI应用于通过智能手机捕获的呼吸声音记录。鉴于结合这两种技术的潜在协同作用,本研究旨在通过评估AI模型在通过智能手机录制的儿科呼吸声音中检测喘息声的表现来填补这一空白。
材料与方法:
研究设计:在葡萄牙波尔图市São João当地卫生单位的儿科部门对儿童进行了观察性横断面研究。本研究遵循STROBE(加强流行病学观察性研究报告)声明的建议[25]进行。
参与者:2020年9月至2025年6月期间招募了方便样本。纳入的标准是年龄在0至17岁之间的儿童(学龄前儿童0-5岁,学龄儿童6-9岁,青少年10-17岁),无论他们是否患有呼吸系统疾病(例如哮喘、囊性纤维化和其他呼吸系统疾病)。排除标准包括拒绝参与以及健康状况或情况妨碍无害收集呼吸声音的儿童。邀请儿童和家长在预定的门诊就诊期间、住院期间或急诊室访问时参与研究。
数据收集:首先在纸质病例报告表中记录儿童的性别、年龄、身高以及诊断组(哮喘、囊性纤维化、其他呼吸系统疾病或无呼吸系统疾病)。使用InspirersKids移动应用程序或之前的应用程序版本(AIRDOC)(补充文件1,图S1)[12, 26]进行智能手机肺部听诊[12, 26]。呼吸声音在四个预定义的位置记录:计算机化呼吸声音分析指南推荐的三个最小记录位置(气管;右侧和左侧后下方位置)[27],以及额外的右侧前方位置,以捕捉右侧中叶可能的异常声音[28]。智能手机以90度角放置,麦克风直接贴在儿童皮肤上,施加压力以确保最小化外部噪音(图1)。每个听诊位置至少记录一次,每次5-10秒。
数据收集:共使用了15种智能手机型号来收集记录(补充文件1)。总共14名医生参与了采集过程。在咨询时间允许的情况下,家长在收到医生的标准化指导后使用与医生相同的智能手机进行了额外的记录。
呼吸声音的手动分类:所有呼吸声音记录都由至少两名注释者独立审查。参与该过程的五名研究人员包括:IPC(儿科医生)、HFC(医学生)、CSS和MCS(医学生)以及CJ(物理治疗师/呼吸声音专家)。在手动分类过程中,注释者只知道患者的识别号码和听诊位置,并对访问期间收集的所有其他临床信息保持盲态。根据欧洲呼吸学会的建议和之前的使用预定义质量保证标准的工作,我们使用了预先指定的研究标准来评估记录质量[29]。记录被二分判断(是/否),当记录包含(1)最小程度的伪影,(2)可听见的呼吸声音(无论是正常的还是异常的,适合分析),以及(3)清晰可辨的呼吸阶段时,被认为是可接受的。鉴于本研究中记录时间较短(5-10秒),一个完整的呼吸周期被认为足以满足后一个标准。只有符合此质量阈值的记录被保留下来进行进一步分析,并被分类为存在或不存在喘息声。
注释者之间关于记录质量或喘息声存在/不存在的分歧通过在线会议达成共识解决,必要时会咨询另一名注释者(IA,儿科肺病专家)。
AI对呼吸声音的分类:为了自动检测智能手机记录中的喘息声,开发了一个AI模型,具体来说是一个人工神经网络。该模型是在用电子听诊器录制的呼吸声音的精选数据库上训练的。只有之前被手动分类为质量良好的声音被纳入此分析。以下小节描述了用于模型训练的数据及其架构。
数据库、预处理和数据准备:据我们所知,目前没有公开的智能手机录制的呼吸声音及其相应注释(特别是喘息声)的数据库。因此,为了开发神经网络模型,考虑了几个开放访问的通过电子听诊器或类似设备录制的呼吸声音数据库:呼吸声音数据库[30, 31];HF_Lung_V2 [32]和HF_Tracheal_V1 [33]数据集;以及SPRSound数据库[34]。第一个数据库包括儿童(平均年龄4.8±4.6岁)和成人的记录;第二个数据库仅包括成人;第三个数据库包括16岁以下的儿童。所有数据库都包含了每个喘息事件的注释,以及其开始和结束的时间戳。在模型训练之前,原始音频波形被预处理并转换为神经网络输入,包括手工制作的音频特征、梅尔频谱图和Sobel滤波的梅尔频谱图。数据库、预处理和数据准备的详细描述可以在补充文件2中找到。
模型架构和训练:开发的模型旨在检测完整呼吸声音记录中的喘息事件,即确定这些事件的时间起始点。为了执行事件检测,我们开发了一个结合卷积和循环模块的混合深度学习模型(CNN + LSTM)。补充文件2和图S2包含了关于模型架构和训练流程的信息。
智能手机记录的分类和后处理:然后使用训练好的混合深度学习模型(CNN + LSTM)自动分析智能手机录制的呼吸声音。与用于训练神经网络的记录类似,智能手机记录的声音的第一步是预处理,包括标准化、过滤、特征提取和窗口化。在将每个音频文件分解成多个10秒的窗口后,模型被用来检测每个窗口中的喘息事件。每当录音的持续时间短于10秒时,会对原始音频进行零填充,以使所有录音的长度统一。如果模型在给定录音的任何窗口中检测到喘息事件,那么该录音将被分类为包含喘息声。除了为每个录音生成二分类结果(是否存在喘息声)外,模型还输出了每个检测到的喘息事件的时间定位。模型输出的一个示例显示在补充图S3的梅尔频谱图中。
数据分析
使用描述性统计量来描述参与者的性别、年龄、年龄组(学龄前儿童、学龄儿童、青少年)、身高和诊断组(哮喘、囊性纤维化、其他呼吸系统疾病以及无呼吸系统疾病)。连续变量以中位数和四分位数范围[Q1-Q3]表示。分类变量使用绝对频率和相对频率进行总结。当与呼吸声音录音相关的分类变量(是/否;存在/不存在喘息声)在年龄组和听诊位置之间的差异不超过20%且小于5时,使用皮尔逊卡方检验。当这一假设不成立时,我们使用费舍尔精确检验。当发现总体关联显著时,进行事后检验,并使用Bonferroni校正来处理多重比较。
评分者间一致性分别针对录音质量和喘息声的存在进行评估。当录音声音由两名评分者评分时,使用Cohen’s kappa;当由三名评分者评分时,使用Fleiss’ kappa。Kappa值的解释基于以下标准:< 0 = 一致性差,0–0.20 = 一般,0.21–0.40 = 良好,0.41–0.60 = 中等,0.61–0.80 = 非常好,0.81–1.00 = 几乎完美[35]。
人工智能模型的性能通过混淆矩阵进行评估。评估参数包括阳性预测值(PPV)、敏感性、特异性、准确性和F1分数。PPV是从数据库中所有阳性预测样本中真正例的比例。敏感性是正确识别出的真正例的比例。特异性是正确识别出的真阴性样本的比例。准确性计算为所有样本中正确分类样本的比例:(TP + TN)/(TP + TN + FP + FN),其中TP、TN、FP和FN分别表示真正例、真阴性、假阳性和假阴性。F1分数是PPV和敏感性的调和平均值,提供了一个平衡的分类性能度量,2 × (PPV × 敏感性)/(PPV + 敏感性)。统计分析使用IBM SPSS Statistics(版本29.0.2.0,纽约阿蒙克:IBM公司)进行。p值小于0.05被认为具有统计学意义。
儿童特征
共有217名儿童参与了分析。大多数儿童是在门诊医疗预约期间招募的(n = 175,80.6%),其次是住院治疗(n = 37;17.1%)和急诊室就诊(n = 5;2.3%)。大多数是男孩(n = 130;59.9%)。中位年龄为10 [4.5–13]岁。有53名(24.4%)儿童患有哮喘,15名(6.9%)患有囊性纤维化,27名(12.4%)患有其他呼吸系统疾病,122名(56.2%)没有呼吸系统疾病。参与者的特征在表1中描述。
呼吸声音的手动分类和质量
共收集了2020个呼吸声音,其中346个(17%)是由父母收集的。使用Cohen’s Kappa时,评分者间的一致性范围为0.69至0.80;使用Fleiss kappa时,一致性范围为0.58至0.70(补充文件3)。在这些声音中,有1500个(74.3%)被认为是高质量的。这1500个声音对应于209名患者,其详细信息在补充表S1中。父母和医生收集的声音质量比例没有显著差异(73.7% vs 74.4%,p = 0.421)。
关于年龄组,高质量录音包括394个(67.2%)来自学龄前儿童,299个(73.8%)来自学龄儿童,807个(78.4%)来自青少年。按位置划分的录音质量,361个(74.7%)来自右前部,341个(69.6%)来自右后下部,397个(72.3%)来自左后下部,401个(80.5%)来自气管(补充图S4)。
人工智能模型性能
手动分类识别出271个包含喘息声的录音,而自动分析检测出217个。在这两种方法中,大多数这些声音发生在学龄前儿童中(自动:64.5%;手动:53.9%)。两种方法的整体年龄组分布存在差异(p = 0.049),但在Bonferroni调整后,没有一项事后比较保持显著(学龄前p_adj = 0.054;学龄儿童p_adj = 1.000;青少年p_adj = 0.063)(图2)。关于听诊位置,两种方法检测到的喘息声相似(p = 0.987)(图3)。
图2
手动分类(n = 271)和人工智能模型(n = 217)按年龄组检测到的喘息声。顶部的p值指的是总体皮尔逊卡方检验(2 × 3);p_adj表示每个年龄组内方法之间的事后比较的Bonferroni调整后的p值(m = 3)。
图3
手动分类(n = 271)和人工智能模型(n = 217)按听诊位置(右前部、右后下部、左后下部气管)检测到的喘息声。顶部的p值指的是总体皮尔逊卡方检验(2 × 3)。
模型性能在表2中总结,整体性能在图4的混淆矩阵中表示。人工智能模型的整体准确率为87%(95% CI 86–89),在青少年录音(92%,95% CI 90–94)和左后下部位置(91%,95% CI 88–93)的表现最好。全局F1分数为61%(95% CI 56–66),在学龄前儿童(64%,95% CI 58–71)和左后下部位置(69%,95% CI 61–78)的表现最好。补充图S5和S6分别表示了根据年龄组和听诊位置的人工智能模型性能的混淆矩阵。
表2
按年龄组和听诊位置分析人工智能(AI)模型对所有呼吸声音的性能
图4
(a) 混淆矩阵和(b) 整体AI模型性能的标准化混淆矩阵
讨论
据我们所知,这是第一项使用智能手机麦克风收集的儿童呼吸声音录音来测试AI分类模型的研究。我们强调我们研究的三个关键发现:在真实世界环境中获得了所有年龄组的高质量录音;我们的AI模型在应用于智能手机呼吸声音录音时表现良好,其在左后下部胸部的表现最佳。
深度学习模型非常适合呼吸声音分析,因为它们可以自动学习相关信号特征,并在基于频谱的表示中识别复杂的视觉和时间-频率模式,如喘息声[36, 37]。我们的人工智能模型使用了梅尔频谱图,这是儿科肺音分析中最常用的特征提取技术之一,以及基于CNN的混合架构,这种方法在文献中有广泛描述[37]。除了将喘息录音检测为二元结果外,模型的时间定位使预测事件可以直接与音频信号的具体片段关联起来,提供了直观的可解释性,并支持结果的实际验证。总体而言,模型的性能结果处于最近系统评价报告的范围内。对于儿童哮喘,这些评价报告的F1分数在66.4%到87.2%之间,准确率在57.7%到97.7%之间[38]。对于更广泛的儿童呼吸声音,报告的F1分数在32.96%到95.2%之间,准确率在69.72%到100%之间[37]。研究人群、注释协议和评估指标的显著异质性限制了直接比较报告性能的能力。尽管我们的声音总数相当多,超过了大多数队列的数量,但异常声音的比例低于F1分数较高的研究[21, 39]。我们数据库中异常声音的较低比例导致类别不平衡,使得喘息事件更难检测,从而降低了F1分数。如果异常声音的比例更高,可能会提高模型检测异常声音的敏感性。然而,这些指标的解释取决于具体情境。在我们的研究中,观察到的中等性能可能仍然适用于作为更广泛临床评估的一部分的喘息监测,类似于其他开发用于支持预后分层和个性化临床决策的儿科AI模型[40]。然而,它不太适合诊断目的[41]。
我们承认,AI的性能可能受到模型未在智能手机录制的声音上训练的影响。尽管已经证明使用电子听诊器和智能手机麦克风进行听诊是可比的[13],但这些设备的声学特性不同,包括它们的灵敏度和频率响应。这些差异可能会改变呼吸声音的频谱表示,并影响性能的变异性[42]。
从解剖学角度来看,左后下肺区的性能更好。这与后基底区域更接近肺实质的事实一致。这些位置也较少受到骨骼和肌肉结构的干扰,有利于声音传输[37, 43]。然而,尽管先前的研究在儿童的气管上听诊时报告了更好的性能,这归因于胸壁声音的衰减较低[44],但我们的模型在这个位置的表现较差。这可能与儿科解剖结构有关——较短的气管和较小的表面积,特别是在年幼的儿童中,使得智能手机的定位更加困难。反过来,这可能会引入伪影并影响呼吸声音录音的可解释性。在我们的样本中,不同年龄组之间的性能差异主要由异常声音的比例驱动。这些在学龄前儿童中更为普遍,导致类别分布更加平衡,因此F1分数更高。在青少年中,异常声音较为罕见,造成了显著的类别不平衡,尽管整体准确率较高,但F1分数较低。
我们需要考虑到我们的研究完全在真实世界环境中进行,所有录音都是在医院环境中获得的。总体而言,结果是积极的,74%的收集声音符合所需的质量标准。我们的方法建立在Kang等人关于心脏听诊的先前工作基础上,该工作表明智能手机麦克风可以可行地记录心脏声音以进行基于AI的分析,尽管存在采集挑战[45]。我们没有发现父母和医生收集的录音之间存在显著差异。然而,我们需要考虑到父母的录音是在医生指导并在临床监督下进行的。虽然这些发现支持让父母参与智能手机肺听诊的可行性,但未来的研究应在无监督环境中评估这种方法,以确定其在家监测中的适用性。尽管录音是按照标准化协议获得的,但数据收集是在常规医疗环境中进行的,环境条件并未完全控制,反映了日常临床实践。因此,录音容易受到背景噪音和运动相关伪影的影响,包括言语和患者运动,这可能会影响质量分类。这可能部分解释了学龄前儿童中高质量录音比例较低的原因,他们在肺听诊时往往合作较少。如前所述,我们观察到的喘息声的患病率相对较低(大约20%)。这可能反映了我们队列的临床特征,因为大多数儿童没有呼吸系统疾病,许多录音是在预定的门诊预约期间获得的,此时患者通常更加稳定。与其他关于数字肺听诊的研究相比,我们的发现与Habukawa等人对轻度哮喘儿童的研究结果一致(30%)[46],并且明显低于McCollum等人对住院重症肺炎儿童的研究结果(62%)[47]。
这项研究有一些局限性必须承认。一个局限性是使用了不同的智能手机,并且有多个个体参与数据收集,这可能在录音中引入了变异性。尽管这种异质性反映了真实世界条件,并可能支持我们发现的普遍性,但不同设备之间的音频记录特性差异也可能影响了声音质量和信号一致性。此外,尽管录音是按照标准化协议进行的,但缺乏关于智能手机定位和声音记录的实时反馈也可能影响了录音的质量。将实时听觉或视觉指导纳入未来的技术可以提高录音的质量和可用性。另一个局限性是呼吸声音的手动分类,这是由五名医疗专业人员进行的,尽管所有分析都使用了一名相同的注释者。未来的研究如果能够使用一组固定的注释者以及标准化的分类方法(例如音视频记录[48, 49]),将有助于减少观察者之间的差异,并提高不同数据集之间的可比性。此外,为了处理短暂的5-10秒音频样本,至少需要在一个完整的、可区分的呼吸阶段内进行记录。然而,这种方法可能不足以捕捉呼吸变化的细节和偶发事件,从而可能在声音分类中引入偏差。尽管我们的研究存在局限性,但我们提供了一个使用智能手机麦克风录制的真实世界儿童呼吸声音的宝贵数据集。为了进一步改进和验证人工智能模型,未来的研究应该扩大数据集,增加更多由智能手机录制的声音样本。这将有助于更有效的训练和独立测试——鉴于样本量相对较小,我们在本研究中无法实现这一方法。提高模型性能可能还需要使用更多异常声音数据对其进行重新训练,并平衡不同年龄组的代表性。此外,由于呼吸声音特征随年龄有显著差异,可以对模型进行针对不同人群的调整。针对每个目标年龄组进行独立测试和定制,将使模型更适合未来的临床应用。
随着技术的持续改进和实际应用的验证,智能手机肺部听诊有望成为儿童呼吸疾病远程监测的辅助工具。从长远来看,儿童及其护理人员可以利用智能手机收集纵向的听诊数据,这些数据可以与其他临床信息结合,为临床决策支持系统提供依据,最终实现更加便捷和可扩展的呼吸评估。更广泛地说,智能手机使用的普及可能会促成更大规模、更多样化的呼吸声音数据集的形成,有助于使肺部听诊更加客观和标准化,这对临床实践和教学都具有潜在价值[50]。总之,我们的研究表明,将智能手机肺部听诊与人工智能技术相结合是分析儿童呼吸声音的一种有前景的方法。虽然还需要进一步的优化和验证,但我们的结果支持了这种方法在临床实践中的潜在价值。
打赏