从初步概念到实际应用:利用光谱驱动的机器学习方法在智能导尿和引流导管系统中实现功能开发与验证

时间:2026年5月17日
来源:JMIR Medical Informatics

编辑推荐:

莱昂纳多·波吉 | 阿纳斯塔西娅·梅克勒 | 塞巴斯蒂安·奎纳特 | 朱莉娅·耶斯ke | 拉姆西·西亚杰 | 塔努西亚·塞尔瓦莫蒂 | 米夏埃尔·法比安·贝尔格 | 费利克斯·嫩萨 | 朱迪斯·科恩克 | 伯纳黛特·霍斯特斯 | 珍妮弗·布伦特-穆勒 | 马里奥·罗泽 | 雷内

广告
   X   

莱昂纳多·波吉 | 阿纳斯塔西娅·梅克勒 | 塞巴斯蒂安·奎纳特 | 朱莉娅·耶斯ke | 拉姆西·西亚杰 | 塔努西亚·塞尔瓦莫蒂 | 米夏埃尔·法比安·贝尔格 | 费利克斯·嫩萨 | 朱迪斯·科恩克 | 伯纳黛特·霍斯特斯 | 珍妮弗·布伦特-穆勒 | 马里奥·罗泽 | 雷内·霍施
埃森大学医院诊断与介入放射学及神经放射学研究所
Hufelandstraße 55
埃森
德国

**背景**
目前的尿液和引流导管系统用于收集液体以进行目视检查或手动采样,但这些方法的诊断价值有限,同时需要大量人力且容易出错。机器学习(ML)有潜力自动化这些液体的分析。然而,现有方法依赖于复杂的预处理步骤,这阻碍了实时分析。

**目标**
我们旨在通过利用光谱数据和ML,开发并评估一种完全自动化的、实时的诊断方法,用于智能尿液和引流导管系统,无需手动预处理即可区分病理性液体和健康液体。

**方法**
本研究提出了一种全新的、完全自动化的方法,利用光谱数据和ML从排出液体中提取特征,从而实现实时分析。共有454份手术引流液样本(来自181名患者)和401份尿导管样本(来自168名患者)使用配备小型光谱仪传感器的智能导管和引流装置进行了分析。收集到的光谱数据被输入到三种不同的ML模型中:随机森林、偏最小二乘判别分析回归和卷积神经网络(CNN)。每个模型都旨在根据先前实验室分析得到的各种生物标志物来区分病理性液体和健康液体。

**结果**
三种方法(随机森林、偏最小二乘判别分析回归和CNN)均取得了令人满意的结果,展示了该方法的潜力。特别是基于引流生物标志物血红蛋白和胆红素训练的CNN模型,在使用提取的光谱特征区分病理性样本和健康样本时,分别获得了0.83和0.81的马修斯相关系数得分。

**结论**
本工作展示了光谱驱动的ML在智能尿液和引流导管系统中的潜力。这种方法提供了实时、无创的分析排出液体的方式,为改善诊断和个性化患者护理铺平了道路。进一步的研究将探索适用于这一应用的最佳ML模型。

**引言**
尿液和引流导管是广泛应用于各种临床环境中的不可或缺医疗设备。这些设备的主要用途是帮助排出住院患者的生物液体。医疗专业人员定期监测收集到的液体,以了解患者的健康状况。例如,手术引流管用于排出术后部位的液体,通过追踪液体体积和质量来监测伤口愈合情况[1]。对于尿导管而言,不同的尿液生物标志物对于识别疾病和潜在状况至关重要[2,3]。
尽管这些设备在患者护理中发挥着关键作用,但它们的广泛使用也可能导致多种并发症。尿导管常见的并发症包括尿路感染、膀胱结石和尿道损伤[4-6]。同样,引流导管的使用也可能导致导管堵塞、泄漏、组织损伤和插入部位感染[7-9]。如果这些并发症未能及时发现和处理,可能会导致住院时间延长,甚至全身性感染。
目前的方法是由医务人员在这些特定的离散时间间隔进行液体目视检查和手动采样。为了获得收集到的液体成分的定量评估,必须进行单独的实验室分析。这意味着在检测潜在严重并发症时存在显著的时间延迟。因此,这类监测过程的可靠自动化将带来诸多优势。在医务人员严重短缺的情况下,自动化和连续监测不仅可以提高患者监测的质量,同时还能减轻监测的工作负担。
已有研究致力于这一领域。例如,在导管相关尿路感染的情况下,已经开发了电子监测系统来加速此类并发症的检测[10]。此外,还提出了基于机器学习(ML)的方法来提高普通尿试纸测试的性能[11]。对于手术引流液输出,已经实现了数字化解决方案,用于体积测量[12]和确定液体颜色[13]。罗泽等人[14]提出了一种更全面的解决方案,即所谓的SmartDrain(Elixion Medical GmbH)设备,该设备可在患者床边对引流液进行光谱测量和分析。
近年来,人工智能(AI)在生物医学研究领域引起了广泛关注。将ML方法应用于这些问题,结合日益增长的计算能力,在分析大量生物医学数据和提取有意义特征方面展现了显著的性能[15,16]。
在本研究中,我们基于罗泽等人的方法[14],实现了一个由AI驱动的早期预警系统,用于检测尿液和引流样本中的病理标志物。具体来说,我们使用偏最小二乘判别分析回归(PLS-DA)、随机森林(RF)和卷积神经网络(CNN)等分类算法分析用小型光谱仪获取的光谱数据。PLS-DA是一种成熟、稳健且高度可解释的分类方法,常用于结合高维光谱数据的化学计量学[17,18]。RF是一种灵活的、基于非线性集成体的方法,能够模拟复杂相互作用,同时保持相对较高的可解释性[19]。另一方面,CNN是一种数据驱动的深度学习策略,具有捕捉传统ML方法可能无法检测到的细微模式的潜力[20,21]。多项研究表明,与1D架构相比,2D CNN在处理光谱数据时表现更优[22-24]。因此,在本研究中,我们实现了一个简单的CNN模型,用于对从原始光谱数据中获得的3通道图像进行分类。

**研究设计**
图1展示了本研究所实施的整个流程。第一步是生成标记数据,通过获取引流液和尿液样本,并对其进行光谱测量和实验室分析。每个收集的样本都获得了3个光谱和一系列实验室标志物。这些标记数据用于训练每个实验室标志物(尿液和引流液)的AI模型。在流程的第二步中,对光谱进行了预处理,以备AI模型使用。这一步包括对光谱进行标准化处理。对于CNN模型,还进行了将光谱转换为3通道图像的额外步骤。最终,标记数据被输入到三个独立的AI模型中:CNN、PLS-DA和RF分类模型。

**伦理考量**
本研究获得了埃森大学医院伦理委员会的批准(21-10402-BO)。所有患者均签署了知情同意书。本研究中的数据已完全匿名化。参与者没有获得任何补偿。

**数据集和数据生成**
本研究中使用的数据集包括454份引流液样本(来自181名患者)和401份尿液样本(来自168名患者)。样本来自埃森大学医院0至85岁的患者。引流液数据集的中位数和四分位数分别为57和22;尿液数据集的中位数和四分位数分别为56和20.25。
每个样本被分成两组,然后冷冻并存储在-80°C下直至进一步处理。所有第一组的样本都在埃森大学医院的中央实验室进行了分析。共检测了14个引流液标志物(表1)和11个尿液标志物(表2)。对于每个样本,使用预定义的临界值对测量的标志物进行了二值化处理。如果某个标志物的值高于相应的临界值,则标记为病理性;否则,标记为健康。这些临界值由中央实验室提供(版本1.4,日期为2021年9月21日)。由于引流液没有预定义的临界值,因此使用血清的标准值作为这些样本的参考。但是,对于血红蛋白和红细胞标志物,将其病理临界值设为0,因为它们在外科引流液中的存在普遍被认为是病理性的,甚至可能表明存在术后出血[25]。

**表1. 本研究中考虑的引流液标志物概述**
如果样本的标志物值小于或等于相应的临界值,则标记为病理性(红色)。否则,标记为健康(绿色)。表格中还列出了每个二值化标志物的少数类和多数类之间的比例,以及病理(红色条形)和健康样本(绿色条形)之间的分布图示。

**表2. 本研究中考虑的尿液标志物概述**
如果样本的标志物值小于或等于相应的临界值,则标记为病理性;否则,标记为健康。pH标志物除外,其健康样本的pH值范围在5到7.5之间。表格中还列出了每个二值化标志物的少数类和多数类之间的比例,以及病理(红色条形)和健康样本(绿色条形)之间的分布图示。

**两个二值化过程的例外情况**
大多数尿液标志物的二值化过程中存在两个例外。这些标志物大多是通过尿试纸测试测量的,该方法使用分类尺度估计标志物的浓度。如果标志物的浓度太低而无法检测到,则用“−”符号标记。如果标志物的浓度过高,则用“+”符号标记为病理性。因此,如果实验室试纸测量结果显示至少一个“+”符号,则标志物被分类为病理性。pH标志物的二值化过程也有一个例外,因为其没有单一的临界值,而是一个正常范围,因此被认为是健康的。

此外,表1和表2中列出了每个二值化引流液和尿液标志物的少数类和多数类之间的比例。这个比率提供了关于特定标志物中病理(红色条形)和健康(绿色条形)样本之间平衡的重要信息。因此,一个完美的平衡数据集(两个类别包含相同数量的样本)会产生1的比例。相反,如果两个类别中任何一个类别都没有样本,则比例为0。如结果所示,这个比率极大地影响了训练模型的质量和性能。

**第二组样本的处理**
对于第二组中的每个样本,使用小型光谱仪进行了光谱测量。该光谱仪集成了自开发的透镜阵列和电流及温度可控的高光谱照明源,确保了对样本的宽带光谱照射。评估平台虽然体积较大,但设计目的是为了能够同时处理多个照明角度的评估,在开发过程中并未专注于减小其尺寸。图2展示了光谱仪的示意图。图2. 微型光谱仪及其关键组件的示意图。来自高光谱光源的光通过光导被引导至样品室,在那里与样品相互作用。产生的光输出被透镜阵列捕获并聚焦到光谱仪头部。该设置使用了三个以不同角度放置的光源,形成三条不同的光路径:直接透射(DT)、角透射(AT)和角反射(AR)。该图使用Autodesk Fusion 360渲染。图使用Autodesk Fusion 360渲染(Autodesk GmbH)。AR:角反射;AT:角透射;DT:直接透射。测量得到的光谱包含288个数据点,波长范围在313.08至874.27纳米之间。通过从3个不同角度(直接透射、角透射和角反射)照射每个样品来改进数据收集。每个角度的曝光时间经过微调,以获得最佳的信噪比,分别为20微秒、200微秒和320微秒。因此,输入到AI模型的数据可以被视为一个形状为(N, 3, 288)的特征矩阵。其中N是特定流体标记物的样本数量,3是每个样本的测量光谱数量(DT、AT和AR),288是每个光谱测量的数据点数量。图3展示了一个排水样品的示例测量结果。图3. 排水样品的示例光谱测量结果。每个样品从3个不同角度被照射,得到3个光谱:DT(蓝色曲线)、AT(红色曲线)和AR(绿色曲线)。每次测量后,样品会被丢弃,并且评估平台的管路会用无菌水彻底冲洗,以防止样品之间的交叉污染。批次测量完成后,管路会先用异丙醇冲洗,然后再用水冲洗,以防止样品交叉污染和细菌生长。

光谱预处理
光谱标准化
在本研究中,通过使用标准正态变量(SNV)方法对输入数据进行缩放,以减轻偏差的影响[26]。因此,所有光谱都被转换成新的光谱,均值为0,方差为单位值,如图4A-C所示。对于每个波长,SNV校正前(蓝线)和校正后(红线)的光谱强度标准差(SD)以半对数图的形式显示。对于所有光谱仪设置(DT、AT和AR)和液体类型,强度的标准差都大幅降低,从大约2500(SNV校正前)减少到0.2(SNV校正后)。
图4. 应用于光谱数据的SNV校正。(A) 原始光谱。(B) SNV校正后的光谱。(C) SNV校正前(蓝线)和校正后(红线)的光谱强度标准差(SD)的半对数图。SNV:标准正态变量。

对于每个光谱仪设置,排水样品的光谱变异性比尿液样品更高。定量来看,各个波长的强度标准差平均值分别增加了约53%(DT)、140%(AT)和133%(AR)。这种行为的视觉表示见多媒体附录1中的图S1。

光谱到图像的转换
对于CNN分类模型,从测量得到的光谱中生成了3通道图像。每个样品的3个光谱可以被视为一个形状为(3, 288)的2D数组。在对光谱进行归一化到[0, 1]范围后,在数组的第二维度应用了长度为56的对称0填充,使其总长度达到400。之后,数组被重塑为(3, 20, 20)的形状(图5)。
图5. 光谱到图像的转换。通过对强度值数组进行重塑和填充,将每个样品的3个光谱转换成3通道图像。这些图像被用作CNN架构的输入。

AI分类模型
对于每个流体标记物数据集,样品在患者级别进行分组,以确保来自同一患者的所有测量数据都保持在一起。随后,按照80/20的比例进行了患者级别的训练-测试分割。这种方法防止了数据泄露,确保特定患者的所有测量数据不会分散在多个数据集中[27,28]。因此,训练集进一步被划分为3个不重叠的子集,这些子集在患者级别进行分组,并根据目标标签进行分层(例如,病理和健康受试者之间的比例)。这些数据集用于交叉验证训练。每个折叠都在测试集上进行测试,然后对所有3个折叠的分类概率进行平均,以获得测试数据的最终分类概率。由于许多流体标记物的数据集高度不平衡,选择了Matthews相关系数(MCC)作为主要指标来跟踪和最大化。除了MCC外,还测量了F1分数和真阳性率(TPR)。此外,还计算了每个模型的接收者操作特征(ROC)曲线及其对应的曲线下面积(ROCAUC)。此外,通过将训练模型与一个虚拟分类器进行比较来评估其预测能力。

关于PLS-DA
偏最小二乘(PLS)算法是一种广泛应用于近红外光谱学和化学计量学的基于回归的方法[17]。与主成分回归不同,PLS的优势在于最大化变换后的输入特征与目标标签之间的协方差。如果目标标签是分类的,我们称之为PLS-DA[18]。在这项研究中,使用以下程序实现了用于分类的PLS-DA模型。首先,将形状为(N, 3, 288)的特征矩阵转换为形状为(N, 864)的2D矩阵,方法是将3个光谱在波长维度上连接起来。在第二步中,使用整个训练集计算了多达50个PLS-DA模型。在每次迭代中,PLS组分的数量增加一个,并测量MCC分数。因此,通过最大化MCC分数,找到了特定模型的最优PLS组分数量。最后一步,使用之前确定的最佳组分数量的PLS-DA模型在测试集上进行3折交叉验证。此外,还检查了模型的PLS系数,以增强可解释性并确定哪些波长对模型的分类最为关键。所有PLS-DA模型都是使用Python(Python Software Foundation)库Scikit-learn(版本1.3.1)实现的。

关于RFF
RFF是一种基于决策树的流行机器学习算法。如果有适当的数据,它可以生成稳健且高度可解释的模型,并且训练速度快,不需要太多的计算资源[19]。在本研究中,RF模型在不同的流体标记物的N X 864特征矩阵上进行了3折交叉验证训练。其中N是样本数量,864是测量得到的3个光谱的强度值。结合评估策略中提到的指标,跟踪了模型的特征重要性,以了解哪些波长对分类决策贡献最大。RF模型的实现使用了Python库Scikit-learn(版本1.3.1)。选定的超参数列在多媒体附录1的表S3中。

关于CNN
第三种机器学习方法涉及训练一个简单的CNN。该架构包括2个2D卷积层和2个全连接层。每次卷积操作之后,都进行了批量归一化和最大池化操作。从光谱得到的3通道图像(见关于RF的部分)被用作CNN的输入。为了获得分类概率,全连接层的输出使用sigmoid函数归一化到0到1之间的值。CNN的超参数(学习率、批量大小和优化器)是通过手动搜索确定的,该搜索基于在整个训练集上训练和评估的所有生物标志物模型计算出的平均MCC。使用这组超参数,分别为每个流体标记物训练了单独的CNN模型,进行了3折交叉验证,每次折叠开始时模型的权重被随机初始化。所有CNN模型都是使用Python库PyTorch(版本1.13.1)实现的。实现的架构概览以及训练参数在多媒体附录1的表S4中提供。

结果概述
表3总结了在所有排水标记物上训练的AI模型的性能。对于血红蛋白、胆红素、白蛋白、乳酸脱氢酶、总蛋白和单核细胞等标记物,至少训练了一个模型,其在测试数据集上的MCC分数高于0.5。对于这些标记物,至少有一个AI模型的F1分数达到了0.71或更高。除了单核细胞模型外,所有3种AI方法的上述标记物的ROCAUC值始终高于0.8。为了评估3种AI方法的整体性能,计算了所有流体标记物的MCC分数平均值。PLS-DA和RF方法的平均MCC分数分别为0.37(SD 0.28)和0.37(SD 0.26),而CNN方法的分数略高,为0.4(SD 0.3)。Friedman检验显示模型之间的性能没有统计学上的显著差异(χ²2=2.31,P=.315,Kendall W=0.08)。
表3. 在排水标记物数据集上训练和测试的PLS-DAa、RFb和CNNc模型的结果概述。

在表3中,列出了在所有排水标记物上训练的AI模型的性能概览。对于每个标记物,至少训练了一个模型,其在测试数据集上的MCC分数高于0.5。对于这些标记物,至少有一个AI模型的F1分数达到了0.71或更高。除了单核细胞模型外,所有3种AI方法的ROCAUC值始终高于0.8。为了评估3种AI方法的整体性能,计算了所有流体标记物的MCC分数平均值。PLS-DA和RF方法的平均MCC分数分别为0.37(标准差0.28)和0.37(标准差0.26),而CNN方法的分数略高,为0.4(标准差0.3)。Friedman检验显示模型之间的性能没有统计学上的显著差异(χ²2=2.31,P=.315,Kendall W=0.08)。

关于PLS-DA
a. PLS-DA:偏最小二乘判别分析回归。
b. RF:随机森林。
c. CNN:卷积神经网络。
d. MCC:Matthews相关系数。
e. ROC:曲线下面积。
f. TPR:真阳性率。对于每个流体标记模型,每个PLS系数的值都被归一化到所有288个(波长数)× 3个(光路径DT、AT和AR)系数的总和。之后,对于每个波长,不同的光路径(DT、AT和AR)的系数贡献被相加,以获得每个波长和流体标记的单一值。在图7A中,以热图的形式显示了PLS-DA系数归一化总和的百分比贡献。图7. PLS-DA系数和RF特征重要性。(A) 每个引流和尿液模型的PLS-DA回归系数绝对值的热图表示。(B) 每个引流和尿液RF模型的特征重要性总和的热图表示。LDH:乳酸脱氢酶;PLS-DA:偏最小二乘判别分析回归;RF:随机森林。在图7B中,检查了每个流体标记模型的RF特征重要性值。与PLS-DA系数类似,3个光路径(DT、AT和AR)的特征重要性也按波长进行了汇总。由于所有训练模型的特征重要性总和已经等于1,因此无需进一步归一化每个波长的贡献。然后将汇总的系数排列成热图。不建议对PLS-DA和RF热图进行一一比较,因为PLS系数和RF特征重要性代表不同的统计概念(回归与决策树)。尽管如此,在检查研究标记的RF特征重要性和PLS-DA系数时,仍可以观察到相似的响应。例如,引流胆红素的汇总RF特征重要性显示了两个明显的峰值,分别位于470纳米和570纳米附近。这些峰值在用尿液胆红素数据训练的RF模型中也同样清晰可见。在某种程度上,相同的标记的PLS-DA系数中也可以看到类似的响应。另一个明显的例子是血红蛋白。在引流血红素的汇总RF特征重要性中大约400纳米处有一个明显的峰值,在该标记的PLS-DA系数中也可以识别出这一峰值。有趣的是,在引流数据的红细胞计数标记中也可以看到相同的峰值。这很可能是由于样本中的血细胞数量与总血红蛋白量之间的相关性所致[29,30]。

在本文中,提出了一种基于机器学习的方法来分类尿液和引流样本。使用一种集成在普通导管管中的紧凑型迷你光谱仪,从样本中获取光谱数据,并用作训练机器学习模型的输入。这种方法在开发能够实时监测收集液体成分的早期预警系统中起着关键作用。本研究的结果表明,所采用的方法在解决研究问题方面具有巨大的潜力。为多个流体标记数据集训练出了有前景的AI模型。特别是,至少有6个引流标记和5个尿液标记的MCC得分达到了0.5或更高。这些模型在分类未见过的测试数据时显示出了明显的预测能力。因此,可以确信,所检查的数据包含了对分类过程至关重要的信息。特别是血红蛋白和胆红素数据的结果尤为重要。这些流体标记在其他标记中脱颖而出,使用所有3种AI方法都表现出色。总体而言,3种方法的性能相当,其中CNN方法的得分略高。如图7所示,PLS-DA和RF算法的优势在于它们分别考虑了回归系数(PLS-DA)和特征重要性(RF)。对于许多标记,相同的波长区域似乎在模型的决策中起着重要作用,但在PLS-DA模型的情况下,响应在多个波长上更为广泛。换句话说,RF模型通常比PLS-DA模型更具选择性。所实现的CNN架构相对较浅且体积较小,这使其具有高度便携性,因此可以轻松嵌入到智能导管设备中的微控制器中。

本研究存在一些局限性。通常,使用引流数据作为输入训练的模型比使用尿液数据训练的模型表现得更好。这种性能差异很可能是由于引流光谱的光谱变异性较高(另见多媒体附录1中的图S1),通过调整液体特定的光谱仪曝光时间可以缓解这一问题。此外,如表1和表2所示,许多流体标记的健康样本和病理样本之间的分布严重不平衡。因此,对于那些不平衡特别明显的流体标记,训练出的模型在测试数据上的表现不佳。此外,模型的性能还受到所采用的数据集分割策略的影响。如前所述,基于患者信息进行了分组训练-测试分割和交叉验证以防止数据泄露。然而,这一过程进一步加剧了許多流体标记数据集中少数类和多数类之间的比例失衡,导致训练和测试数据集的代表性较差。有关更多信息,请参阅多媒体附录1中的表S1和表S2。因此,采用MCC得分对于准确解释模型的性能至关重要。另一方面,F1分数、ROCAUC和TPR只能提供对训练模型实际性能的有限视角,并且只有在不平衡不太明显的数据集上才可靠。高MCC得分的模型倾向于表现出高的ROCAUC、F1分数和TPR。然而,情况并非总是如此。ROC曲线、F1分数和TPR倾向于偏向正样本(即病理样本)[31-33]。因此,如果在数据集中多数类由病理样本代表,那么在严重不平衡的数据集上训练的模型将倾向于显示出高的ROCAUC、F1分数和TPR。基于这些原因,MCC得分是评估模型性能最可靠的指标,特别是在检查在严重不平衡数据集上训练的模型结果时应优先考虑。需要进一步的工作来巩固和确认本文中的发现。应通过增加样本数量来改进数据集,以减少病理样本和健康样本之间的不平衡。此外,增加样本总数将有助于生成更具代表性的训练、验证和测试数据集。虽然当前的结果很有前景,但对分类流程的某些元素进行进一步实验可能有助于提高性能。首先,可以测试不同的光谱预处理技术以提高光谱质量[34,35]。此外,可以进一步微调3种AI算法。特别是,可以对PLS-DA算法应用变量选择方法。该方法通过迭代地从输入特征矩阵中移除对分类决策贡献较小的波长强度值来优化MCC得分。RF和CNN方法都可以从标准正则化技术中受益,以减少验证阶段的过拟合[36]。这些改进可能会带来更高的性能,尤其是在流体标记中,通过包含新样本可以改善正样本和负样本之间的平衡。另一个值得探索的架构设计变化是实现多任务分类框架,旨在通过从相同的光谱输入中学习特征来同时建模多个生物标记。然而,鉴于当前关于样本数量和类别不平衡的限制,目前更为保守的方法为每个生物标记单独训练分类器更为稳健且更具可解释性。

总之,我们认为我们的工作是一个非常成功的概念验证,具有重要的临床意义。这项研究是开发集成在智能导管设备中的早期预警系统的重要初步步骤。成功实现这一愿景有可能通过减少医疗专业人员的工作负担并提供尿液和引流相关并发症的早期检测来极大地改善日常临床实践。

生物通微信公众号
微信
新浪微博


生物通 版权所有