简单摘要
阿尔茨海默病(AD)的早期识别充满挑战,这限制了及时的诊断和管理方案。本研究提供了一种现实可行的方法,将常规观察到的临床症状与脑成像相结合,以检测和分期阿尔茨海默病。该方法通过可解释人工智能(XAI)方法,不仅识别了重要的早期预警指标,还指出了相关的脑区,从而提高了准确性并提供了实用的解释。这项研究的发现可能有助于临床决策,并为未来研究开发更精确、更清晰、更易于获取的阿尔茨海默病检测和分期技术提供了一个灵活的框架。
摘要
背景/目标:阿尔茨海默病是痴呆症的主要原因,以进行性认知能力下降和严重的社会经济负担为特征。早期准确诊断对于改善患者预后至关重要,但传统的临床和影像学评估往往灵敏度有限,尤其是在早期阶段。本研究提出了一个双模态框架,利用机器学习(ML)和深度学习(DL)模型,并通过可解释人工智能(XAI)增强,将基于症状的临床数据与磁共振成像(MRI)相整合。方法:四种ML分类器——K近邻(KNN)、支持向量机(SVM)、决策树(DT)和随机森林(RF)——在人口统计学和临床特征上进行训练。对于分期分类,五种DL模型——CNN、EfficientNetB3、DenseNet-121、ResNet-50和MobileNetV2——被应用于MRI扫描。通过SHAP和Grad-CAM可视化融入了可解释性。结果:随机森林在临床数据上达到最高准确率97%,而CNN在基于MRI的分期中取得最佳整体性能,准确率为94%。SHAP和Grad-CAM被用来发现临床相关特征和脑区,包括海马体萎缩和脑室扩大。结论:整合临床和影像数据以及可解释的人工智能提高了AD分期的准确性和可靠性。所提出的模型提供了一条有效且清晰的诊断路径,可以帮助临床医生做出及时诊断并调整个体化治疗方案。
1. 引言
阿尔茨海默病(AD)是痴呆症最普遍的原因,其发病隐匿,伴有选择性认知能力受损,包括记忆、决策和沟通。作为一种常见的神经退行性疾病,AD被认为是导致所有痴呆症病例高达70%的原因,尤其是在老年人中。AD是一种神经退行性疾病,是最常见的痴呆形式之一,导致大脑中神经细胞的丧失和精神功能退化。痴呆症的主要特征之一是认知能力(如记忆、思维和沟通)的进行性恶化。它在老年人中更为常见,对患者本人、其家人和护理人员都有显著影响。随着全球人口老龄化,AD的病例数预计将急剧增加,使其成为一个严重的公共卫生问题。
海马体萎缩是AD的最早迹象之一,海马体在记忆形成中起着至关重要的作用。随着AD的恶化,经常观察到脑皮质变薄和白质中断,这标志着疾病进入了更晚期阶段。这些大脑的解剖学变化强调了早期识别对于控制和减轻疾病症状至关重要。早期诊断的重要性在于,一旦确诊,就可以采取行动;疾病进程可以减缓,生活质量可以得到改善,家人也可以有更多时间准备。此外,早期诊断允许在最有效的时机采取治疗措施,可能延迟更严重症状的出现。随着世界人口老龄化,预计未来几十年AD病例数量将大幅增加。
AD是痴呆症最常见的原因,导致高发病率和死亡率。大脑中有β-淀粉样斑块的积聚,必须追踪早期的淀粉样蛋白标记物。AD是痴呆症的主要原因,尤其是在老年人中。大脑中的淀粉样蛋白-β斑块和tau蛋白缠结是疾病的标志,导致细胞和突触死亡。AD极大地影响了患者的生活质量,也给家庭和护理人员带来了沉重负担。尽管最近的临床试验在减少这些斑块对神经退行性和认知的影响方面显示出希望,但低淀粉样蛋白负荷表明了淀粉样蛋白PET、MRI和认知之间复杂且未解决的关系。
增强高效AI算法的大脑成像技术已成为认知疾病研究中一个有前景的支柱,并有助于药物发现、诊断和预防。纵向MRI研究表明,随着阿尔茨海默病的进展,大脑结构会发生改变。随着时间的推移,脑成像研究观察到海马体和皮质区域的退行性变化,这些变化与认知能力下降有关。此外,随访研究表明,早期海马体体积损失可以预测记忆和认知能力的下降,对认知下降的时间理解可以为新的基于生物标志物的技术或基于AI的早期阿尔茨海默病检测模型设定参数。
当前的大脑-行为研究使用单变量方法展示了单个脑区与认知下降或临床严重程度之间的单变量相关性,这些方法一次只呈现一个区域的信息。图1总结了与阿尔茨海默病诊断相关的结构性大脑改变和MRI扫描,其中基于体积的诊断(如海马体萎缩)在为基于AI的分类算法提供信息方面发挥着重要作用。
尽管CNN等AI模型在检测AD方面前景广阔,但其合理性解释在这些模型的临床应用中至关重要。缺乏透明度可能导致临床医生不愿信任这些模型,尤其是在涉及患者生命的情况下。尽管如此,这些方法也面临一些挑战,因为它们的解释是主观的,并且不易获得,特别是在资源匮乏的地区。为了获得更好的患者结局并减缓疾病进程,AD的早期检测至关重要。早期干预可以改善症状管理并实现最佳治疗策略。然而,由于早期症状隐匿,AD的早期诊断仍然具有挑战性。因此,开发准确、非侵入性的早期诊断技术至关重要。此外,迫切需要早期诊断,因为这意味着可以及时治疗和管理疾病。尽管机器学习(ML)和深度学习(DL)方法在AD的自动诊断中显示出潜力,但目前开发的许多模型可以被描述为“黑箱”,其预测背后的推理不明确,这降低了它们在临床医生眼中的适用性。延迟AD的进展并确保适当的护理取决于早期识别。早期识别使得早期干预成为可能,这可以显著提高患者的生活质量并减轻护理人员的负担。
磁共振成像(MRI)因其能够提供大脑的全面结构图像,已被证明是AD中有用的诊断技术。AD的最早迹象之一是大脑特定部分(如海马体)的萎缩,这可以通过MRI扫描检测到。认知下降通常伴随着困惑、定向障碍和记忆丧失等症状。尽管MRI仍然需要放射科医生的人工解读,但其与临床症状的结合使用提高了AD的诊断特异性。
在传统诊断技术中,用于诊断阿尔茨海默病的主要成像工具之一是磁共振成像(MRI)。MRI有助于检测指示AD的大脑解剖学变化,例如海马体和其他皮质的萎缩。记忆丧失和认知下降等症状通常在大脑发生广泛变化后才出现。由于神经影像数据的数量和复杂性不断增加,它们不再那么有用。通过从海量数据中提取难以识别的特征,深度学习(DL)和机器学习(ML)技术在自动化和改进AD分类方面显示出巨大潜力。然而,大多数ML模型的“黑箱”性质限制了它们在医疗环境中的应用。凭借其搜索大型数据库和识别复杂模式的能力,机器学习(ML)和深度学习(DL)技术已成为AD分类的主要工具。在可解释性至关重要的临床实践中,可解释人工智能(XAI)对于提供这些模型的透明度和信任至关重要。
为了解决这个问题,可解释人工智能(XAI)为模型的决策提供了简洁易懂的理由。为了克服这些缺点,XAI最近开始流行,承诺提供一种解决方案,使模型的决策对临床医生来说是可解释和可理解的。借助XAI方法,如沙普利加法解释(SHAP),研究人员开始获得关于每个特征对AI模型做出特定预测的贡献的实用信息,从而改善临床决策。
在本文中,我们将研究如何将可解释AI整合到阿尔茨海默病的诊断中,特别是融合MRI和临床特征的概念,用于二元和多类分类问题,例如轻度痴呆、中度痴呆、极轻度痴呆和正常。本文的目的是研究如何结合MRI和临床数据中的深度学习模型来预测阿尔茨海默病及其阶段:中度、轻度、极轻度和无痴呆。重点是使用可解释的AI技术使模型输出更具可解释性,以便可以更有效地在临床环境中使用。此外,该研究试图弥合传统方法与基于AI的AD诊断方法之间的差距。为了提高结果的可解释性和鲁棒性,本项目将研究在MRI数据背景下,将可解释AI技术与深度学习和机器学习模型结合使用,用于阿尔茨海默病的分期分类。
2. 文献综述
在过去的十年中,机器学习(ML)在阿尔茨海默病诊断中的应用取得了巨大发展。早期的AI主要基于经典统计技术,而后来则彻底改变了该领域。尽管基于卷积神经网络(CNN)的深度学习已成功用于处理MRI数据,但这些模型在识别AD早期阶段大脑内部结构细微变化方面的潜力尚未得到充分探索。可以预期,使用基于多数据源的混合模型可以进一步提高准确性。这些机器学习技术特别擅长识别尚未引起临床症状的早期结构性大脑变化。然而,这些模型中有相当一部分只关注神经影像数据,而忽略了重要的临床特征,如患者症状和遗传决定因素。
使用机器学习检测阿尔茨海默病的重要临床数据包括年龄、记忆主诉、MMSE、家族史和定向障碍等因素。年龄是另一个重要的不可改变的风险因素,因为65岁以后,AD的发病率每五年翻一番。短期记忆障碍是海马体退化的指标之一,通常在临床诊断前出现。MMSE(简易精神状态检查)等认知评估是相关的,因为低于24分的分数对应于AD阶段的认知下降。家族史使一个人易患AD,尤其是在涉及APOE4基因时。时间、地点和身份定向障碍多数为中度,并且可以与顶叶/颞叶损伤相结合轻松识别。将这些因素纳入ML模型也有助于更好地区分正常衰老、MCI和AD,从而可能导致更快的诊断和治疗。
许多研究专注于构建主要基于神经影像数据(包括正电子发射断层扫描(PET)和MRI扫描)的自动AD分类器。传统上,机器学习(ML)技术被用来从各种成像模式中提取特征,以区分AD、轻度认知障碍(MCI)和正常对照(NC)组。早期研究依赖于简单的分类算法,而最近的进展包括了更复杂的方法,如深度神经网络(DNNs)。
在临床诊断AD时,MRI通常是首选方式。它可以产生高分辨率图像,显示AD特征性的大脑萎缩和其他结构性变化。成像通常用于支持基于症状的诊断,成像结果通过临床病史和认知测试进行验证。然而,仅使用这些传统方法通常会导致晚期诊断。
先前的研究中使用了多种基于脑成像生物标志物(如MRI)的方法,利用一系列AI和ML模型来诊断阿尔茨海默病。这些研究通常使用神经网络、支持向量机(SVM)和其他分类器来区分AD的不同阶段。
MRI更常见的用途是评估大脑解剖结构和识别与AD相关的异常。为了提高分类准确性,成像数据与症状信息(如认知测试(如简易精神状态检查))相结合。卷积神经网络(CNN)作为一种深度学习模型,已被提议用于从MRI图像中早期诊断AD。这些设计在区分AD的几个阶段方面非常有效,包括轻度认知障碍(MCI),这被认为是AD的前驱阶段。卷积神经网络(CNN)作为一种深度学习技术,在识别用于检测AD的医学图像方面表现出卓越性能。这些模型可以自动从原始PET和MRI数据中学习特征,无需人工特征提取。此外,为了提高分类准确性,先前的研究使用了混合方法,将ML和深度学习模型与症状数据相结合。在海量MRI数据上训练的深度学习模型可以自动提取海马体萎缩、皮质变薄和脑室扩大等特征。这些结构特征在图1中进行了图形说明,其中应强调MRI数据在多阶段AD分类中的作用。这些神经解剖学变化与AD从极轻度到中度阶段的发展相关。海马体大小的减小可以在初始阶段观察到,更晚期的阶段则以显著的脑室扩大和皮质萎缩为特征。这些模式可以帮助深度学习模型区分健康衰老、MCI和AD,为疾病的可扩展和客观分期提供了可能性。
最近,结合神经影像信息和临床特征的多模态方法取得了令人鼓舞的结果,能够显著提高分类准确性。通过将临床特征(包括认知评分和症状主诉)添加到MRI生物标志物中,其性能得到了提升。另一个进展是将MMSE评分、定向障碍症状和与年龄相关的因素与神经影像联系起来,因为这使得能够发现早期阿尔茨海默阶段,与单独使用成像或临床变量相比。结合结构性退化为基础的多模态模型(使用MRI)和认知症状,在二元和多类AD分类中显示出更好的敏感性和特异性。例如,一个结合MRI扫描和临床数据的混合CNN模型在诊断中优于仅使用成像数据的模型。这种模态的结合提供了更全面地考虑疾病的可能性,更好地区分阿尔茨海默病和其他认知障碍,包括轻度认知障碍(MCI)。
AD的诊断一直被视为一个二元分类问题(AD与非阿尔茨海默病)。新技术使得多类分类模型成为可能,这些模型可以区分MCI、早期AD和晚期AD。为了保证最高水平的分类稳定性,这些系统还经常将MRI数据与临床结果(如遗传标记和认知测试数据)相结合。二元分类模型将NC与AD或MCI分开。多类分类模型区分AD的几个阶段,例如正常、MCI和晚期AD。CNN和XGBoost等深度学习模型已成功应用于二元和多类问题。
尽管阿尔茨海默病诊断中AI系统的发展前景广阔,但AI系统在临床实践中实施面临的一个大问题可归因于大多数深度学习系统的不可理解性。尽管此类模型在做出预测方面表现良好,但尚未被临床医生广泛采用,因为这些模型通常被视为黑箱,尤其是在医疗保健等高风险环境中。这种透明度的缺乏导致了对所谓可解释AI方法的研究激增,这些方法旨在提供AI模型如何做出决策的洞察。SHAP和Grad-CAM等方法正被用于阿尔茨海默病诊断模型,为临床医生提供更可解释的理由,说明为何做出特定诊断。
最近,多模态和可解释AI框架在很大程度上推动了阿尔茨海默病(AD)诊断技术的发展。例如,一个提供基于Grad-CAM可解释性的混合CNN-SVM流程,结合了MRI和认知变量,实现了约92%的诊断准确率。该研究表明,Grad-CAM工具的可解释性能够实现更快、更好的决策。此外,特征级可解释性提高了诊断建模的透明度并建立了临床医生的信任。尽管有这些改进,在研究设计和资源方面仍然存在困难和障碍。模型的可解释性和泛化能力仍然受到带高质量注释的多模态数据集获取有限、技术设计的实施过程以及获取不同多模态源(如MRI、认知筛查和临床测量)的 somewhat 限制。一些最近结合MRI衍生生物标志物和认知筛查数据的研究表明,可以整合多模态信任问题,以在可解释性、知识保留和准确性之间达成良好折衷。通过使用这些方法,我们可以创建更透明、与临床医生更相关、更有效的AI模型。我们还可以为未来的多模态工作研究奠定基础,这些工作不仅检测疾病,还识别疾病阶段,并解释代表疾病存在的特征。
目前阿尔茨海默病诊断的挑战之一是带注释的多模态数据来源有限,而这些数据是设计稳健且通用模型所必需的。此外,应该开发融合不同模态(MRI、遗传信息和临床测量)收集的数据的方法,同时仍能保持对结果的理解。尽管已经澄清了相当多的模糊之处,但要验证阿尔茨海默病诊断的AI模型准确且可解释,仍有许多工作要做。最近,作者通过实施可解释AI方法,创建了一个集成模型,该模型结合了基于MRI的特征提取和认知筛查数据,保持了高水平的准确性和可解释性。这一补充突出了多模态方法在阿尔茨海默病诊断中持续的重要性。将神经影像生物标志物与临床和认知数据相结合可能会对疾病历史和动态产生更全面和深入的理解。这种双模态系统将有助于建立更好的诊断模型,同时也使模型在临床环境中更加透明和可靠。与这些进展保持一致,我们的研究强调了MRI衍生的特征和症状数据持续且互补的重要性,并展示了融合两种数据输入如何在实际临床决策场景中增强模型的鲁棒性和临床相关性。虽然我们强调提高模型可靠性、泛化性和临床研究中的解释是诊断研究的基础,但未来的研究将专注于进一步优化多模态数据的方法,然后扩展其用途,并建立整合模式的方法。
尽管取得了令人鼓舞的进展,但在使用深度学习和机器学习诊断AD时仍然存在一些问题。首先是缺乏用于训练模型的大型带注释数据集。其次,由于大多数深度学习模型是“黑箱”,这些模型的可解释性仍然是一个重大困难,这使得医生难以理解它们。此外,使用多模态数据(如临床、MRI和遗传数据)在技术和计算上都具有挑战性。尽管取得了成就,仍然存在许多困难,特别是在提高黑箱模型的可解释性方面。大多数ML和DL模型因不透明而受到批评,这意味着临床从业者发现难以采用它们。此外,在使用有限的专家数据集和组合多模态数据(如遗传、神经影像和认知评分)方面也存在问题。
3. 材料与方法
本研究提出了一种双模式诊断框架,其中临床症状相关数据与结构性神经影像(MRI)相结合,以高精度对阿尔茨海默病(AD)进行分期。临床模式展示了人口统计学特征(年龄、性别、教育程度)、认知测试结果、记忆主诉和早期定向障碍——所有这些特征已知在AD发展的早期阶段就存在。MRI模式专注于结构性生物标志物,如海马体萎缩、脑室扩大和皮质变薄,这些通常在明显的临床症状出现之前就发生。为了检验这两种模式,我们使用经典的ML模型(KNN、SVM、决策树、随机森林)处理临床数据,并使用最先进的DL模型(CNN、EfficientNetB3、DenseNet-121、ResNet-50、MobileNetV2)处理MRI扫描以进行分期分类。为了实现模型输出的信任和可解释性,使用了可解释AI(XAI),如SHAP(用于临床特征)和Grad-CAM(用于MRI图像),从而可以查看哪些特征和脑区在诊断中最重要。
所有模型训练和实验均在Google Colab和Kaggle Notebooks上运行,利用其GPU/TPU和预安装的ML/DL包(TensorFlow (V. 2.12)、PyTorch (V. 2.1)、Keras (V. 2.12) 等)。Google Colab还支持深度学习模型的收敛,借助GPU/TPU加速,允许更快的收敛。Kaggle用于数据集的预处理、探索性数据分析、笔记本的版本控制以及模型/结果的可重复存储。这些工具在最近关于AI的生物医学研究中也常见,因为它们易于访问、成本低廉且计算有效,这使它们非常适合使用大型MRI数据集进行AD分类过程。
本文使用了如图2所示的双模式方法,利用严格的结构性MRI扫描和基于症状的临床数据,以高置信度对阿尔茨海默病及其阶段进行分类。MRI数据包括高分辨率矢状和冠状脑扫描,并标记了主要解剖结构,如海马体、皮质和脑室,因为它们被认为在阿尔茨海默病发展过程中经历显著的退化。提取的特征作为结构性生物标志物,如海马体萎缩、皮质变薄和脑室扩大,并假定它们具有预测性。相应地,临床数据包含患者个体特征信息(年龄、MMSE(简易精神状态检查)评分、记忆主诉、定向障碍症状和痴呆家族史),这些是认知下降的主要非成像预测因子。结合这两种数据源可以形成一种全面的策略,通过二元和多类分类来实现。MRI图像通过OASIS阿尔茨海默病检测数据集下载,临床数据通过ADD数据集下载。没有为这项调查专门收集新鲜信息。机构审查委员会批准不是必需的,因为这项工作涉及对公开可访问数据集的早期检查。
3.1. 数据集描述
临床数据集共有2149名患者:1088名男性和1061名女性,其中1389名无痴呆患者和760名痴呆患者。每位患者记录包括人口统计数据和认知特征(MMSE评分、记忆主诉、定向障碍症状和痴呆家族史)。基于CDR标记,我们将MRI数据集中的86,437张脑部扫描分为四个临床阶段:正常(67,222张)和极轻度(13,725张)、轻度(5002张)和中度痴呆(488张)。为确保统一的空间分辨率,所有MRI扫描都经过预处理,包括颅骨剥离、强度归一化并缩放至128 × 128像素。通过详细呈现数据集,无疑增进了对人口规模和各阶段分布的理解,从而指导临床和影像评估。本研究的方法如图2所示。
3.2. 预处理
临床数据,包括年龄、MMSE评分、记忆和定向障碍主诉以及家族史,经过清理,对缺失值进行插补,并在必要时进行标签编码。实施Z-score归一化以确保跨特征尺度的一致性。每个特征的Z-score计算为 z = (x - μ) / σ,其中x是初始特征值,μ是特征的平均值,σ是特征的标准差。
这些处理后的特征主要用于区分阿尔茨海默病和非阿尔茨海默病病例。为了处理MRI数据,所有扫描都经过调整大小、强度归一化、颅骨剥离并转换为灰度切片。通过使用预处理技术,增强了主要解剖结构,如海马体、皮质和脑室,从而能够获取细粒度的空间生物标志物。MRI数据集显示出显著的类别不平衡,中度痴呆类别的样本数量明显少于