根据世界卫生组织(WHO)的数据,2019年有超过850万人患有帕金森病(PD),该组织强调迫切需要更准确、更易获得的早期检测方法[1]。此外,由于全球人口老龄化,预计到2040年帕金森病的患病率将增加50%以上[2]。这种疾病严重影响了患者的生活质量,并给全球医疗系统带来了巨大负担[3][4]。尽管传统诊断主要依赖于震颤和动作迟缓等运动症状[5][6],但非运动症状(如睡眠障碍、认知衰退和声音变化[7])可能在临床确诊前多年就已出现[8]。这种识别延迟显著限制了治疗效果并恶化了患者预后[9]。
过去二十年里,文献中探讨了多种单模态的帕金森病诊断策略,但这些方法都存在明显局限性,尤其是数据集规模较小[10]。基于语音的方法作为早期生物标志物具有潜力,但受数据集小、说话者间差异大以及缺乏标准化采集协议的影响,在实际临床环境中难以重复使用[12]。基于传感器的设备可以持续监测步态或震颤[13],但容易受到环境噪声和设备异质性的影响[14],且缺乏临床标准化,限制了其大规模应用[15]。神经影像技术(如磁共振成像MRI和计算机断层扫描CT)提供了有价值的结构和功能信息,但依赖于昂贵的基础设施和大型标注数据集,在常规实践中难以应用[16];不过最近的多模态和临床流程结合可解释性技术显示出较强的区分能力[17]。此外,尽管患者病史和检查报告等临床信息不可或缺,但它们本身无法保证早期和准确的筛查。这些局限性表明单模态方法的不足,凸显了集成诊断框架的必要性[18]。
越来越多的研究利用医疗物联网(IoMT)平台进行疾病监测和诊断,这些平台利用智能设备和传感器持续收集数据[19][20]。多项研究强调了开发能够执行传感器融合和边缘处理的强大电子健康架构的重要性,这对于处理海量数据至关重要[21][22]。
在这一背景下,生物医学工程与人工智能的结合使得设计能够整合异构数据源的多模态系统成为可能[23][24]。多模态融合为帕金森病进展提供了互补的见解,克服了单模态方法的局限性,并提高了跨患者群体的泛化能力[25][26]。然而,大多数现有框架依赖于完全配对的多模态数据集或高容量模型,这在数据可用性和资源条件差异较大的临床环境中限制了其应用[27][28]。
为了解决这些限制,本文提出了一种协作式多模态架构,该架构整合了异构数据模式、可穿戴传感器、音频记录和临床信息,基于检索增强生成(RAG)框架,并由小型语言模型(SLMs)进行指导[29][30]。该系统采用“延迟元融合分析”策略,即针对不同队列独立训练特定模态的专家,然后通过加权决策级融合方案进行整合。这种做法与最新的多模态临床AI研究一致[31][32],能够在保持可解释性和鲁棒性的同时实现跨非配对数据集的知识整合。
综上所述,这些因素促使我们开发出一种利用RAG机制和轻量级SLMs的多模态系统,以提高计算效率,并能在资源有限的环境中部署,同时不牺牲诊断可靠性。所提出的框架不仅结合了互补的模态信息以克服单模态方法的局限性,还正式化并验证了跨队列临床推断的“延迟元融合”范式。其有效性通过与单模态基线的比较分析、融合级别消融实验和决策曲线分析(DCA)进行了评估。
本文的主要贡献包括:
•开发了一种具有增强型多模态RAG系统的代理架构,可与IoMT设备连接,实现持续的患者数据收集。