基于多模态视觉-语言嵌入学习的可解释性白细胞分类与形态属性预测研究

时间：2025年7月30日

来源：Computers in Biology and Medicine

编辑推荐：

研究人员针对血液学图像分析中传统深度学习方法难以整合多模态数据、缺乏可解释性预测的问题，提出基于对比语言图像预训练（CLIP）模型的多模态嵌入学习方法。通过构建结构化自然语言提示，在共享语义空间对齐图像与文本编码，结合自适应加权多任务损失函数，实现了白细胞（WBC）分类和形态属性预测的同步优化。实验表明该方法在公开数据集上达到最优性能，准确率99.78%，为自动化血液分析提供了兼具高精度和可解释性的解决方案。

在临床血液学诊断中，白细胞（WBC）分类和形态分析是白血病、贫血等疾病筛查的关键环节。然而，传统人工镜检存在效率低、主观性强的问题，而现有深度学习模型多局限于单模态图像分析，难以整合形态学属性文本描述，导致预测结果缺乏可解释性。随着多模态基础模型如对比语言图像预训练（CLIP）在医学领域的应用拓展，如何利用视觉-语言对齐技术实现血液细胞的精细化分析成为研究热点。

研究人员提出了一种创新的多模态嵌入学习框架。该方法首先设计结构化自然语言提示模板，将WBC类型和11种形态属性（如细胞大小、核形状等）转化为语义丰富的文本描述。通过RN50图像编码器和CLIP文本编码器生成联合嵌入，采用多任务损失函数同步优化分类与属性预测任务，并引入自适应权重机制解决类别不平衡问题。在包含10,308张标注图像的PBC数据集上，模型以99.78%的准确率刷新性能记录，属性预测平均F1-score达95.6%。

关键技术包括：1）基于CLIP的跨模态嵌入对齐；2）针对WBC类型和形态属性的动态提示生成；3）结合梯度加权类激活映射（Grad-CAM）的可视化解释模块。实验验证了RN50作为图像编码器的最优性能，在Raabin-WBC数据集上零样本分类准确率达64.07%，显著优于原始CLIP模型。

研究结果显示：

分类性能突破：在PBC数据集上超越ViT-B/16等主流模型，分类准确率提升0.13-0.77个百分点（表1）。与最新方法DAFFNet相比，准确率优势达1.01%（表2）。
属性预测优势：在核形状、细胞质纹理等复杂属性预测中，准确率较基线方法提升3.2-8.7%（表3），F1-score提高1-5个百分点（表4）。
跨数据集泛化：在Raabin-WBC数据集上经微调后准确率达98.59%（表6），验证了模型泛化能力。

该研究的创新性体现在：