在当今科技飞速发展的时代,生成式人工智能(AI)取得了显著进展,尤其是扩散模型在文本到图像合成领域展现出强大的能力。在医疗保健行业,这些模型为生成合成数据集和辅助医学培训带来了巨大的潜力。例如,医学教育者能够借助先进的图像合成方法,创建高度逼真且多样的各类眼部疾病数据集,帮助医学生更好地理解不同病症。
然而,看似前景无限的背后却隐藏着问题。目前,人们并不清楚图像生成的质量在不同人口亚组之间是否一致。在医疗领域,这种图像生成质量在不同受保护属性(如性别、种族、民族等)上的公平性差距,会引发严重的伦理和公平问题。因为这些偏差可能会无意中延续医疗保健方面的差异,使不同群体在医疗资源获取和治疗效果上产生不公平的现象。为了解决这一关键问题,来自未知研究机构的研究人员开展了关于医疗文本到图像扩散模型公平性的研究。他们提出了 FairDiffusion 模型,这是一种具有公平意识的潜在扩散模型,同时设计并整理了 FairGenMed 数据集。相关研究成果发表在《SCIENCE ADVANCES》上,为该领域的发展提供了重要的参考。
研究人员在开展研究时,用到了几个主要关键的技术方法。首先,设计并构建了 FairGenMed 数据集,该数据集来源于 2015 - 2022 年间在某大型学术眼科医院接受青光眼服务的患者,包含 10,000 个样本,涵盖多种受保护身份属性及详细临床测量数据。其次,基于贝叶斯优化方法提出 Fair Bayesian Perturbation,用于调整模型学习过程以实现公平生成学习。最后,采用多种评估指标,如 Fréchet Inception Distance(FID)、Inception Score(IS)、Area Under the Receiver Operating Characteristic Curve(AUC)等,从图像生成质量和临床特征语义相关性等方面对模型进行评估 。
研究结果主要从以下几个方面展开:
- 定性可视化对比:对比训练后的 Stable Diffusion 和 FairDiffusion 模型生成的图像与 FairGenMed 数据集中的真实 SLO 眼底图像,发现两者生成的视网膜扫描图像都较为逼真,但难以从视觉上直接比较。于是设计了两个评估流程,分别从图像生成质量和临床特征语义相关性方面评估模型性能和公平性。
- 图像生成质量的公平性:对 FairDiffusion 和 Stable Diffusion 模型在图像生成质量方面进行综合评估。结果显示,Stable Diffusion 模型在不同人口亚组间存在显著偏差,例如在性别方面,女性亚组的生成性能优于男性亚组;在种族方面,白色人种亚组表现最佳;在民族方面,非西班牙裔亚组更具优势。而 FairDiffusion 模型不仅在整体生成性能上优于 Stable Diffusion 模型(FID:48.3 对 50.1;IS:2.64 对 2.43),在亚组公平性上也有显著提升(如种族 ES - FID:88.2 对 96.1;种族 ES - IS:1.67 对 1.33)。在不同亚组中,FairDiffusion 模型均有明显改进,如黑色亚组 FID 从 122.6 降至 114.8,西班牙裔亚组 FID 从 1147.5 大幅降至 135.7。此外,在 HAM10000(皮肤病图像)和 CheXpert(胸部 X 光图像)数据集上的评估也验证了 FairDiffusion 模型在不同医学成像模态下提升公平性和图像生成质量的能力。
- 临床特征语义相关性的公平性:评估文本提示中临床特征与生成的 SLO 眼底图像之间的语义相关性。研究发现,Stable Diffusion 模型在所有受保护属性上均存在显著偏差。例如在青光眼分类任务中,男性、亚洲人和非西班牙裔亚组的分类性能更优;在 CDR 分类任务中,女性、白人和非西班牙裔亚组表现更好。而 FairDiffusion 模型不仅解决了这些公平性差距,还提高了整体分类性能。在青光眼分类任务中,亚洲和男性亚组的 AUC 分别提升了 0.100 和 0.090;在 CDR 分类任务中,黑色和西班牙裔亚组的 AUC 分别提高了 0.045 和 0.027。在 HAM10000 和 CheXpert 数据集上的评估同样表明,FairDiffusion 模型在不同医学成像领域均能提升公平性和分类性能。
- 定性 UMAP 分析:通过对生成图像的 Uniform Manifold Approximation and Projection(UMAP)分析发现,FairDiffusion 模型在所有人口亚组中均优于 Stable Diffusion 模型,其生成图像与实际图像分布之间的距离更小,如女性组从 4.4 降至 3.8。
研究结论和讨论部分指出,FairDiffusion 模型通过 Fair Bayesian Perturbation 训练,成功缩小了图像生成质量和临床特征语义相关性方面的公平性差距。尽管先前研究显示先进生成模型在医疗保健领域有潜力,但它们在不同人口亚组中的表现此前未得到充分探索。该研究填补了这一空白,发现了广泛使用的 Stable Diffusion 模型存在的偏差,并提出了有效的改进方法。同时,FairGenMed 数据集为研究医疗生成模型的公平性提供了有力支持。不过,研究也存在一些可拓展的方向,如探索更多受保护属性(如社会经济地位),收集更广泛地理区域的数据集,以及研究医生对真实样本和生成样本的实用性评价等。总体而言,这项研究为公平生成学习提供了重要的理论和实践基础,推动了医疗领域生成式 AI 的公平发展,有望让更多群体从生成式 AI 技术中公平受益,在医疗教育、数据共享和疾病诊断等方面发挥重要作用。