编辑推荐:
荷兰研究人员系统综述了AI在糖尿病视网膜病变(DR)筛查中的应用现状。研究表明,基于深度学习(DL)的AI系统在敏感性和特异性方面已达到人类评级员水平,能有效识别需转诊DR(rDR),但实际应用中仍面临真实世界验证不足、特异性波动、医疗法律及伦理问题等挑战。该研究为推进AI在眼科筛查中的规范化应用提供了重要参考。
在全球范围内,糖尿病视网膜病变(Diabetic Retinopathy, DR)已成为工作年龄人群失明和视力损害的主要原因之一。尽管荷兰的糖尿病患者数量相对稳定在120万人,但全球糖尿病患病率持续攀升,预计DR患者将从2020年的1.03亿增至2045年的1.6亿。定期筛查对于早期发现病变、通过及时治疗降低严重视力丧失风险至关重要。目前,DR筛查的金标准是通过认证的评级员(如验光师、眼科技术助理或医学摄影师)评估两张45度眼底数码照片,并在眼科医生监督下进行。在荷兰,这类筛查部分由医学诊断中心承担,部分由眼科门诊完成,给医疗系统带来了巨大的人力和财务压力。
近十年来,基于人工智能(Artificial Intelligence, AI)的自动化DR筛查系统逐渐发展,为解决筛查负担提供了新思路。目前,已有三个系统获得美国食品药品监督管理局(FDA)批准,20余个系统获得欧洲IIa类CE认证。这些系统通常要求每眼拍摄两张眼底照片,数字化传输至AI平台,几分钟内即可返回“不可评估”、“无需转诊”或“需转诊DR(referable DR, rDR)”等结果。在理想情况下,眼底拍摄可在糖尿病主治医生诊所完成(如年度复查期间),医生能当场向患者沟通筛查结果。然而,尽管潜在益处显著,自动化DR筛查在实际临床中的推广仍面临多重障碍——包括真实世界验证数据缺乏、性能差异、伦理争议、医疗法律问题及工作流程整合挑战等。为此,研究人员在《Nederlands Tijdschrift voor Diabetologie》上发表综述,系统分析了AI在DR筛查中的现状、效能与实施难题。
为开展本项研究,作者主要采用了文献系统综述与实证数据分析方法,重点考察了已发表的前瞻性验证研究、比较研究以及真实世界实施数据。研究团队整合了多项国际多中心临床试验结果(如IDx-DR、EyeArt、RetCAD等系统的验证数据),并分析了不同人群(包括荷兰、美国、英国、泰国及非洲地区的筛查队列)中的敏感性和特异性表现。此外,还通过成本效益模型和医疗法律框架,评估了AI筛查在经济性和法规合规性方面的可行性。
早期DR自动识别系统基于机器学习(Machine Learning, ML),算法被训练识别DR的特定特征如微动脉瘤、出血或渗出。新近系统则多采用深度学习(Deep Learning, DL)技术,尤其是卷积神经网络(Convolutional Neural Network),通过输入仅标注DR分期的眼底照片自主学习特征识别。训练AI算法需使用大型公开标注数据集,随后在其他可用数据集上进行评估,最终在前瞻性验证研究中测试其筛查性能。
多数AI系统在回顾性和前瞻性数据集中表现出色,对超过轻度DR(more-than-mild DR, mtmDR)的检测敏感性达80-100%,特异性84-99%,与人类评级员相当。FDA批准的首个自主操作系统IDx-DR(2018)在多中心研究中针对rDR(定义为mtmDR和/或糖尿病性黄斑水肿)的敏感性和特异性分别为87.2%和90.7%;其升级版LuminecticsCore(2023)在次优质量照片处理上进一步优化。EyeArt系统敏感性为95.5%(特异性85%),而AEYE-DS(2024年FDA批准)的敏感性和特异性分别为92.6%和95.3%。欧盟CE认证系统(如EyeART、Retmarker、Google ARDA等)也在前瞻性研究中表现良好,其中荷兰开发的RetCAD系统在本国研究中显示出80%敏感性和90.1%特异性。
实施自动化筛查时,成本效益是关键考量。在西方高人力成本国家(如英、美),AI系统可能更具经济性;相反在低收入国家可能不同。英国研究估计,使用EyeArt算法每10万次筛查可节省50万英镑;新加坡研究通过半自动筛查(类似分流策略)每年每位患者节省15美元。此外,AI应用可释放紧缺人力资源——英国和西班牙验证研究显示,AI作为过滤器可使需专家评估的照片量减半,显著降低评级员和眼科医生工作量。
目前仅苏格兰在国家筛查协议中实施了AI自动化筛查。推广受限的原因包括:缺乏不同系统间的比较研究和真实世界实施数据;性能受算法阈值设置、不可评估照片排除、相机伪影及人群特征(种族、性别、DR分期分布)影响显著。开发者与用户需意识到这些局限,理想情况下应使用平衡种族、性别和DR分期的大型训练数据集。
伦理方面主要担忧包括:AI可能遗漏眼底其他病变(如青光眼),而人类评级员会标注;系统在训练数据中未充分代表的种族群体中性能可能下降。医疗法律问题涉及患者隐私(照片常存储于境外云平台)和责任归属——错误诊断时,责任属设备制造商还是医疗提供者?欧盟2022年发布《产品责任指令》(PLD)和《AI责任指令》(AILD),但各国国内法尚未完全采纳,且责任问题在符合医疗标准和开发监控前提下仍不明确。
“黑箱”深度学习机制导致决策过程不透明,引发患者和医生对自主诊断系统的疑虑。解决方案之一是结合DL与特定DR病变识别算法,并提供热图可视化。此外,多数系统仅提供二进制输出(存在/不存在rDR),无法区分轻度DR或监测进展,这可能影响荷兰指南允许的筛查间隔延长(无DR时可延长至2-3年一次)。为此,指南建议分流策略:AI阳性结果由人类评级员远程复核,再决定是否转诊眼科。
众多AI系统(部分获FDA或CE认证)在前瞻性验证中表现出与人类评级员相当或更优的rDR分类性能。在分流策略中使用自动化系统(阳性结果经人类评级员复核)可显著缓解荷兰眼科人力短缺,并可能降低医疗成本。然而,AI系统需在代表性人群的真实世界实施研究中验证,并尽可能直接比较不同系统。推广自动化DR筛查时,必须解决隐私和责任等医疗法律问题,确保与医疗机构协调并整合至工作流程中。
本研究强调,尽管AI在DR筛查中展现巨大潜力,但其临床应用仍需克服验证、法规和实操壁垒。未来研究应聚焦多系统比较、真实世界性能评估及标准化实施框架,以推动AI技术在眼科筛查中的安全、高效整合。
生物通微信公众号
生物通 版权所有