正是在这一背景下,发表于《npj Digital Medicine》的研究论文《Powering responsible artificial intelligence with high-quality real-world data: the S-RACE platform for scalable, multi-specialty clinical research》提出了一个创新性解决方案。由意大利圣拉斐尔大学Alberto Traverso、Carlo Tacchetti和Antonio Esposito等学者领衔的研究团队,与微软和Porini公司合作开发了S-RACE平台——一个安全、云端的临床数据科学平台,专门设计用于系统化地将原始医院数据转化为高质量、研究级的真实世界证据(RWE)。
为开展这项研究,团队主要依托几个关键技术方法:采用混合云架构,在数据离开医院前进行本地伪匿名化处理确保GDPR合规;利用微软认知健康服务的自然语言处理(NLP)技术从非结构化文本中提取医学概念,并基于统一医学语言系统(UMLS)将数据标准化为FHIR格式;在微软Azure ML Studio中构建数据科学实验室,集成MLflow确保可追溯性,并应用SHAP等可解释AI(XAI)技术增强模型透明度;平台整合了来自电子健康记录(EHR)、病理、实验室、影像归档和通信系统(PACS)及电子病例报告表(eCRF)等多模态数据,覆盖31,276名患者,支持19个临床研究项目。
平台架构与治理模式
S-RACE平台建立在三大架构支柱上,形成从原始临床数据到可信AI基础的端到端管道。核心是"隐私保护设计"理念,数据管道始于本地伪匿名化引擎,在数据传输到云端前将直接标识符替换为不可逆加密哈希值,映射密钥仅存储在医院本地安全基础设施中。通用数据平台采用混合云方法,使用AI驱动服务(包括NLP和医学本体)解析临床报告中的非结构化文本,然后将这些信息转换并结构化为FHIR标准。临床医生AI中心提供交互环境,供临床医生和研究人员探索整理后的数据,使用数据可视化工具进行初步分析。数据科学实验室在Microsoft Azure ML Studio内提供全面环境,用于构建和验证机器学习模型,集成支持严格可追溯性和可重复性的工具以及模型透明度。