IPSBrain:面向先进光子源多模态实验表征的统一智能数据分析平台

时间:2026年5月30日
来源:The Journal of Physical Chemistry A

编辑推荐:

先进光子源提供具有空前亮度和相干性的X射线,可实现对多种材料的精细化多模态表征(multimodal characterization),但同时产生的数据量远超传统专家驱动的分析工作流处理能力。数据获取与解译之间日益扩大的鸿沟已成为制约及时科学发现的关键瓶颈,

广告
   X   

先进光子源提供具有空前亮度和相干性的X射线,可实现对多种材料的精细化多模态表征(multimodal characterization),但同时产生的数据量远超传统专家驱动的分析工作流处理能力。数据获取与解译之间日益扩大的鸿沟已成为制约及时科学发现的关键瓶颈,亟需高通量自动化数据分析工具。近期人工智能(AI)的进展为解决此难题提供了变革潜力,可使复杂的实验观测直接映射为科学洞察。然而,现有AI驱动工具仍较为碎片化且多为特定任务设计,限制了其在装置级多模态实验中的推广。本文研究人员提出IPSBrain——一个作为"智能光子源大脑(Intelligent Photon Source Brain)"的AI驱动统一平台,用于同步辐射多模态实验数据的自动化解析。该平台集成了一系列自主研发的基于机器学习(ML)的模型,可对衍射(diffraction)、散射(scattering)、X射线吸收(X-ray absorption)及断层扫描(tomography)等多种实验技术的数据进行自动化分析,并通过直观的Web界面降低高级科学数据解析的技术门槛。通过实现从数据采集到定量物理洞察的端到端智能化工作流,IPSBrain支持与现代同步辐射光源运行需求相匹配的高通量、可重复、可扩展分析,不仅为AI驱动的同步辐射数据分析提供了实用且可扩展的框架,也为中子源和自由电子激光等其他大型研究基础设施的智能数据分析建立了可迁移范式。
IPSBrain——同步辐射多模态实验数据智能统一分析平台的研究解读
《IPSBrain: A Unified Intelligent Data Analysis Platform for Multimodal Experimental Characterization at Advanced Photon Source》一文发表于《The Journal of Physical Chemistry A》,针对第四代同步辐射光源产生的大规模、高维、多模态实验数据超出传统人工分析能力这一瓶颈问题,研究人员开发了名为IPSBrain(Intelligent Photon Source Brain)的云端原生、微服务架构统一智能数据分析平台,集成六种自研机器学习算法,覆盖X射线衍射与散射(XRD/SAXS)、X射线吸收谱(XAS)及纳米断层扫描(Nano-CT)图像分析,实现了从原始数据上传到定量物理解析的端到端自动化流程,并通过典型应用案例验证了其高效性与准确性,为我国高能光子源(HEPS)及其他大科学装置的智能化运行提供了可推广范式。
为开展本研究,研究人员采用的主要关键技术方法包括:①采用云原生微服务(microservice)架构,前端基于Vue.js框架实现响应式无代码交互界面,后端通过API网关层实现TLS加密、JWT认证及负载均衡调度;②底层数据存储采用MySQL关系型数据库配合Elasticsearch分布式索引与Redis内存缓存,存储层使用AES-256透明数据加密(TDE)及外部密钥管理系统(KMS);③AI算法层将MSCNN、TransXRD、U-NetAPRC、QuantSAXS、CuXAS、CSUNet六个模型分别封装为语言无关的独立微服务,推理优化至单CPU核平均延迟12.5 ms,支持与高能光子源在线数据采集系统实时对接;④数据管理层对NeXus、HDF5等异构束线元数据做统一数组化/图像标准化预处理后再送入分析管线。
研究背景与引言(Introduction)
同步辐射(synchrotron radiation)具有高亮度、宽能谱、高相干性、脉冲时间结构与可调偏振等特性,已成为材料科学、结构生物学等领域重要的非破坏性探针。第四代光子源亮度与相干性较上一代提升数个量级,使空间/时间分辨率空前提高,但也推动单次实验数据量由GB级跃升至TB级,且X射线衍射(XRD)、小角散射(SAXS)、X射线吸收精细结构(XAFS/XAS)及成像等多技术联用形成天然多模态数据集。传统依赖领域专家手动操作或多款专用软件串联的分析方式难以标准化和自动化,处理速度远落后于采集速率。虽有BraggNN、PtychoNN、XCA、EWOKs、VISA、MLExchange等单点AI工具或工作流系统,但彼此孤立、缺乏互操作性,无法满足第四代光源数据密集型多模态联合解析需求,因此研究人员开展了IPSBrain统一AI平台的研发。
平台实现(Platform Implementation)
IPSBrain采用分层解耦架构:接口层提供Web交互访问;网关层通过负载均衡与动态路由并结合TLS 1.2加密和JWT(JSON Web Token)认证保障安全与高吞吐;核心服务层分为系统服务(任务调度、消息、监控、日志、文件管理)和AI算法服务(任务分配、沙箱执行、安全传输、文件预处理及各独立算法微服务);基础设施层含持久化存储、分布式索引(Elasticsearch)、高性能缓存(Redis)及异步消息代理,依托高性能计算集群(HPC cluster)。微服务框架使功能模块独立部署、弹性伸缩;实时处理方面,网关按数据模态分发请求,AI模型经轻量化优化后单CPU核每样本平均推理延迟12.5 ms,无需专用GPU即可匹配典型在线采集流吞吐;数据管理对衍射/散射/吸收谱数据统一表示为数值数组,断层成像表示为二维图像集,屏蔽各束线NeXus/HDF5元数据差异,MySQL存事务数据,Elasticsearch加速检索,Redis降低访问延迟,全链路使用TLS 1.2传输加密及AES-256 TDE存储加密,主密钥(MK)存于外部KMS/HSM,数据加密密钥(DEK)受MK保护。
应用接口(Application Interface)
前端基于Vue.js的MVVM模式与虚拟DOM实现响应式渲染,用户可通过拖拽/点击完成数据上传、参数设置与结果可视化,无需编程。平台当前集成六种深度学习分析应用:MSCNN和TransXRD用于衍射谱晶体结构解析与属性推断;U-NetAPRC和QuantSAXS用于小角X射线散射(SAXS)高保真重建与定量参数提取;CuXAS用于X射线吸收谱局部结构表征;CSUNet用于纳米CT(Nano-CT)图像自动分割与定量。
数据分析算法(Data Analysis Algorithms)
衍射与散射谱分析:MSCNN(多尺度深度卷积神经网络)从XRD图谱识别晶系(crystal system)与空间群(space group)对称性,Top-3准确率96.7%;TransXRD(基于迁移学习)预测材料带隙(bandgap energy),均方误差0.29 eV;U-NetAPRC重建高质量SAXS图案以消除蛋白质样品辐射损伤伪影;QuantSAXS一键提取最大粒子尺寸(Dmax)与回转半径(Rg)。
吸收谱分析:CuXAS结合多层感知机(MLP)与随机森林(RF),从Cu K边XAS谱逆向推断配位数(coordination number, CN)、键长(bond length, BL)及径向分布函数(radial distribution function, RDF),CN与BL判定R2=0.95,RDF预测平均绝对误差(MAE)=0.134。
断层扫描图像分析:CSUNet对Nano-CT图像做像素级细胞核、细胞质及纳米颗粒分割,平均交并比(mIoU)=99.93%,并自动统计胞内/胞外颗粒体积分数、分布密度及距细胞/核膜最小距离。
结果与讨论(Results and Discussion)
无机非金属晶体结构检测:研究人员以含肼过渡金属硫酸盐和新三元磷化物XRD图谱为例,IPSBrain批量上传后自动输出最概然晶系与空间群及Top-3/Top-5置信排序,判定分别为正交晶系Pccn与六方晶系P6m2,与Rietveld精修结果一致。与传统GSAS-II软件相比,IPSBrain单图延迟12.5 ms且全自动,而GSAS-II需约15 min并经历峰检测→拟合→指标化→对称性分析多步半自动操作,验证了AI驱动平台在高通量结构判定中的效率优势。
纳米级计算机断层扫描图像分割:对人乳腺癌细胞(MCF-7)的100幅中心Nano-CT切片,平台自动分割细胞核、质及HfO2纳米颗粒,并依设定标尺与范围量化颗粒摄取体积及胞质/核内分布比例与穿透深度,表明平台适用于单细胞分辨率同步辐射断层数据自动化定量。
多模态同步辐射数据联合解析揭示相变过程中的多尺度结构演化:对同一铜样品相变前后态分别用XRD与XAS模块分析——XRD显示立方结构(空间群Fm3m)向四方结构(空间群I4/mmm)转变(长程晶序变化);XAS显示配位数由8.3降至8.03、首壳层平均键长由2.69 Å缩至2.63 Å(局域原子环境微调),联合结果跨尺度刻画了结构相变的全貌,证明多模态联用解析的互补价值。
结论(Conclusion and Future Developments)
研究人员得出结论:IPSBrain作为面向同步辐射数据的AI原生统一平台,通过集成自研ML模型与端到端Web分析管线,可高效完成XRD、SAXS、XAS及Tomography多模态数据的自动化解析与交互可视化,公网免费开放(https://www.ipsbrain.com/),显著降低高级数据解译门槛,加速同步辐射装置特别是我国高能光子源(HEPS)向自动化智能化运行转型。未来将从三方面拓展:扩充更多实验模态与可解释AI(eXplainable AI, XAI)模型;深化从探测器原始数据到定量物理参数提取的全链路管线;优化交互界面与可视化,并借助微服务架构吸纳社区贡献的新模型,该AI驱动集成范式亦可迁移至散裂中子源及自由电子激光等大科学装置。

生物通微信公众号
微信
新浪微博


生物通 版权所有