OpenRad:一个面向放射学的开放获取AI模型精选库

时间:2026年5月30日
来源:European Radiology

编辑推荐:

本研究旨在创建并评估OpenRad(https://konstvr.github.io/OpenRad/index.html),一个经过策划和标准化的模型库,用于聚合开放获取的放射学人工智能(AI)模型。该库通过整合相应代码仓库的元数据,丰富了模型信息,包括预

广告
   X   

本研究旨在创建并评估OpenRad(https://konstvr.github.io/OpenRad/index.html),一个经过策划和标准化的模型库,用于聚合开放获取的放射学人工智能(AI)模型。该库通过整合相应代码仓库的元数据,丰富了模型信息,包括预训练权重和交互式应用程序的可用性。研究对截至2025年12月来自PubMed、arXiv和Scopus的文献进行了回顾性分析(共5239篇工作)。经过去重和相关性筛选后,处理了1694篇描述开放获取AI模型的文章。模型记录使用本地部署的大型语言模型(LLM)(gpt-oss:120b)基于RSNA AI路线图JSON模式生成,并由十位专家审稿人手动验证。使用文本相似度指标在225篇随机选择的论文上评估了LLM输出的稳定性。同时对收集的工作进行了统计分析。纳入的1694个模型涵盖了所有影像模态(计算机断层扫描(CT)、磁共振成像(MRI)、X射线、超声(US))和放射学子专业。自动提取在结构化字段上表现出高稳定性(Levenshtein比率>90%),专家审核中78.5%的编辑为微小修正。对模型库的统计分析显示,卷积神经网络(CNN)和Transformer架构占主导地位,而MRI是最常用的模态(在621个神经放射学AI模型中使用)。研究产出主要集中在美国和中国。所提出的Web界面支持通过关键词搜索以及按模态、子专业、预期用途和演示可用性进行过滤来发现模型,同时提供实时统计仪表板。社区还可以通过专用门户贡献新模型。结论表明,OpenRad包含约1700个经过策划的开放获取放射学AI模型,具有标准化元数据,并辅以代码仓库分析,从而为放射学界创建了一个全面、可搜索的资源库。
本研究介绍并评估了OpenRad,一个旨在解决放射学领域人工智能(AI)模型发布碎片化问题的公开可访问的精选模型库。

在近年来,放射学界见证了AI研究的空前激增。众多用于报告书写、病灶检测、分割等任务的深度学习模型在会议、期刊和预印本服务器上被广泛报道。然而,这种方法的极大丰富反而造成了一个新的瓶颈:模型的可发现性、可复现性和临床转化受到了一个碎片化分发格局的阻碍。已发布的模型散落在各种来源中,包括补充材料、个人GitHub仓库、机构网页或专有平台,迫使用户不得不进行详尽的手动搜索才能找到符合其特定需求的模型。此外,缺乏标准化元数据使得评估模型是否适合特定临床场景或公平地与替代解决方案进行比较变得困难。为了解决此问题,第一步是针对放射学AI模型相关论文引入了报告指南。在此基础上,北美放射学会(RSNA)提出了AI路线图,该路线图建议使用标准化本体术语(RadLex)和格式来报告放射学AI模型数据,公开诸如预期用途、模型结构和许可信息等细节。尽管如此,这些标准的遵守并不普遍,限制了结构化、机器可读的模型记录的可用性。现有的AI模型库包含相对有限、精选的模型卡,其中一些指向数据集而非配套模型。重要的是,它们包含没有开放访问代码的手稿,这些手稿不可复现,对于试图开发新模型或应用现有模型以增强放射学工作流程的研究人员可能没有用处。

本研究的目标是创建OpenRad,一个全面、最新、可搜索的开放获取放射学AI模型公共仓库,这些模型提供开放访问的代码或模型供公众使用。该工作提供了:(i)一个由专家策划的集合,包含1694个跨越所有影像模态和放射学子专业的模型;(ii)使用ROADMAP本体(RadLex术语)的标准化模型记录,确保报告的一致性;(iii)源自代码仓库分析的补充信息,例如训练好的模型或交互式实现的存在;(iv)用户按照标准化格式提交新模型的选项;(v)基于所包含模型的实时统计数据,反映放射学开放获取AI研究的当前状态。该在线仓库使研究人员、临床医生和行业合作伙伴能够发现模型,促进研究使用和将有前景的算法转化为临床实用工具。

研究人员通过爬取PubMed、arXiv和Scopus(截至2025年12月,检索词见补充表1)构建了放射学AI论文的综合语料库,共检索到5239条记录。使用数字对象标识符(DOI)去除了跨数据库重复(985条),手动筛选排除了未专注于放射学AI模型的论文(1832篇)。重要的是,随后排除了未提供开放获取代码/模型(704篇)或仅指向数据集(24篇)的论文,最终得到1694篇独特文章的数据集,其中所有呈现的模型都附带了可直接使用的代码/模型。为将该语料库转化为标准化模型集合,遵循了RSNA AI路线图参考模式(https://github.com/RSNA/ATLAS/blob/main/model.json)。研究人员开发了一个自动化流程,使用开源的大型语言模型(LLM)gpt-oss:120b(本地运行)从纳入的作品中提取结构化数据。该流程使用Python 3.10和“instructor”库,向RSNA JavaScript对象表示法(JSON)模式的选定字段发出结构化提示。如果全文PDF可用,则提供给LLM,否则使用摘要。除了推荐的RSNA字段(模态、临床子专业、预期用途、架构、性能指标)外,该模板还丰富了关于数据集细节和验证策略的属性。生成的模型记录还包括对GitHub仓库内容的评估(如果提供)。这是通过自动查询所有被识别为代码仓库的URL,并识别预训练权重或模型的即用型实现(演示)的存在来完成的。最终的JSON文件包含书目元数据和提取的技术细节。为评估自动生成记录的可靠性,检查了LLM的内在稳定性。对225篇文章的子集进行了重复处理,第一次生成作为参考。使用三种互补的相似度度量评估了关键字段(如标题、作者列表、机构、仓库链接、可持续性、架构和监管细节)的稳定性:Python的“difflib.SequenceMatcher”(最长公共子序列比率)、Levenshtein比率(字符级编辑距离)和Jaccard相似度(令牌集重叠)。生成的模型记录由10位专家审核人(3名博士研究生、6名硕士研究生和1名助理教授,均从事AI研究工作)手动验证,以确保准确性并避免幻觉。审核人评估提取的信息是否忠实反映了源文章数据,并进行任何必要的修正,将修正标记为“微小”(涉及拼写错误或不完整指标等小错误)或“重大”(关键错误,如缺失字段或断链)。

对最终经过审核的JSON文件集合进行了分析,以揭示潜在趋势。这包括使用Seaborn(v0.13.2)的条形图总结最受欢迎的模型架构和验证策略。还通过解析作者隶属机构进行了地理空间分析。使用Plotly(v5.15.0)生成的等值线图可视化了这些数据。使用一系列Python绘图库生成统计分析和可视化。Matplotlib(v3.7.1)和Seaborn用于创建静态可视化,包括用于架构频率的条形图和说明临床专业与影像模态交叉分布的热图。使用WordCloud库(v1.9.6)对报告限制部分的关键词进行词频分析,以定性综合模型局限性的见解。此外,还构建了一个将报告的指标与模型类型(如分类或分割)相关的热图。

OpenRad主仪表板是模型发现的中心枢纽(https://konstvr.github.io/OpenRad/index.html)。用户可以使用关键词搜索模型,或通过侧边栏中的一组全面过滤器来细化结果。这些过滤器包括:资源可用性(查找仓库可用并提供开放权重或训练好模型的模型);分类(模型按模态、子专业和用例打标签,使用RadLex编码);演示可用性(过滤包含交互式/可下载应用的作品)。搜索结果显示为响应式对象网格,每个对象提供模型的快速摘要,包括其名称和表示其验证状态、模态、子专业以及权重保存情况的视觉徽章。该页面还包括关于所包含作品的实时交互式总体统计。点击模型可导航到详细视图,该视图呈现模型的结构化和全面概述。界面显示一般信息(如模型名称和技术架构)以及关于使用数据集的技术细节。为协助用户评估模型适用性,该视图包括一个报告性能指标和已知局限性的部分。最后,该页面作为外部资源的门户,提供指向代码仓库(如GitHub)、原始论文/摘要以及托管的交互式演示的直接链接。OpenRad采用社区驱动的模型运营,旨在保持注册表的更新和准确。鼓励用户向平台提交新模型,确保数据库持续扩展以纳入最新研究。所有社区提交的内容在被纳入仓库之前都将经过专家验证,以确保提交数据的有效性和仓库的一致性。此外,平台赋予注册用户作为策展人的能力。贡献者可以通过“验证与编辑”模式建议对元数据进行更正或追加缺失信息。系统会跟踪这些建议并经过验证以维持高数据质量。标记系统便于社区管理,允许用户报告任何问题。

稳定性分析表明,对于提取的元数据字段,在重复模型之间存在足够的一致性,基于词汇分数。与模型识别相关的结构化内容字段,如作者、机构列表、仓库链接、标题和可持续性,表现出高稳定性。复杂的自由文本字段,如模型架构、局限性和监管细节,则表现出更高的方差,反映了模型在不同生成之间倾向于复述描述性内容。定性人工审查证实,尽管存在这些词汇差异,技术描述表现出高度的语义一致性,表明LLM成功提取并综合了文本的核心含义。此外,在1694个纳入模型的手动验证期间,78.5%的修正被归类为微小修正。

分析结果共同描述了放射学开放获取AI模型的当前格局。最频繁的模型架构分布显示,卷积神经网络(CNN)和基于Transformer的架构的变体占主导地位(>33%)。扩散模型也经常使用(12.1%),其次是U-Net变体和生成对抗网络。较少数量的工作使用了“你只需看一次”(YOLO)模型。论文的地理分布图显示,中国(约400篇论文)和美国(约300篇论文)占产出的大部分。次要贡献(50-150篇)来自有限的欧洲、印度和东亚国家,而大多数其他国家仅贡献了少数研究。指标与任务类型共现分析显示:分类指标以准确率(229)、曲线下面积(AUC)(166)、F1分数(112)和特异性(86)为主。分割准确性最常用骰子相似性系数(DSC)(308,约占DSC总提及次数的68%),其次是Hausdorff距离(65)和准确率(55)。生成任务主要使用结构相似性指数测量(SSIM)(88)和峰值信噪比(PSNR)(79)。成像模态-专业共现分布显示,MRI是神经放射学应用中最常用的模态(621项研究),其次是用于胸部AI模型的X射线(233)和CT(188)。对于肿瘤成像(OI)模型,MRI(179)和CT(165)是最常用的模态。报告局限性的词频分析显示,“有限”是最常见的术语,其次是“数据、模型、数据集、训练、性能、外部验证”。

本研究介绍了最大的公开可访问的精选库,汇总了1694个关于放射学AI模型的工作。通过将书目元数据与对链接代码仓库的系统性检查相结合,该平台不仅提供了其他数据库和研究手稿中传统报告的描述性信息,还提供了对代码、预训练权重或即用型演示是否实际可用的客观评估。这种双重文档记录有望通过检索代码、保存的权重或训练好的模型(在许多情况下,无需从头开始重新训练这一复杂步骤),从而加速从文献回顾到AI实施的转变。该平台还进一步支持人工检查,以标记断开的链接或过时的依赖项,确保目录随时间推移保持功能性。

该项目克服了限制已发表AI模型使用的两个主要障碍。首先,通过汇总医学文献以及计算机科学期刊和会议论文集中的所有合格出版物,提取关键元数据,并将生成的模型记录索引到一个分面Web界面中,该平台将先前分散的代码仓库和论文统一为一个可搜索的资源。此外,每个模型记录都遵循统一的模式,捕获模态、子专业、预期用途、数据来源、性能指标和监管细节,从而提供一种机器可读的描述,便于自动化分析和评估。该数据集通过自动化流程进一步丰富了通常在原始出版物中不存在的信息,该流程查询每个对应的GitHub仓库以验证预训练模型文件的存在,并在可用时验证实时Web演示。

对提取数据的定量分析表明,出版产出仍然主要集中在美国和中国,这与这些地区AI技术的快速发展相吻合。架构偏好已转向CNN和基于Transformer的模型。模态-专业配对揭示了主要关注点在于将MRI数据用于神经放射学AI应用(>600项研究),其次是用于胸部CT和X射线的模型,这证实了先前的分析。相反,核医学和正电子发射断层扫描应用很少。在报告局限性的词云分析中,关键词“外部验证”的高频率,凸显了在稳健模型验证方面的一个关键差距,这可能会损害模型的泛化能力。

与现有资源相比,本研究在规模和提取信息的范围上有所不同。“MedicalModelLibrary”提供了一个手动精选的模型列表,但仅限于少量条目,主要关注大语言模型和视觉模型。RSNA ATLAS包含高质量的专家审核卡,但其覆盖范围也小于本集合,并且不包含对代码仓库的系统分析。“Awesome-AI-LLMs-in-Radiology”列表仅聚合大语言模型应用,但不提供结构化模型记录或对相关仓库的任何健康检查。相比之下,我们的平台整合了可搜索界面、专家审核以及通过GitHub分析丰富的模型记录,为社区提供了一个全面、最新的资源。

该研究存在几项局限性。首先,模型记录是通过开源LLM自动生成的,尽管已量化了稳定性和保真度,并且所有记录都经过了专家人工审查,但该过程在原始出版物被锁定或无法访问的情况下,仍可能产生遗漏或微小的不准确之处。因此,鼓励用户标记仓库中不完整或错误的条目,未来的版本将纳入人工审核的修正。被标记的模型在更新版本中重新上线之前,将被隔离并由数据库管理员审核。其次,基础文献检索仅限于PubMed、arXiv和Scopus,使用补充表1中定义的查询以确保可重复性。虽然这些查询旨在全面,但可能未能捕获文献中所有可用的模型,因此鼓励用户通过新的提交来丰富仓库。最后,由于计算限制,初始提取未填充RSNA路线图要求的所有字段,而是更侧重于正确的索引以及对手稿和代码的访问。

总之,OpenRad提供了一个大规模、经过审核的放射学AI模型库,包含1600多个经过索引、标准化并丰富了有关代码可用性、预训练权重和实时演示的验证信息的模型。因此,它旨在解决长期存在的碎片化分发和非标准报告问题,加速模型发现和复现性,同时为放射学AI未来的基准测试和临床转化提供一个透明的基础。

生物通微信公众号
微信
新浪微博


生物通 版权所有