利用大型语言模型将动物研究毒理学报告转化为结构化、标准化的数据

时间:2026年5月15日
来源:Archives of Toxicology

编辑推荐:

摘要 临床前毒理学研究报告中包含了区分试验药物相关效应与偶然发现所需的专家解读,但这些结论往往仍以非结构化文本的形式存在,限制了其与计算安全方法的系统重用和整合。为了解决这一难题,我们开发了一个基于大型语言模型(LLM)的流程,该流程能够将毒理学报告转换为与SEND术语标准一

广告
   X   

摘要
临床前毒理学研究报告中包含了区分试验药物相关效应与偶然发现所需的专家解读,但这些结论往往仍以非结构化文本的形式存在,限制了其与计算安全方法的系统重用和整合。为了解决这一难题,我们开发了一个基于大型语言模型(LLM)的流程,该流程能够将毒理学报告转换为与SEND术语标准一致的结构化、机器可读的数据集。该流程结合了自动化文档预处理、章节识别、基于模式的信息提取以及语义协调,并辅以有针对性的人工审核。我们使用200份罗氏公司的毒理学研究报告对系统性能进行了评估,这些报告涵盖了临床病理学、组织病理学、器官重量、暴露数据以及研究层面的结论。在各个领域中,提取性能均表现出色,大多数参数的敏感性和准确性均保持较高水平。组织病理学、器官重量和NOAEL(未观察到不良效应水平)相关指标的稳定性最强,敏感性通常超过95%,准确性经常超过97%。给药途径和物质标识符等参数的性能较低,这反映了报告实践的多样性,而非LLM方法的局限性。该流程生成的结构化数据集支持跨研究查询、识别具有明确毒理学风险的化合物、与原始SEND数据整合,以及为预测性毒理学模型开发高质量标签。通过代表性用例证明了其实际效用。这些结果表明,LLM辅助的提取方法能够可靠地大规模捕获专家的毒理学解读,并为以数据为中心的安全评估、战略决策以及正向和反向转化毒理学研究提供了基础。

引言
临床前动物毒理学研究产生了大量对药物和候选药物安全性评估至关重要的数据。虽然《非临床数据交换标准》(SEND)提供了记录受试者级数据的结构化格式,但它不足以支持强大的预测建模和全面的数据库搜索:SEND数据主要记录了单个动物的测量结果,缺乏对整个研究解读的关键背景信息。相比之下,研究报告包含了关于试验药物相关效应的重要信息,能够区分真正的毒理学发现与偶然或自发的观察结果(如背景发现)。然而,这些宝贵信息被锁定在这些非结构化的自由文本毒理学报告中,通常仅以PDF文档的形式提供。如果没有这些经过解读的结论,构建准确的机器学习模型和在计算毒理学中进行有意义的数据库搜索以分析结构-活性关系将受到显著阻碍。

主要的合作项目试图解决这些挑战。eTOX联盟率先通过手动审核和历史研究数据的本体映射,以机器可读的格式捕获体内毒性研究报告中与试验药物相关的发现(Briggs等人,2012年)。eTOX联盟是一个公私合作伙伴关系,旨在共享临床前数据以开发预测性计算机模型。联盟中的制药成员公司通过手动审核数十年的重复剂量毒性研究报告来捕获发现。这些先前非结构化的信息被输入到一个规范化的关系数据库中,保留了原始专家对发现是否“与治疗相关”的评估——即该发现是否被认为与整体实验干预有关(可能包括试验药物、载体/配方、给药途径/程序、处理、麻醉/手术等)。为了克服来自不同来源的术语不一致性问题,所有逐字记录的发现都通过联盟专门开发的本体被彻底映射到一组首选术语中(Briggs等人,2012年)。这些本体还捕捉了层次关系,使系统能够智能地汇总和查询相关发现,例如将“肝小叶”中的发现视为“肝脏”发现,从而创建用于分析的标准化数据集(López-Massaguer等人,2018年)。

eTRANSAFE联盟是eTOX的后续项目,同样由创新药物计划(IMI)资助,专注于开发集成数据库和计算工具,以支持新药的转化安全性评估(Pognan等人,2021年;Sarntivijai等人,2010年)。该项目的一个关键重点是数据共享和将各种数据源整合到标准化存储库中,使用SEND术语等标准。作为其里程碑之一,联盟开发了PretoxTM文本挖掘系统,用于从非结构化的临床前毒理学报告中提取与试验药物相关的发现(Corvi等人,2025年)。虽然像eTOX和eTRANSAFE这样的项目专注于挖掘非结构化的传统报告,但其他项目则主要侧重于利用结构化、标准化的原始数据。其中一个例子是BioCelerate与美国食品药品监督管理局(FDA)药物评估与研究中心(CDER)之间的公私合作(Carfagna等人,2024年),他们开发了一个开源平台来分析和比较来自多项研究的原始受试者级毒理学数据。该系统利用原始SEND数据,从而避免了从静态PDF报告中手动审核信息的工作。该方法涉及使用Z分数将数值数据与对照组进行标准化,并根据其发生率和严重程度为显微镜发现分配统一的“ToxScore”。然后,这些分数被汇总以创建关键器官系统的可视化毒性概况,这些概况显示在交互式仪表板上,配备了雷达图等工具以便进行高级比较。这一框架使科学家能够高效地比较不同化合物、物种和研究持续时间下的毒性概况,从而更好地理解化合物的效应(Carfagna等人,2024年)。尽管这种方法利用了SEND的丰富性,但它没有解决专家解读的缺失问题——即关于因果关系和不良影响的至关重要的研究层面结论。

SR-Domain概念旨在填补这一空白。这一新的数据标准由PDS Consultants的Phil Drew在eTRANSAFE联盟期间提出,与SEND v3.1标准保持一致,为从研究报告中捕获关键毒理学结果提供了结构化框架(Corvi等人,2025年)。SR-Domain数据理想情况下与基础研究测量原始数据一起存储在同一基于SEND的临床前数据仓库中。这种强大的链接使申办者能够检索来自专家意见的观察结果,并直接将其与偶然观察结果进行比较(或区分)。与原始数据不同,SR-Domain模板不包含受试者级数据。它将研究范围内的观察结果(如试验药物相关效应和专家结论)按组、性别和其他实验参数组织成独立的记录。通过使用CDISC SEND控制术语,确保了不同数据系统之间的一致性和互操作性。这种方法促进了从最终报告中直接、一对一地转录关键信息,创建了可分析的标准化数据集。SR-Domain的实现代表了向系统化非临床研究数据结构化迈出的重要一步,从而改善了数据共享和分析(Corvi等人,2025年)。由于即使在eTRANSAFE联盟结束后仍取得成功,SR-Domain已被建议作为SEND标准的潜在扩展,由CDISC维护。

所有这些项目都展示了数据整合的可行性,但也暴露了持续的挑战。对这些项目的比较评估突显了它们的互补优势和固有局限性。每个项目解决了毒理学数据挑战的不同层面——从手动审核和本体开发(eTOX),到半自动化文本提取和数据整合(eTRANSAFE),再到结构化原始数据的计算可视化(FDA/BioCelerate)。然而,没有一个项目实现了可扩展性、自动化、解释深度和术语一致性之间的平衡,这些是无缝、适合AI的毒理学数据整合所必需的。这些局限性揭示了结构化数据可用性与专家语义理解之间的持续差距——这一差距现在可以通过在SR-Domain框架内集成的基于大型语言模型(LLM)的自动化来弥合。

表1总结了这些项目的定义特征和主要限制,说明了每个项目如何提供了有价值的见解,但同时也留下了SR-Domain和基于LLM的流程现在旨在解决的关键差距。

在本文中,我们旨在通过提出一个完全集成的框架来解决非结构化专家毒理学解读与结构化、机器可读数据之间的长期存在的差距,该框架用于创建、协调和应用研究报告(SR)领域。我们描述了SR-Domain的概念基础,概述了其与SEND控制术语的一致性,并介绍了一种新型的基于LLM的流程,能够高保真地从多样化的毒理学报告中提取与试验药物相关的发现。我们的工作展示了语义理解、自动化文档解析和本体对齐的协调如何将叙述性研究结论转换为适合数据整合、跨研究查询和AI/ML模型开发的标准数据集。通过对200份罗氏公司的临床前毒理学研究报告的评估,我们强调了这种方法的准确性、稳定性和转化价值。总体而言,这篇出版物确立了SR-Domain及其支持的LLM工作流程作为以数据为中心的毒理学、改进的知识共享以及未来非临床安全性评估中专家衍生结论标准化的基础。

方法论
SR-Domain概念和结构
SR-Domain的最初设计是一个表格数据集,旨在捕获毒性研究报告中的关键研究结论(Corvi等人,2025年)。研究报告数据集中的每个记录都包含一个观察结果,该结果根据其相关的组、性别和测试进行了分类。还可以进一步根据日期、严重程度和统计显著性进行分类。报告还涵盖了全研究范围的效果水平。每个条目都由一组全面的变量定义,这些变量描述了发现。这些变量包括研究标识符(STUDYID),以及指定观察结果的组(SRGRP/SPGRPCD)和性别(SRSEX)的记录限定符,即使观察结果适用于两种性别,SR-Domain也会分别报告男性和女性的观察结果。关键字段捕获了发现的领域(SRDOMAIN)及其特定样本(SRSPEC)。观察结果本身由其逐字文本(SRORES,原始结果)、测试简称(SRTSTCD)或发现描述(SRFNDG)、表现形式(SROBSV,例如增加或减少)、严重程度(SRSEV)和统计显著性(SRSIGF)来表征。SRTRTEF字段旨在指示专家对发现是否与治疗相关的结论(‘Y’)、不相关(‘N’)或不确定(‘U’)。Comment字段(SRCOMNT)允许捕获额外的自由文本。该领域还涵盖了全研究范围的效果水平,如NOAEL(未观察到不良效应水平)或LOAEL(最低观察到不良效应水平),这些信息包含在SRRISK字段中。在可行的情况下,SR-Domain概念使用CDISC SEND控制术语获得的术语,以确保发现描述的标准化和一致性,并与测量原始数据兼容(Corvi等人,2025年)。

为了满足进一步的需求,罗氏公司作为2023年结束的eTRANSAFE联盟的成员,对初始的SR-Domain数据模型进行了扩展,以捕获更详细和特定于上下文的信息。这一增强概念引入了几个新变量,同时保留了原始标准的核心结构。关键修改包括添加字段来记录 administered 的试验药物、研究主任定义的毒性目标器官、结果修饰符以及任何观察到的效应的可逆性。此外,内部数据模型还包括了一套申办者定义的评估,允许明确标注发现为不良、时间依赖性或剂量依赖性。这些添加创建了一个更细致和全面的数据集,便于进行更深入的内部分析和审查。在我们专注于“与测试文章相关的效应”这一更具体的发现子集时,这些效应是专门归因于所给予的研究物质的,我们使用了SRTRTEF来相应地对这些发现进行分类。在SR-Domain中使用“与测试文章相关”这一表述可以减少歧义,并通过明确区分测试物质的效应与由载体、程序或其他非测试文章成分引起的效应来提高可解释性,这对于所呈现的用例(结构化SR-Domain数据在毒理学和药物安全中的应用)来说是一个关键的区别。最后,我们利用SRCOMNT来存储研究报告中完整的原始句子,以保留发现的进一步重要背景信息。

为了说明如何将叙述性毒理学报告中的非结构化内容转换为结构化的SR-Domain记录,我们提供了一个专家描述的与测试文章相关的发现的例子及其对应的SR-Domain字段映射。图1中的替代文本可能是使用AI生成的。

图1中高亮的句子展示了一个应该从这份经过编辑的真实毒理学研究报告中捕获的非结构化信息的例子:“在最终尸检(研究第29天)时,接受3 mg/kg剂量的雄性动物的GXXXXXXXX相关显微镜下发现包括股骨骨髓细胞减少、精子发生细胞的睾丸退化/坏死以及附睾导管细胞碎片。”我们希望从这句话中捕获的是“结构/化合物–效应–剂量/暴露”关系(例如,GXXXXXXX在≥3 mg/kg剂量下导致股骨骨髓细胞减少),以便支持知识共享、数据整合以及在AI/ML模型中的后续使用。

表2展示了来自一项28天大鼠研究的SR-Domain输出的键列,该研究发现了股骨骨髓细胞减少的情况。表2展示了最终的SR-Domain输出表格格式。另一个类似的输出示例可以在附录1中找到。

与依赖基于规则的关键词提取的传统文本挖掘系统不同,我们基于LLM的流程对毒理学陈述进行了语义解释。它识别了化合物、剂量和效应之间的因果关系,同时保留了时间依赖性、可逆性和不良反应等上下文限定因素。这使得能够将叙述性毒理学报告自动转换为与SR-Domain兼容的记录,从而以结构化格式保留专家的推理。重要的是,该框架是模型无关的且可扩展的,允许将来通过特定领域的语料库进行微调以不断提高准确性。

从PDF报告开始,最终输出为SR-Domain CSV文件的NLP和基于LLM的提取流程概述。

为了从冗长的PDF报告中高效提取与测试文章相关的发现,需要开发一个预处理流程来隔离主要内容。这些报告的长度可以从几十页到几百页不等;在某些情况下,报告可能包含超过一千页的内容。然而,这些页面中的大部分与SR-Domain提取无关的附录部分有关。我们开发了一个基于Python的解决方案,利用PyMuPDF(Fenniak等人,2024年)和PyPDF2(Artife,2026年)库来提取目录(TOC)。当目录不可用时,会解析初始页面以使用诸如“reference”、“archiving”和“signature”等特定触发词来检测类似目录的结构。这些严格作为目录部分标题出现的触发词能够可靠地指示附录部分,而不会出现误报。实证评估确认附录总是出现在前60页内;因此,如果目录检测失败,保留前100页通常是保守且足够的,没有观察到例外情况。

对于我们的文档解析需求,我们借鉴了开源工具olmOCR(Poznanski等人,2025年)开发并实现了一个多模块流程。其主要优势在于使用视觉语言模型,与其他依赖经典OCR(光学字符识别)的PDF处理工具相比。因此,这个工具箱能够系统地处理文档,确保从包含文本、表格和数学公式的各种来源中提取高保真的内容。在将信息提取为markdown格式后,通过识别章节的标题和子标题来重建文档的结构。这个过程依赖于经典的自然语言处理方法。最终输出是一个具有明确定义章节的markdown文件。

最初,整个报告被输入到LLM中进行提取,但由于包含了不相关的数据,导致结果不佳。因此,预处理过程得到了改进,以精确识别文档结构,特别是针对标记为“Summary”、“Introduction”、“Discussion”和“Conclusion”的部分,因为与测试文章相关的发现通常出现在这些部分。最初的解析输出能够识别标题,但在捕捉层次关系方面缺乏细节。为了解决这个问题,我们开发了一种使用正则表达式来检测标准层次编号方案的算法(例如,“1.”、“1.1.”等)。这种方法对缺失的中间小节有一定的容忍度(例如,捕获“1.1”然后是“1.3”,偶尔会错过“1.2”),优先考虑语义准确性而不是假阳性。对于完全没有层次结构的较旧报告,使用更简单的解析器输出就足够了——只识别主要章节标题。由于30-40年前的报告相关性较低,这种简单方法就足够了。最终算法结合了基于正则表达式的识别和解析器派生的信息,确保了在不同报告格式下的提取准确性得到优化。

提取阶段利用LLM根据结构化模式从预处理过的文档中系统地提取与测试文章相关的发现。用于生成的模型是OpenAI gpt−4.1模型(Openai,2025年)。该模式是一个基于类的python文件,其中每种发现类型都是一个单独的类(例如MetaData),并带有其相关属性(例如ReportName、SubstanceID)。这种方法通过枚举预期输出并允许通过转换为Python数据结构来进行精确验证,确保数据的一致性。为多阶段研究、组合研究和单一治疗研究分别开发了不同的提取流程,以反映每种报告类型中的独特信息呈现方式。从包含研究标题和罗氏化合物编号的内部数据库中提取的元数据可以明确整合到LLM提示中,以提高提取准确性。在LLM中发现了上下文丢失的问题,尤其是在重复提及相似实体时。尝试通过调整重复惩罚和温度参数来解决这个问题是不够的,主要是因为重复惩罚主要针对短距离内的token重复。在间隔超过token限制的情况下出现的重复实体使得这些调整无效。因此,采用了递归提取策略,将文档分割成更小的段落。这种方法大大减少了没有提取数据的实例——从最初的20份报告减少到只有2份——同时也通过为每个较小段落分别提取数据来解决了token限制问题。

“人在循环中”分析了检索到的发现,并提供了反馈以改进提取过程。这一步骤通过提供模型用于识别发现的原始报告中的句子来促进。还提供了发现句子周围的段落名称和句子,以便与报告中的真实情况进行比较。改进建议主要有两种类型。第一种类型集中在改进LLM提示上,针对那些发现没有正确提取的情况。为此,除了数据管理员外,还邀请了各自领域的专家(例如毒理学家)更清楚地制定提取目标。第二种类型的改进集中在回到预处理步骤上。在这里,目标是验证所有相关的报告部分是否都被正确捕获,没有遗漏,同时确保与提取目标无关的信息量最小化。

有效的数据协调确保了提取后发现之间术语的一致性。我们采用了SEND,这是一个CDISC标准,提供了一个针对非临床研究数据的全面控制词汇表。实现了一个基于语义搜索的检索流程,利用了预先用abhinand/MedEmbed-small-v0.1模型计算的向量嵌入。基于迭代评估,将余弦相似性阈值设为0.85。从实验室测试(LB)、显微镜发现(MI)和器官测量(OM)中提取的术语如果超过这个阈值,则映射到SEND术语;否则,字段保持空白以避免不准确。由于显微镜发现的复杂性,需要额外的处理。OpenAI text-embedding-large-3模型(Openai,2024年)为每个查询检索了四个语义最相似的SEND术语,GPT−4.1从这些候选术语中生成了标准化的SEND对齐术语。人类领域专家对这些生成的术语进行了迭代验证,确保保留了关键细微差别。进一步的协调步骤(SENDification)确保了符合SEND标准。

提取到的发现被组织成单独的研究文件,以便于有针对性的数据访问。发现根据临床化学(LB)、组织病理学(MI)、宏观(MA)、血液学(LB)、器官和体重(OM和BW)、死亡(DD)、临床体征(CL)、NOAEL、LOAEL、MTD和毒性靶器官(TOT)进行分类。最后四个类别在SRRISK下报告。TOT是由罗氏领域专家引入的一个新领域,因为它与MI或OM发现具有独特的相关性。也与各种SR-Domain字段相关的元数据也被作为一个单独的类别提取出来。每个原始数据记录直接对应于生成文件中的单个记录。结构化数据集包含了与SR-Domain标准对齐的详细字段,确保了一致性、可访问性和未来研究及监管审查的实用性。该流程可以在以下github仓库中找到。

为了评估基于LLM的流程的性能,我们使用精确度、敏感性和特异性指标将其输出与手动策划的参考进行了比较。精确度用于通过测量所有报告发现中正确提取信息的比例来量化提取的可靠性,反映了结构化输出的可信度。敏感性(召回率)衡量了流程正确检索研究报告中相关信息的能力,从而量化了成功捕获真实信息的程度。特异性评估了流程正确识别发现缺失的能力,避免了虚假提取,提供了正确拒绝多少真正阴性的衡量标准。准确性定义为所有评估领域中正确提取的比例(真正阳性和真正阴性)。F1分数作为一个补充的总结指标,捕捉了精确度和敏感性的调和平均值。这些指标共同提供了对提取准确性的全面和生物学上可解释的评估,平衡了信息恢复和错误避免。

为了测试LLM提取流程的性能,我们选择了2015年以后在啮齿动物和非啮齿动物中进行的200份重复剂量毒性研究报告的子集(GLP和非GLP),这些报告采用了不同的给药途径。

众所周知,LLM容易产生幻觉,尤其是在被要求生成自由形式的叙述性响应时。为了确保在监管相关的背景下可靠性,我们的提取流程明确设计为通过强制执行与我们增强的SR-Domain模式对齐的严格结构化输出格式来最小化此类错误。这种方法限制了LLM产生预定义的字段和控制词汇表,从而大大提高了事实准确性并限制了生成偏差。在这个框架内,我们评估了提取系统在200份临床前毒理学罗氏报告中的性能。表3总结了所有评估领域的提取性能,主要关注敏感性和特异性。总体而言,提取流程在各个参数上显示出一致的高敏感性,表明相关发现的检测能力很强,而特异性根据参数类型和领域的不同而有所变化。对于临床化学和血液学,敏感性通常很高,范围在84-87%之间,大多数核心参数如Adversity、ChangeType、TimeDependence和Sex的敏感性始终超过85%。这些领域的特异性也很强(91-99%),反映了假阳性提取率较低。然而,给药途径的敏感性(72%)和特异性(61-78%)较低,DoseObserved和SubstanceID的特异性也较低,这表明在这些属性隐含或不一致报告时区分真正阴性存在挑战。

组织病理学在所有领域中显示出最高的敏感性,大多数参数的敏感性在94-96%之间,强调了模型可靠捕获组织病理学发现及其相关解释属性的能力。这个领域的特异性对于几个参数(Adversity、ChangeType、Reversibility、Severity和TimeDependence)几乎是完美的,而对于给药途径、DoseObserved和SubstanceID等参数则较低。这种模式反映了这些属性的真正阳性样本数量有限,而不是检测能力下降。器官重量(Organ Weight)的检测结果也表现出色,大多数参数的敏感性超过95%,特异性在89%到98%之间。器官(Organ)、变化类型(ChangeType)、性别(Sex)和时间依赖性(TimeDependence)的高特异性表明假阳性被有效抑制,而物质ID(SubstanceID)和研究类型(StudyType)的特异性略有下降,这表明这些领域仍存在一定的模糊性。NOAEL(No Observed Adverse Effect Level,未观察到不良效应的剂量)相关参数的提取具有高敏感性(95%到96%),证明了毒理学阈值和暴露指标的可靠识别。NOAEL-Correctness(NOAEL准确性)和性别的特异性很高,但AUC(Area Under the Curve,曲线下面积)和Cmax(最大浓度)的特异性变化较大,较低的特异性反映了在真正阳性样本稀少时的过度预测倾向。另一类发现显示了最高的整体敏感性,大多数参数的敏感性超过98%,并且特异性始终很高(59%到90%)。特别是TargetToxicityOrgan(目标毒性器官)的特异性非常强,即使在报告内容不均匀的情况下也能有效区分存在和不存在的终点。在不同领域中,出现了一种一致的模式:具有标准化术语和明确上下文线索的参数(如Adversity(不良影响)、ChangeType(变化类型)、TimeDependence(时间依赖性)、Sex(性别)既具有高敏感性也具有高特异性,而表述方式多变或隐含提及的参数(如Route of Administration(给药途径)、DoseObserved(观察剂量)、SubstanceID(物质ID)尽管敏感性很高,但特异性较低。这表明剩余的错误主要是由假阳性造成的,而不是提取遗漏。

总体而言,这些发现表明,基于模式的LLM(Large Language Model,大型语言模型)提取方法可以在保持高敏感性的同时,在多样化的毒理学领域中保持强特异性,支持从非结构化研究报告中生成可扩展、可靠的结构化SR-Domain(Structured SR-Domain)数据集。表3总结了LLM在200份罗氏(Roche)毒理学报告中的提取性能。在关键毒理学领域达到这种准确度水平后,生成的SR-Domain输出足够稳健,可以支持各种科学和决策工作流程。以下部分将说明如何在实践中应用这些结构化数据。

结构化SR-Domain数据在毒理学和药物安全中的应用
SR-Domain数据的结构化特性使其能够广泛应用于毒理学评估、决策制定和预测建模。通过将专家得出的研究结论转化为标准化的、机器可读的记录,SR-Domain提供了一个可解释和可查询的层,补充了原始的SEND(Structured SEND)数据,并连接了化学、病理学和暴露信息。在以下小节中,我们将重点介绍几个代表性用例,说明如何利用SR-Domain数据来支持发现计划、参考化合物识别、跨模态数据整合(例如体外与体内数据)以及预测性AI/ML(Artificial Intelligence/Machine Learning)毒理学模型的开发。

**用例1:** 用于检测开发与验证的内部参考化合物识别
结构化SR-Domain数据的一个直接且有影响力的应用是识别用于使用情境(Context of Use, COU)检测开发与验证的阳性参考化合物,特别是通过系统地描述目标毒性器官(Target Organs of Toxicity, TOT)。由于SR-Domain以标准化格式编码了与测试物品相关的发现,因此可以快速识别在特定器官或器官系统中显示出明显与测试物品相关效应的化合物。这些化合物可以作为开发或评估新方法(NAMs,New Approach Methods)的可靠“阳性”样本,例如,用于识别与“肺芯片”模型相关的阳性参考化合物。可以通过在Target Organs of Toxicity(TOT)列中广泛筛选“Lung”(肺)来找到这些化合物;或者,可以使用Finding Description(SRFNDG)和/或Original Result(SRORES)进一步缩小范围,以特定毒性模式(如“肺泡上皮增生”)进行筛选。

可靠地识别“阴性”样本需要不同的方法:仅凭SR-Domain中缺乏与测试物品相关的发现是不够的,因为注释可能缺失或不完整。因此,建议检查相应SEND数据集的Microscopic Findings(MI,显微镜发现)领域,以确保a) 实际检查了感兴趣的组织,以及b) 在所有剂量组和研究持续时间中都记录了“未检测到异常”。将SR-Domain衍生的阳性样本与MI衍生的阴性样本结合起来,可以创建用于检测校准、阈值设置和性能评估的平衡、可解释的参考集。这种结构化方法有助于建立定量使用情境标准,这对于NAM开发、检测资格认证和转化相关性评估至关重要。

**用例2:** 目标器官毒性注释仪表板
将与测试物品相关的发现自动提取并标准化到SR-Domain中,为预测性毒理学提供了坚实的基础。虽然基于LLM的系统解决了将非结构化文本数字化为标准化格式的主要瓶颈,但这些数据的下游用途最好通过Target Organ Toxicity Annotation Dashboard(TOAD)来体现。TOAD是一个内部开发的用户界面,用于展示汇总的毒性数据。通过汇总从单剂量试点研究到多物种、多种给药途径的重复剂量GLP(Good Laboratory Practice)协议的各种研究中的发现,TOAD为每种化合物构建了一个综合的安全性概况。该系统使用红色、绿色和灰色三种颜色来可视化目标器官毒性。这种逻辑对于整理高置信度的定量结构-活性关系(QSAR,Quantitative Structure-Activity Relationship)模型训练数据至关重要。为了使预测建模有效,必须严格分类基础上的体内证据权重,区分确认的与测试物品相关的发现(‘Positive’)、无与测试物品相关的发现(‘Negative’)以及缺乏实质性证据的情况(‘Unknown’)。

**利用SR-Domain数据识别‘阳性’化合物**
自动化SR-Domain数据生成的主要价值在于其能够集中阳性毒性信号。SR-Domain作为一个高级容器,汇总了来自详细发现领域(包括显微镜发现(MI,Microscopic)、宏观发现(MA,Macscopic)、器官重量(OM,Organ Weights)和临床病理学(LB,Clinical Pathology)的负面发现。TOAD利用这些结构化数据来识别‘阳性’化合物,而无需手动审查底层原始数据(图3)。要将化合物指定为特定目标器官(如肝脏)的‘阳性’,TOAD会查询SR-Domain数据中在不同发现领域下称为阳性相关的发现(见图3和4)。由于同一化合物可能在不同的研究中进行测试,例如14天的大鼠研究和28天的狗研究,TOAD会在化合物级别汇总这些信号。如果任何研究在目标器官中报告了与测试物品相关的发现,仪表板会将该化合物标记为阳性。这种方法确保QSAR训练集中的‘阳性’标签仅来源于研究作者明确建立的毒理学关联,从而减少了偶然背景发现的干扰。

**用例3:** 战略支持
SR-Domain有助于对历史研究设计进行回顾性分析,为未来的研究计划提供数据驱动的指导。在设计剂量范围发现(Dose Range Finding, DRF)研究时,一个关键挑战是在优化资源利用的同时估计最大耐受剂量(MTD,Maximum Tolerable Dose)。在最近的一个应用中,SR-Domain被用来通过分析过去十年进行的重复剂量毒理学研究来支持高剂量选择策略。目标是调查非啮齿类物种中高剂量的普遍性和耐受性,以得出未来项目的安全上限估计。通过查询结构化数据集,我们提取了81项GLP(Good Laboratory Practice)和各种非GLP研究的剂量分布。SR-Domain集成的一个关键优势是能够将研究发现与全面的元数据相结合,使我们不仅能够按物种(啮齿类与非啮齿类)和给药途径分离数据,而且还能按分子类型区分——区分小分子、大分子和基于RNA的治疗药物。分析显示,虽然大多数非啮齿类口服剂量低于600 mg/kg,但可以识别出一些高剂量耐受的特定实例。具体来说,查询发现了五项在迷你猪和食蟹猴中使用的剂量≥1000 mg/kg/天的研究,其中一项研究达到了2000 mg/kg/天(图5)。由于SR-Domain将这些参数数据点链接回具体的研究背景,毒理学家可以立即识别出这些项目并检索相关的安全性概况。这种能力使团队能够根据具体情况来制定高剂量决策——了解它们是由良好的耐受性还是特定的药代动力学要求驱动的——而不是依赖于理论上的最大值。因此,这有助于更精确地估计安全边际和资源分配,为未来的DRF研究提供依据。

**用例4:** 活动项目的数据查询
在日常的药物发现和开发活动中,SR-Domain支持高度灵活和交互式的数据查询,直接支持科学决策。因为SR-Domain记录将与测试物品相关的体内结果与标准化术语和元数据整合在一起,所以可以轻松地跨化学结构、药理学目标和发现项目进行查询。可以针对特定分子、结构相似的类似物、含有特定子结构的化合物,或作用于定义作用机制的所有分子,使用以化合物为中心或以目标为中心的查询来识别所有与测试物品相关的效应。相反,以效应为中心的查询允许研究人员识别哪些化合物引发了特定发现——无论是在特定目标器官内还是在多个物种和研究中。

这些查询模式可以与基于化学的过滤器结合使用,例如,返回所有含有给定骨架或子结构的分子产生的研究结果。除了将化学信息与体内实验结果联系起来之外,SR-Domain数据还支持跨模态整合:例如,体内表现出磷脂沉积的化合物可以自动与其相应的体外磷脂沉积检测结果配对,从而直接比较不同模态之间的一致性或差异。此外,通过进一步对这些发现进行向量化处理,还可以在不同分子之间进行比较。例如,关于某个分子的发现可以作为查询,用于向量数据库中以识别相似的分子。在这种情况下,该发现本身(例如空泡化/颗粒状巨噬细胞)将作为查询,而关于该发现的所有其他信息(例如剂量、性别、严重程度、剂量依赖性、可逆性、受影响的器官等)将作为元数据来支持搜索。

在技术层面,首先基于查询结果与数据库之间的余弦相似度进行向量搜索,以获取相似的发现。例如,可以提取出与其他项目最相似的前20个发现。然后,大型语言模型(LLM)会评估元数据中的器官信息,以排除任何不相关的发现。接下来,对发现进行从最相似到最不相似的排序。在此过程中,元数据和发现本身都会被考虑在内。排名最低的发现可以被排除,剩下的发现可以被整合。例如,“管状变性/再生”和“皮质管状变性/再生”本质上是相同的发现,只是详细程度不同,可以将它们归类在“管状变性/再生”这一标签下。最终,可以得到一组与查询发现相似的整合发现及其对应的分子。这可以作为更深入比较和分析的起点。比较可以基于器官层面(图6a)或发现本身(图6b)进行。

综上所述,这些能力展示了基于SR-Domain的研究结论如何将之前非结构化的叙述性报告转化为可搜索、适合分析的知识层。这一层支持在发现和安全评估环境中进行积极的投资组合决策、结构风险评估和假设生成。

图6

替代文本可能使用AI生成。

全尺寸图像

将参考分子与其他物质进行比较

用例5:支持AI/ML模型

SR-Domain发现可以简化分析过程。例如,它使我们能够评估不同药物模式如何影响毒性目标器官(图7)。

图7

替代文本可能使用AI生成。

全尺寸图像

按药物模式分解毒性目标器官。显示了前10个最常见的毒性目标器官(TOTs),大约占所有TOT发现的一半,按三种模式组织:大分子(LM)、RNA分子(RM)和小分子(SM)。

此外,还可以放大任一模式以更详细地分析特定趋势。对于小分子,可以检查目标器官毒性的交集(图8a和b),以及同一物质内的毒性相关性(图9a)和测试物种之间的毒性相关性(图9b)。

因此,SR-Domain分析和发现本身为开发旨在从化学或多模态输入数据预测体内毒性结果的AI和机器学习(AI/ML)模型提供了标准化和可解释的基础。长期以来,预测毒理学的障碍之一是缺乏高质量、专家注释的标签,这些标签能够区分与测试物品相关的发现和偶然的背景变化。由于SR-Domain以机器可读和统一的格式编码了这些专家结论——以及不良反应、剂量依赖性、时间依赖性和目标器官信息——它提供了进行稳健模型训练所需的精心策划的标签。

图8

替代文本可能使用AI生成。

全尺寸图像

小分子的三种TOTs的交集

利用SR-Domain数据,研究人员可以为各种体内实验结果构建定义明确的正负训练集。例如,在特定器官(如肝脏、肾脏、心脏)中有测试物品相关发现的化合物可以作为“正例”,而在相应的SEND MI或OM领域中没有发现的化合物可以作为“负例”。这种方法支持开发特定于实验结果的分类器、多器官毒性预测器和多任务神经模型。重要的是,SR-Domain促进了跨研究、物种和剂量水平的发现聚合,从而能够获得足够样本量的训练集——这是计算机毒理学研究之前指出的一个基本要求。

除了支持经典分类模型外,SR-Domain数据还支持更高级的策略,如毒性谱的聚类、学习结构-毒性关系,以及将体内结果与体外NAM数据、转录组学或其他组学层整合。由于每个SR-Domain记录都基于毒理学家的解释,因此生成的标签具有难以从原始数值数据中获得的生物学相关性和上下文细微差别。

总体而言,SR-Domain将传统的研究报告文本转化为高质量的监督信号,使AI/ML模型能够在标准化、可解释和可扩展的数据集上进行训练。这为更可靠和透明的预测毒理学工具打开了大门,这些工具可以补充人类评估并增强转化安全性评估。

图9

替代文本可能使用AI生成。

全尺寸图像

小分子的TOTs之间的成对相关性

讨论

这项工作表明,可以使用LLM支持的提取流程,从非结构化的PDF研究报告中大规模生成结构化、语义化且与SEND对齐的研究级毒理学结论。我们的发现表明,当严格受到SR-Domain定制的JSON模式的约束,并结合预处理、章节识别和整合步骤时,LLM可以克服传统上与自动化提取毒理学信息相关的许多挑战,以及手动提取的挑战。

之前的项目如eTOX、eTRANSAFE和FDA/BioCelerate合作强调了使用传统研究报告或结构化SEND数据进行现代数据中心毒理学研究的潜力和局限性。这些项目分别解决了问题的孤立方面——eTOX中的手动策划和本体映射、eTRANSAFE中的半自动化文本挖掘以及FDA/BioCelerate中的结构化数值数据分析——但没有一个完全涵盖了大规模数据集成所需的可扩展性、解释深度、一致性和自动化。这里介绍的SR-Domain和LLM工作流程通过将专家级语义解释与SEND兼容的机器可读结构相结合,直接解决了这一差距。

我们在200份罗氏临床前报告中进行的性能评估显示,在所有评估的领域中都保持了较高的敏感性,表明能够稳健地检测到相关的毒理学发现。对于大多数参数,尤其是那些具有标准化术语的参数,特异性也很强,而对于隐含报告或记录不一致的属性,则表现出更大的变异性。组织病理学、器官重量和NOAEL相关终点等领域的表现最为稳健,敏感性通常超过95%,关键解释领域的特异性也很高。

这些结果表明,一旦LLM在由模式定义的输出空间指导下工作并通过SEND控制的术语进行强化,曾经被认为过于复杂且依赖上下文的动物研究报告可以可靠地结构化。参数显示出的特异性降低,包括给药途径、物质标识符和观察到的剂量,主要受到假阳性预测的影响,而不是检测遗漏的影响,这反映了报告实践中的历史变异性,而不是模型本身的局限性。因此,这些领域非常适合通过模板驱动的报告和语言标准化进行进一步改进,这些已经在当前代的动物研究中得到采用。

几项方法创新有助于观察到的性能。首先,预处理步骤(附件修剪、目录检测和结构化Markdown转换)去除了大量无关内容,确保模型专注于包含测试物品相关发现的部分。其次,递归提取策略最小化了上下文丢失——这是LLM处理长文档时的固有局限性——并大幅减少了结果缺失。第三,应用基于向量的语义相似性的整合流程随后进行了SEND化处理,确保了术语的一致性,这对于建模目的至关重要。

除了展示提取准确性外,我们还展示了SR-Domain数据集支持的几个高价值应用。这些包括:(i)识别内部参考化合物并构建用于NAM开发和检测验证的正负训练集;(ii)整合化学、机制和体内结果的投资组合级毒理学查询;(iii)将体内发现与体外检测结果进行跨模态链接;(iv)使用来自毒理学家解释的高质量测试物品相关标签开发AI/ML模型。这些用例突显了SR-Domain作为统一层的能力,它连接了不同的数据,并支持转化和预测毒理学工作。

尽管LLM提取流程的性能很强,但仍有一些改进的空间。研究报告风格的多样性——尤其是在较旧的文档中——继续引入了可能影响提取精度的模糊性。在特定领域的语料库上进一步微调LLM,可能结合人类反馈的强化学习,可以减少这种情况的变异性。此外,新术语或罕见报告术语的自动化SEND化仍然是一个部分监督的过程,建议继续进行专家监督以保持语义完整性。最后,广泛的监管采用将需要进一步的验证,包括可重复性评估、来源追踪和围绕SR-Domain领域定义的社区共识。

原始的SR-Domain概念由于两个主要问题需要进一步改进:首先,概念的混淆,当前的SR-Domain将与整个研究相关的数据结构(例如NOAEL)与特定于组/动物的数据结构(例如高剂量组的肌酐增加)混合在一起,而一般的SEND实现将一个领域限制为单一数据结构;其次,存在竞争性变量定义,多个变量具有多种含义,这使得数据收集和使用变得复杂。解决这两个主要问题至关重要,因为它们目前阻碍了有效的数据存储、查询和LLM的训练。

总体而言,SR-Domain结合受限的LLM流程提供了一个可扩展、可解释且符合监管要求的解决方案,用于结构化之前锁定在叙述性PDF报告中的毒理学知识。这一框架支持现代数据驱动的毒理学,并为跨研究整合、转化洞察生成和下一代预测建模奠定了基础。

结论

在这项研究中,我们介绍了一个全面的框架,使用LLM支持的提取流程将毒理学研究报告转换为结构化的、机器可读的SR-Domain数据集。通过将提取的发现与SEND控制的术语对齐并强制执行基于模式的结构,我们证明了可以可靠且大规模地捕获专家级别的解释,如测试物品相关性、不良反应、剂量依赖性和目标器官识别。在200份临床前报告中的评估证实了高提取准确性,支持了这种方法的稳健性(表4)。

由此产生的SR-Domain数据集解锁了广泛的应用,包括参考化合物识别、投资组合级毒理学查询、跨模态数据整合和AI/ML模型开发。这些能力将非结构化的研究叙述转化为统一的、可查询的、适合分析的知识层,增强了内部决策并支持转化安全性策略(表8)。

展望未来,将SR-Domain作为SEND的标准扩展进行采用,并通过领域特定的微调和整合继续改进LLM流程,可能会进一步增强其监管效用,并促进更广泛的社区使用(Corvi等人,2025年)。通过弥合叙述性专家解释和结构化数字格式之间的差距,SR-Domain代表了向数据中心毒理学和现代化非临床安全性评估迈出的重要一步。

生物通微信公众号
微信
新浪微博


生物通 版权所有