化学结构专利提取的基准评估:化学结构识别的洞见与挑战

时间:2026年5月27日
来源:Chemical Research in Toxicology

编辑推荐:

研究人员指出,各类机构正在开发早期预警系统(EWS),旨在化学品对环境与人体健康构成潜在威胁前完成识别。在此背景下,专利成为探索新型化学物质及其在材料与产品中应用的重要数据源,但专利分析面临显著挑战——尤其是其中大量以图形形式呈现的分子结构,包含多样元素、官能

广告
   X   

研究人员指出,各类机构正在开发早期预警系统(EWS),旨在化学品对环境与人体健康构成潜在威胁前完成识别。在此背景下,专利成为探索新型化学物质及其在材料与产品中应用的重要数据源,但专利分析面临显著挑战——尤其是其中大量以图形形式呈现的分子结构,包含多样元素、官能团与分子键信息,难以直接解析。当前主流结构提取工具多基于公开数据集中的化学结构训练,针对专利场景的化学数据适配性研究十分有限。本研究开展了一项实地测试,选取DECIMER、MolScribe与Mathpix三类工具,系统评估其在专利化学结构识别中的性能表现。研究人员构建了两类经过人工校验的数据集:一类涵盖多样有机化合物,另一类聚焦全氟及多氟烷基物质(PFAS)。结果显示,三类工具在简单分子结构上表现良好,但在重复单元、交叉键合与马库什(Markush)结构等复杂特征上准确率显著下降;同时,工具对线条噪点、畸变等图像伪影极为敏感。研究人员认为,克服这些局限是实现自动化EWS部署的关键前提,将支撑专利高通量筛查,助力快速识别潜在有害新兴化学品。
《Chemical Research in Toxicology》刊发的这项研究聚焦专利化学结构自动识别在环境与健康风险预警中的应用瓶颈,系统评估了现有光学化学结构识别(OCSR)工具的实战性能。研究背景显示,全球化学品监管亟需早期预警系统(EWS)识别新发风险化合物(NERC),而专利文献蕴藏大量未上市新型化学物质信息,但其中化学结构多以非机器可读的图像形式嵌入,传统文本检索无法直接获取。尽管DECIMER、MolScribe与Mathpix等深度学习工具已在通用化学数据集上取得进展,但其对专利复杂场景的适配性尚未得到充分验证,尤其缺乏针对全氟及多氟烷基物质(PFAS)等高风险类别的专项测试。
为开展研究,研究人员从欧洲专利局(EPO)数据库检索2021至2024年公开的专利,分别构建通用有机化学(GOC)数据集(含309个独特结构)与PFAS数据集(含43个独特结构),全程保留原始图像质量不进行预处理。测试选用DECIMER v2.7.1、MolScribe v1.1.1与商业工具Mathpix,通过RDKit与CACTUS/CIR将生成的SMILES字符串反向转换为结构图,由5名领域专家对照原始专利图像进行人工校验,统计各工具识别准确率。
研究结果按以下模块展开:
3.1 数据整理结果:GOC数据集来自88项专利的352个结构,去重后保留309个;PFAS数据集来自26项专利的48个结构,去重后保留43个。分类显示PFAS专利多集中于水处理(C02F)、化学分析(G01N)与消防技术(A62D)领域。
3.2 SMILES生成工具性能:GOC数据集上三类工具准确率均超74%,DECIMER以78.3%居首;PFAS数据集上DECIMER与MolScribe表现优于Mathpix,且整体准确率显著低于GOC组。
3.3 正确识别的结构特征:工具对符合标准绘图规范的高质量结构表现稳定,可准确解析多环芳烃骨架、醚键连接链(-O-(CH2)5-O-)、常见缩写(如Bn、Cbz、Boc、OMe)、叔胺与四价硅结构,以及含羧基/磺酸基的直链PFAS。
3.4 识别困难的结构类型:马库什结构(含R/X可变取代基)完全无法被正确解析,MolScribe输出含“*”占位符的SMILES导致后续解析失败,DECIMER与Mathpix保留原始标签却不被SMILES语法支持;缩写误判(如叔丁基、二苯基膦、芳基)与压缩重复单元(如标注C10、C12的长链)是主要错误来源。
3.5 讨论:研究首次将OCSR工具评估置于EWS部署场景中,指出现有工具训练数据与专利真实场景存在偏差,对低质量扫描图像、特殊标注的泛化能力不足。
3.6 马库什结构局限:当前OCSR管道设计目标为具体分子结构,无法处理可变取代基,需开发保留占位符并联动文本挖掘填充取代基的新流程。
3.7 结构式与分子式混合单元:工具缺乏对重复单元数字标注的光学字符识别(OCR)与领域规则解析能力,导致长链长度误判。
3.8 缩写与压缩标注:需融合OCR、化学词典与基团连接模型才能正确处理专利常用缩写,当前工具易出现占位符替换、过度扩展或连接位点错误。
3.9 PFAS特异性失效:低对比度图像中氢(H)与氟(F)标签易混淆,扫描文档噪声干扰原子识别,且工具无法解析带括号的重复单元语法(如-(CF2)7CF3),导致链截断。
结论部分指出,现有OCSR工具在标准有机结构上可达78%准确率,但面对PFAS、马库什结构与压缩标注时性能骤降。要实现EWS集成,需突破图像预处理标准化、置信度评分、文本-结构联合解析三大技术关卡。研究为专利化学信息自动化提取提供了首个面向监管的基准参考,明确了下一代工具的核心改进方向。

生物通微信公众号
微信
新浪微博


生物通 版权所有