从文献数据中挖掘隐藏的催化知识

时间:2026年5月21日
来源:EES Catalysis

编辑推荐:

数十年的催化研究积累了海量文献数据,然而其潜在的科学校价值尚未得到充分挖掘。催化性能由电子结构和反应条件等多重因素决定,呈现出复杂的非线性结构–性能关系。同时,不同研究间实验条件的差异及数据维度的不一致,使得直接利用现有数据进行规则提取和催化剂设计变得困难。本

广告
   X   

数十年的催化研究积累了海量文献数据,然而其潜在的科学校价值尚未得到充分挖掘。催化性能由电子结构和反应条件等多重因素决定,呈现出复杂的非线性结构–性能关系。同时,不同研究间实验条件的差异及数据维度的不一致,使得直接利用现有数据进行规则提取和催化剂设计变得困难。本综述系统总结了从文献数据中发现新催化知识的三种策略:首先,利用“人类智能”和统计分析,通过文献整合与机理洞察发现新的催化知识;其次,利用符号回归和机器学习构建可解释的描述符,以实现催化性能的定量预测;第三,结合大语言模型(LLMs)和人工智能(AI)代理,进行多源数据整合、知识提取及智能催化剂推荐。总体而言,这些数据驱动方法能将分散的经验转化为可计算的设计标准,开启催化材料理性设计与高效筛选的新范式,加速催化研究向融合 AI、理论计算与自主实验的数字材料生态系统和闭环研究模型发展。
随着催化科学的飞速发展及海量实验数据与第一性原理计算的不断积累,催化领域已步入数据密集型研究阶段。尽管高通量计算平台、自动化实验技术及开放数据库(如 Materials Project、AFLOW、Digital Catalysis Platform (DigCat)、Catalysis-Hub 和 Open Catalyst)的建立实现了结构、能量及反应性能数据的系统存储与共享,但如何从现有文献和数据库中提取可靠知识,实现从数据积累到知识发现的转变,仍是推动催化剂理性设计的关键挑战。由于实验条件(如电解质、pH 值、电位范围、载体环境等)的显著差异以及文献数据存在的维度不一致、关键参数缺失和表征标准不一等问题,导致难以直接提取跨体系规律,且潜在的结构–性能相关性常被噪声掩盖。因此,亟需开发系统方法对历史数据进行重组、重分析和重构,以从复杂异构数据中提取具有物理意义的催化规律。

针对上述问题,研究人员系统总结了三种从旧数据中发现新催化知识的代表性策略。首先,基于“人类智能”和直接统计分析的知识归纳与机理理解。研究人员通过对二氧化碳还原反应(CO2RR)、硝酸盐还原反应(NO3RR)、氧还原反应(ORR)、析氯反应(CER)及析氢反应(HER)等典型反应的文献数据进行系统性挖掘,揭示了多种新见解。例如,在 CO2RR 研究中,通过对锡(Sn)基催化剂数据的系统挖掘,发现各类 Sn 基材料均表现出高本征甲酸选择性,且法拉第效率随电解质 pH 值升高而显著增加;对铜(Cu)基单原子合金(SAAs)的分析表明,单原子掺杂的主要作用是定向促进 C–C 耦合动力学而非抑制析氢副反应;对双原子催化剂(DACs)的研究则指出,强*CO 吸附导致的位点中毒及*CO 加氢困难是阻碍 C–C 耦合的根本原因。在 NO3RR 领域,统计分析揭示了吡咯配位的 M–N–C 催化剂在碱性和中性条件下的高法拉第效率规律。此外,通过重新分析外部场(如磁场)和非传统促进剂的影响,研究人员提出了自旋极化调节降低能垒的新机制。在 ORR 研究中,大规模数据挖掘发现了弱吸附体系(如 Ni–N–C、Cu–N–C)中吸附强度与催化活性之间的反常关联,修正了传统的火山型关系,并揭示了过渡金属氧化物(TMOs)活性受限的原子尺度原因。对于 HER,研究发现仅靠氢吸附自由能(GH*)不足以描述活性,引入羟基吸附自由能(GOH*)构建的二维火山图成功修正了单一描述符的局限性。最后,通过“数据挖掘→理论筛选→实验验证→数据反馈”的闭环策略,研究人员成功发现了一种新型非贵金属氧化物双功能催化剂 RbSbWO6,其在酸性水分解条件下对析氧反应(OER)和 HER 均表现出优异的活性与稳定性。

其次,基于大数据的回归模型与描述符工程。研究人员利用遗传规划符号回归(GPSR)等技术,从现有实验数据出发,筛选具有明确物理意义的电子和结构参数(如 d 电子数、电负性、离子半径等),构建了平衡预测精度与物理可解释性的最优描述符,实现了结构–性能关系的系统提取。例如,在过氧化物电合成研究中,研究人员开发了加权原子中心对称函数(wACSF)描述符,并结合 XGBoost 回归模型,实现了不同类别催化剂(金属合金、氧化物、单原子催化剂等)的统一训练与快速筛选,成功预测并验证了具有高活性和选择性的 LiScO2催化剂。

第三,利用 AI 代理进行自动化数据挖掘与知识发现。结合大语言模型(LLMs)和自动化工具的 AI 代理正成为强大的数据挖掘工具。研究人员展示了如何利用基于 LLM 的催化 AI 代理评估不同掺杂元素对 CO2RR 选择性的影响,构建了定量模型并提出结构描述符φ,实现了 C2+产物选择性的快速预测。此外,StableOx-Cat 等 AI 代理通过自然语言交互自动化了材料筛选流程,降低了数据利用门槛;CRESt 系统整合多模态大视觉语言模型与机器人自动化实验平台,实现了从自然语言指令到催化剂合成、表征及测试的闭环高通量探索;eNRRCrew 框架则利用增强的 LLMs 从数千篇文献摘要中提取信息并进行结构化分析。这些 AI 驱动的方法显著提高了复杂材料空间的探索效率。

综上所述,该研究指出,尽管数据驱动方法应用广泛,但仍需注意出版偏差及数据异质性带来的挑战。未来的发展方向包括开发通用的机器学习原子间势(MLIPs)以模拟真实催化环境、利用多模态 LLMs 整合异构催化信息、建立融合数字数据库与自主实验的闭环平台,以及构建跨尺度、跨系统的数字材料生态系统。通过这些努力,催化研究将迈向更可靠、可解释且闭环的范式,从而实现高效、可预测的催化剂理性设计。该论文发表于《EES Catalysis》。

为开展此项研究,作者主要采用了三种关键技术方法:一是基于人类智能引导的大规模文献数据统计分析与机理推导,依托 DigCat 等数据库整合分散的实验数据;二是利用遗传规划符号回归和机器学习算法(如 XGBoost)构建可解释的物理描述符与回归模型,以量化结构–性能关系;三是开发并应用基于大语言模型(LLM)和多模态视觉语言模型(LVLM)的 AI 智能代理(Agent),结合知识图谱与自动化工作流,实现从文献解析、特征提取到催化剂推荐及实验验证闭环的全流程自动化。

研究结果主要包含以下三个方面:
1. 人类智能与统计分析发现的新知:通过系统挖掘,研究人员发现 Sn 基催化剂在 CO2RR 中具有普遍的甲酸选择性且受 pH 显著调控;Cu 基单原子合金中掺杂元素主要加速 C–C 耦合而非抑制析氢;M–N–C 双原子催化剂因*CO 强吸附难以实现 C–C 耦合;弱吸附型 ORR 催化剂存在偏离传统标度关系的反常活性机制;以及提出了包含 GH*和 GOH*的二维 HER 描述符以更准确预测活性。
2. 回归模型构建的新描述符:通过符号回归和机器学习,研究人员成功构建了如 wACSF 等具有物理意义的描述符,实现了跨材料体系的催化性能定量预测,并筛选出 LiScO2等高效催化剂,验证了数据驱动设计的有效性。
3. AI 代理辅助的知识提取:开发的 AI 代理系统(如 StableOx-Cat, CRESt, eNRRCrew)展示了在自然语言交互下进行材料筛选、多模态数据整合及闭环实验探索的能力,显著提升了从海量文献和数据库中获取催化知识的效率。

讨论部分总结指出,当前从文献数据中挖掘催化知识主要依赖人类智能归纳、回归模型描述符构建以及 AI 代理自动化挖掘三种策略。尽管 AI 取得了进展,但需警惕出版偏差和数据异质性对结论的影响。未来的研究应致力于开发适用于真实催化环境的通用机器学习势函数,利用多模态大模型整合异构信息,建立“预测 - 验证 - 反馈”的自主实验闭环平台,并推动跨尺度、跨系统的标准化数字材料生态系统建设,从而实现催化研究从经验驱动向数据与理论深度融合的智能化范式转变。

生物通微信公众号
微信
新浪微博


生物通 版权所有