其次,基于大数据的回归模型与描述符工程。研究人员利用遗传规划符号回归(GPSR)等技术,从现有实验数据出发,筛选具有明确物理意义的电子和结构参数(如 d 电子数、电负性、离子半径等),构建了平衡预测精度与物理可解释性的最优描述符,实现了结构–性能关系的系统提取。例如,在过氧化物电合成研究中,研究人员开发了加权原子中心对称函数(wACSF)描述符,并结合 XGBoost 回归模型,实现了不同类别催化剂(金属合金、氧化物、单原子催化剂等)的统一训练与快速筛选,成功预测并验证了具有高活性和选择性的 LiScO2催化剂。
第三,利用 AI 代理进行自动化数据挖掘与知识发现。结合大语言模型(LLMs)和自动化工具的 AI 代理正成为强大的数据挖掘工具。研究人员展示了如何利用基于 LLM 的催化 AI 代理评估不同掺杂元素对 CO2RR 选择性的影响,构建了定量模型并提出结构描述符φ,实现了 C2+产物选择性的快速预测。此外,StableOx-Cat 等 AI 代理通过自然语言交互自动化了材料筛选流程,降低了数据利用门槛;CRESt 系统整合多模态大视觉语言模型与机器人自动化实验平台,实现了从自然语言指令到催化剂合成、表征及测试的闭环高通量探索;eNRRCrew 框架则利用增强的 LLMs 从数千篇文献摘要中提取信息并进行结构化分析。这些 AI 驱动的方法显著提高了复杂材料空间的探索效率。
为开展此项研究,作者主要采用了三种关键技术方法:一是基于人类智能引导的大规模文献数据统计分析与机理推导,依托 DigCat 等数据库整合分散的实验数据;二是利用遗传规划符号回归和机器学习算法(如 XGBoost)构建可解释的物理描述符与回归模型,以量化结构–性能关系;三是开发并应用基于大语言模型(LLM)和多模态视觉语言模型(LVLM)的 AI 智能代理(Agent),结合知识图谱与自动化工作流,实现从文献解析、特征提取到催化剂推荐及实验验证闭环的全流程自动化。
研究结果主要包含以下三个方面: 1. 人类智能与统计分析发现的新知:通过系统挖掘,研究人员发现 Sn 基催化剂在 CO2RR 中具有普遍的甲酸选择性且受 pH 显著调控;Cu 基单原子合金中掺杂元素主要加速 C–C 耦合而非抑制析氢;M–N–C 双原子催化剂因*CO 强吸附难以实现 C–C 耦合;弱吸附型 ORR 催化剂存在偏离传统标度关系的反常活性机制;以及提出了包含 GH*和 GOH*的二维 HER 描述符以更准确预测活性。 2. 回归模型构建的新描述符:通过符号回归和机器学习,研究人员成功构建了如 wACSF 等具有物理意义的描述符,实现了跨材料体系的催化性能定量预测,并筛选出 LiScO2等高效催化剂,验证了数据驱动设计的有效性。 3. AI 代理辅助的知识提取:开发的 AI 代理系统(如 StableOx-Cat, CRESt, eNRRCrew)展示了在自然语言交互下进行材料筛选、多模态数据整合及闭环实验探索的能力,显著提升了从海量文献和数据库中获取催化知识的效率。
讨论部分总结指出,当前从文献数据中挖掘催化知识主要依赖人类智能归纳、回归模型描述符构建以及 AI 代理自动化挖掘三种策略。尽管 AI 取得了进展,但需警惕出版偏差和数据异质性对结论的影响。未来的研究应致力于开发适用于真实催化环境的通用机器学习势函数,利用多模态大模型整合异构信息,建立“预测 - 验证 - 反馈”的自主实验闭环平台,并推动跨尺度、跨系统的标准化数字材料生态系统建设,从而实现催化研究从经验驱动向数据与理论深度融合的智能化范式转变。