基于Δ学习神经网络势的NNP/AFIR方法:通过巨型反应路径网络的动力学模拟预测不对称催化的对映选择性

时间:2026年3月31日
来源:ACS Central Science

编辑推荐:

为解决在大型、柔性不对称催化体系中,传统方法需预设选择性决定步骤、依赖过渡态构象统计假设且计算成本高昂的难题,研究人员结合神经网络势能(NNP)与人工力诱导反应(AFIR)方法,构建了一个包含48,463条路径的反应网络。动力学模拟成功预测了手性选择性,为理解复杂催化机制和加速理性催化剂设计提供了新框架。研究成果发表于《ACS Central Science》。

广告
   X   

不对称催化是合成手性分子的核心技术,在药物、香料和功能材料领域至关重要。其中,高选择性催化剂的设计是核心挑战。以咪唑二磷酰亚胺酯(Imidodiphosphorimidate, IDPi)为代表的“强酸-受限空间”类催化剂,虽实现了多种高选择性转化,但其大尺寸(超过200个原子)和高度柔性的几何结构,使得其催化机制异常复杂。传统计算化学方法,如密度泛函理论(Density Functional Theory, DFT),在预测这类体系的对映选择性时,常面临两大瓶颈:一是需依赖研究者预先指定选择性决定步骤;二是假设选择性遵循过渡态(Transition State, TS)构象的玻尔兹曼分布。这在实际反应中未必成立,特别是当反应机理未知、存在多种竞争路径、或存在快速可逆步骤时。为了突破这些限制,研究人员迫切需要一种能够无需先验假设、自动探索巨大构象和反应空间,并基于严格动力学预测选择性的全新方法。
为此,一支研究团队在《ACS Central Science》上发表了一项创新性研究。他们开发并应用了一种结合Δ学习神经网络势能(Δ-Learning Neural Network Potential, ΔNNP)与人工力诱导反应(Artificial Force Induced Reaction, AFIR)方法的计算框架(NNP/AFIR)。该工作以IDPi催化的烯烃不对称氢烷氧基化反应(总计228个原子)为模型体系,旨在验证此方法处理真实复杂不对称催化体系的能力。
该研究主要采用了几个关键技术方法:首先,通过ΔNNP方法,以半经验方法GFN2-xTB为基线,构建了能达到DFT精度的神经网络势能模型,显著降低了大规模构象采样的计算成本。其次,利用NNP/AFIR方法,对包含反应物、产物及关键中间体的复杂体系进行了无偏的反应路径搜索,自动构建了包含20,920个平衡结构和48,463条反应路径的巨型网络。再者,采用速率常数矩阵收缩法(Rate Constant Matrix Contraction, RCMC)对所构建的反应路径网络进行动力学模拟,以预测最终产物的产率和对映体比例。所有高精度的DFT计算(ωB97X-D/Def2-SVP级别,包含溶剂化模型)均在超级计算机“富岳”上完成,用于生成训练数据和验证模型。
研究结果
ΔNNP模型精度与网络构建
研究人员通过九轮迭代训练,成功构建了高精度的ΔNNP模型。如文内图表所示,在最终迭代中,模型预测的能量与DFT基准值高度一致,平均绝对误差(Mean Absolute Error, MAE)低至1.2 kJ/mol,达到了化学精度。利用此模型,他们高效地执行了AFIR反应路径搜索,最终构建了一个包含超过2万个平衡结构和近5万条反应路径的庞大网络。这一网络的规模是传统DFT-AFIR方法(通常处理10-50个原子体系)难以企及的,展示了NNP/AFIR方法处理大体系的能力。
动力学模拟成功预测对映选择性
基于该巨型反应路径网络的动力学模拟,成功预测了目标反应的产率(99.26%)和对映体比例(S:R= 99.95:0.05)。这与实验观察到的84%产率和高对映选择性(S:R= 98.5:1.5)在趋势上高度一致。尽管计算值高估了S构型的偏好,但计算得到的能垒差(17.4 kJ/mol)与实验值(11.6 kJ/mol)的偏差已接近典型的化学精度范围(~4.2 kJ/mol)。Figure 1. Asymmetric hydroalkoxylation reaction of alkene with the IDPi reported in the previous study. (47) Experimental condition, reaction yield, and enantiomer ratio are indicated. The target atoms in the AFIR search are indicated by the blue shadows. 这一结果强有力地证明,基于反应路径网络的动力学模拟可以在无需对目标反应有先验特异性知识(如预设机理)的情况下,有效预测复杂催化体系的反应活性和选择性。
网络分析揭示竞争反应机理
通过对反应路径网络进行系统分析,研究人员提取了主要反应通道。他们根据成键模式和产物区域绝对构型,将平衡结构分为74个组,并绘制了简化的网络图。分析发现,从反应物到产物存在多种路径,其中两种主要机理在能量上相互竞争:一种是异步协同路径,反应物通过一步直接转化为产物;另一种是分步路径,反应先经过一个亚稳态的碳正离子中间体,再形成产物。有趣的是,异步协同路径更有利于形成(R)-产物,而对于(S)-产物,两种机理提供的过渡态能量非常接近,表明存在竞争。这两种机理涉及根本不同的基元步骤:协同路径的决速步是质子化,而分步路径的决速步则是碳正离子中间体的环化。Figure 3. Extracted reaction path network by grouping EQs based on their bonding patterns and the absolute configuration of the product region. The Gibbs energy is shown in kJ/mol relative to the most stable geometry in the network. All EQs are classified into 74 groups based on bonding patterns and stereo conformation at the reaction site, as described in SI1. The groups are sorted by Gibbs energy and made available via the Zenodo repository. The TS energies lower than 150.0 kJ/mol are highlighted in the gray lines. The lines between each group indicate the TSs between them. The calculated reaction yields and enantiomer ratio are shown in blue numbers.
底物预排布的关键作用
结构比较揭示了“底物预排布”在控制反应路径中的关键作用。研究发现,反应物最稳定的构象具有相对线性的排列,反应C原子和O原子之间的距离较远(约3.9 Å)。然而,连接到最低能量协同反应过渡态的反应物构象则具有更紧凑的排列,反应原子被拉近,-OH基团朝向反应烯烃旋转,从而在质子化后诱导自发环化。Figure 4. Comparison of the geometries of reactant G9 and carbocation G36. (a) Most stable geometries of G9 and G36. (b) Lowest-energy TS for G36 formation and the TS linked to G9. (c) Lowest concerted TS to (S)-product G11 and the TS connected to G9. (d) Lowest concerted TS to (R)-product G10 and the TS connected to G9. (e) Lowest TS for the stepwise path from G36 to (S)-product G11 and the TS connected to G36. (f) Lowest TS for the stepwise path from G36 to (R)-product G4 and the TS connected to G36. Geometries were plotted by CYLview, 1.0b. (50) 对于分步机理,线性的反应物需先形成线性的碳正离子中间体,该中间体必须在最终环化前折叠成紧凑的几何构型。这强调了在阐明反应机理时进行穷尽搜索的必要性。
“交通流量”分析识别关键中间体
研究人员还计算了每个平衡结构组的“交通流量”,即流入和流出该组的所有反应路径的流量总和。该分析能够识别在动力学上重要但产率可能可忽略的中间体。结果显示,除了主要反应物和产物组外,一些质子化形式不同的反应物(如质子化在磺酰基、IDPi中心氮原子或氧原子上)以及某些碳正离子中间体也表现出显著的交通流量,表明它们在反应网络中是可及且重要的物种,对理解完整动力学图景至关重要。Figure 5. Log<sub>10</sub>of traffic volumes for groups in the reaction path network. Each cycle indicates one intermediate group. Numbers inside the cycles indicate the number of conformers in each group. The kinetic simulation settings are the same as those used for the yield calculations, and the corresponding reaction yields are also indicated.
研究结论与意义
本研究成功地将NNP/AFIR方法应用于一个包含228个原子的真实不对称催化体系,构建了一个包含48,463条反应路径、精度与DFT相当的大型反应网络。基于此网络的动力学模拟成功地解释并预测了实验观测到的对映选择性,验证了该框架的预测能力。研究不仅揭示了异步协同和分步两种机理的竞争关系,还通过结构分析强调了底物预排布对控制选择性的关键作用。“交通流量”分析进一步表明,在复杂体系中,进行穷尽的反应路径探索对于准确识别选择性决定通道至关重要。
这项工作的意义重大。首先,它提供了一种超越传统预设步骤和玻尔兹曼分布假设的全新计算范式,能够以无偏见的方式探索复杂催化体系的反应景观并进行基于第一性原理的动力学预测。其次,它展示了将高精度神经网络势能与自动化反应搜索相结合,处理超过200个原子的大规模、柔性体系的可行性,突破了以往的计算规模限制。尽管目前该方法仍需消耗巨大的计算资源(如使用数万个CPU核心),但随着通用神经网络势能模型的不断发展,其计算成本有望大幅降低。未来,将该框架应用于选择性较低的反应体系,将能提供更严格的基准测试,进一步确立基于网络的反应性预测方法在不对称催化剂开发和反应设计中的实用价值与潜力,有望推动量子化学分析的前沿,并为设计高性能有机催化剂做出重要贡献。

生物通微信公众号
微信
新浪微博


生物通 版权所有