基于电子信息增强的Δ机器学习方法：实现ZINDO向TDDFT精度的S1激发能高效预测

时间：2026年1月25日

来源：Journal of Chemical Theory and Computation

编辑推荐：

本综述提出了一种Δ机器学习（ΔML）框架，通过引入ZINDO计算衍生的电子描述符（如分子轨道加权径向分布函数MO-RDF），显著提升了半经验方法预测有机π共轭分子第一单重态激发能（S1）的精度至接近TDDFT水平。该模型结合消息传递神经网络（MPNN）与电子结构特征，在保持ZINDO计算效率（约2秒/分子）的同时，将预测相关性从0.77提升至0.96，为大规模分子筛选（如OLED、光伏材料开发）提供了高通量解决方案。

引言

机器学习（ML）在计算化学中已成为提升量子化学计算精度与速度的关键工具。Δ学习（ΔML）通过校正低精度方法的系统误差，能够以可忽略的额外计算成本（约2毫秒/分子）将半经验计算结果优化至高精度水平。本研究聚焦于有机π共轭分子的第一单重态激发能（S₁）预测，旨在建立ZINDO计算向TDDFT（M06-2X/3-21G*）的映射模型，以解决高通量虚拟筛选（HTVS）中TDDFT计算成本高的问题。

数据集构建

研究采用基于ZINC数据库的独特共轭核心聚类策略，构建了包含7600个分子的训练集和9500个分子的测试集。通过筛选10-25个重原子（C、N、O、S、F）的分子，并剔除硝基（-N=O）等易导致预测偏差的基团，确保了数据集的电子多样性。所有分子经PM7构象优化后，分别进行ZINDO和TDDFT计算，其中TDDFT与实验值的相关性达0.95（Wu et al.），验证了目标方法的可靠性。

描述符设计

模型的核心在于引入三类描述符：

1.
结构指纹：包括摩根指纹（MorganFP）和AttentiveFP神经网络指纹，用于编码分子拓扑信息。
2.
电子原子描述符：从ZINDO计算中提取穆利肯电荷（μ_i）、原子势（φ_i）及空穴-电子密度（n_i^hole/n_i^elec），直接关联激发态电子结构。
3.
分子轨道加权径向分布函数（MO-RDF）：创新性描述符，通过最高占据分子轨道（HOMO）密度加权RDF捕获电子分布的非局域特征，解决几何相似但电子结构差异大的分子区分问题。

机器学习模型架构

研究对比了多种模型变体：

•
AttentiveFP MPNN模型：默认原子描述符（DA）基础上加入电子原子描述符（EA）后，测试集相关性从0.930提升至0.946。
•
分层嵌入模型：将AttentiveFP神经网络指纹与ZINDO能量、MO-RDF等描述符拼接，经稠密网络进一步优化，最佳变体Dense(MPNN(DA, EA), E_ZINDO, MO-RDF)的测试相关性达0.957，均方根误差（RMSE）降至0.178 eV。
•
描述符贡献分析：摩根指纹因与神经网络指纹信息冗余，反而降低性能；而MO-RDF与ZINDO电子描述符互补性强，显著提升模型鲁棒性。

性能验证与泛化能力

•
内部测试集：ΔML-ZINDO将ZINDO的S₁能量预测误差从0.304 eV（线性模型）降至0.118 eV，在可见光区域（1.7–3.3 eV）的分子筛选中，准确识别率从45%提升至86%。
•
外部数据集验证：在QCDGE数据集（ωB97X-D/6-31G*水平）上，模型相关性达0.993，但因该数据集限于10个重原子分子，电子多样性较低，性能优化更显著。
•
振荡强度分类：模型适配于S₁振荡强度（f>0.4）预测，准确率达91.5%，精确度82.3%，可有效筛选高发射性分子。

结论与展望

本研究通过电子结构引导的ΔML框架，实现了ZINDO向TDDFT级别精度的高效逼近。模型在保留ZINDO计算速度优势的同时，通过引入MO-RDF等电子描述符，解决了传统描述符对电子非局域性刻画不足的痛点。该工具适用于大规模有机光电器件分子库的初筛，为后续高精度计算提供可靠预选方案。未来可扩展至多重激发态性质预测及溶剂化效应建模。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部