引言
机器学习(ML)在计算化学中已成为提升量子化学计算精度与速度的关键工具。Δ学习(ΔML)通过校正低精度方法的系统误差,能够以可忽略的额外计算成本(约2毫秒/分子)将半经验计算结果优化至高精度水平。本研究聚焦于有机π共轭分子的第一单重态激发能(S1 )预测,旨在建立ZINDO计算向TDDFT(M06-2X/3-21G*)的映射模型,以解决高通量虚拟筛选(HTVS)中TDDFT计算成本高的问题。
数据集构建
研究采用基于ZINC数据库的独特共轭核心聚类策略,构建了包含7600个分子的训练集和9500个分子的测试集。通过筛选10-25个重原子(C、N、O、S、F)的分子,并剔除硝基(-N=O)等易导致预测偏差的基团,确保了数据集的电子多样性。所有分子经PM7构象优化后,分别进行ZINDO和TDDFT计算,其中TDDFT与实验值的相关性达0.95(Wu et al.),验证了目标方法的可靠性。
描述符设计
模型的核心在于引入三类描述符:
1. 结构指纹 :包括摩根指纹(MorganFP)和AttentiveFP神经网络指纹,用于编码分子拓扑信息。
2. 电子原子描述符 :从ZINDO计算中提取穆利肯电荷(μi )、原子势(φi )及空穴-电子密度(ni hole /ni elec ),直接关联激发态电子结构。
3. 分子轨道加权径向分布函数(MO-RDF) :创新性描述符,通过最高占据分子轨道(HOMO)密度加权RDF捕获电子分布的非局域特征,解决几何相似但电子结构差异大的分子区分问题。
机器学习模型架构
研究对比了多种模型变体:
• AttentiveFP MPNN模型 :默认原子描述符(DA)基础上加入电子原子描述符(EA)后,测试集相关性从0.930提升至0.946。
• 分层嵌入模型 :将AttentiveFP神经网络指纹与ZINDO能量、MO-RDF等描述符拼接,经稠密网络进一步优化,最佳变体Dense(MPNN(DA, EA), EZINDO , MO-RDF)的测试相关性达0.957,均方根误差(RMSE)降至0.178 eV。
• 描述符贡献分析 :摩根指纹因与神经网络指纹信息冗余,反而降低性能;而MO-RDF与ZINDO电子描述符互补性强,显著提升模型鲁棒性。
性能验证与泛化能力
• 内部测试集 :ΔML-ZINDO将ZINDO的S1 能量预测误差从0.304 eV(线性模型)降至0.118 eV,在可见光区域(1.7–3.3 eV)的分子筛选中,准确识别率从45%提升至86%。
• 外部数据集验证 :在QCDGE数据集(ωB97X-D/6-31G*水平)上,模型相关性达0.993,但因该数据集限于10个重原子分子,电子多样性较低,性能优化更显著。
• 振荡强度分类 :模型适配于S1 振荡强度(f>0.4)预测,准确率达91.5%,精确度82.3%,可有效筛选高发射性分子。
结论与展望
本研究通过电子结构引导的ΔML框架,实现了ZINDO向TDDFT级别精度的高效逼近。模型在保留ZINDO计算速度优势的同时,通过引入MO-RDF等电子描述符,解决了传统描述符对电子非局域性刻画不足的痛点。该工具适用于大规模有机光电器件分子库的初筛,为后续高精度计算提供可靠预选方案。未来可扩展至多重激发态性质预测及溶剂化效应建模。
打赏