通过预测实验中的红外(IR)光谱峰来探索有机化合物的结构基础:一项机器学习分析

时间:2026年1月23日
来源:Journal of Molecular Graphics and Modelling

编辑推荐:

基于机器学习预测有机化合物红外光谱中羰基峰的研究,采用Modred和RDKit生成分子描述符,发现FractionCSP3、BCUT2D_MRLOW和FCSP3对预测结果影响显著。通过Extra Trees回归模型验证,R²值达0.72-0.78,同时计算了合成可及性分数。该研究证实机器学习可有效揭示分子结构与光谱特性的关联,为有机合成和材料分析提供新工具。

广告
   X   

Sadaf Noreen | Mamduh J. Aljaafreh | Ashour M. Ahmed
古吉拉特大学化学系,古吉拉特,50700,旁遮普省,巴基斯坦

摘要

理解有机化合物的结构基础在化学和材料科学等领域至关重要。本研究利用机器学习方法,尝试根据Modred和RDKit描述符预测有机化合物红外(IR)光谱中的羰基峰。结果表明,FractionCSP3是这两种描述符中最具相关性的描述符。Extra Trees(ET)回归模型的决定系数(R²)为0.72–0.78,表现最佳。通过SHapley Additive Explanations(SHAP)分析发现,BCUT2D_MRLOW(RDKit)和FCSP3(Modred)是最具影响力的描述符。通过对50个估计器进行超参数调整,优化了模型性能。此外,计算出的合成可行性(SA)得分范围为0.00–0.15,有助于评估合成的可行性。这些发现展示了机器学习在揭示有机化合物结构基础及预测其IR峰方面的强大能力。

引言

红外(IR)光谱是一种广泛用于有机化合物结构鉴定的分析技术[1]。作为一种振动光谱方法,IR光谱能够提供关于样品分子结构和化学组成的宝贵信息[2]。通过测量分子对红外辐射的吸收,IR光谱可以识别特定的官能团和分子结构,使其成为有机化学中的重要工具[3]。化合物的IR光谱是其分子结构的独特“指纹”,可用于识别和量化特定官能团(如烷基、羰基或羟基)的存在[4]。解读IR光谱需要深入理解分子结构与光谱特性之间的关系,以及将特定吸收带与相应官能团对应起来的能力[5]。近年来,IR光谱与机器学习(ML)算法和化学计量技术的结合彻底改变了这一领域[6],使得复杂有机化合物的快速准确鉴定成为可能[7]。通过开发强大且准确的预测模型,可以加速复杂有机化合物的鉴定和表征[8],从而加深我们对它们化学和物理性质的理解[9]。
由于机器学习能够分析大量数据[10]、识别模式[11]并进行预测[12],它在解决现代化学问题中越来越受到重视。在化学领域,ML算法可用于预测分子的性质[13]、设计新材料以及优化化学反应[14]。这可以显著加快发现过程、降低成本并提高效率[15]。例如,ML可以帮助预测复杂系统的行为、识别新催化剂并优化反应条件[16]。此外,ML还能辅助分析实验中的大型数据集[17]、识别趋势[18]并做出明智的决策[19]。随着理论化学领域的不断发展[20],将ML整合进来对于应对复杂的化学挑战和实现新的发现至关重要[21]。本研究的目的是探讨影响有机化合物中羰基峰位置的结构因素。在光谱分析中经常观察到的羰基峰在识别和表征有机分子方面起着关键作用[22]。通过评估决定这些峰位置的结构因素,本研究旨在更深入地理解分子结构与光谱特性之间的关系(图1)。这些知识有助于开发更准确的预测模型,使科学家能够更好地解读光谱数据,并在有机合成、材料科学和药物研究等领域做出明智的决策。

数据来源和描述符设计

本研究首先从文献中收集了可自由获取的羰基峰实验数据(来自Chengchun Liu [23])。然后使用这些预处理后的数据设计了两种描述符:RDKIt描述符和Mordred描述符,以捕捉分子的拓扑、几何和电子性质方面的信息。RDKIt描述符是通过RDKit开源化学信息学库计算得出的,而Mordred描述符则是通过...

描述符相关性

顶级描述符与IR特征羰基峰的相关性矩阵揭示了分子性质之间的关系。描述符“Partial Equalization of Orbital Electronegativities-Voronoi Surface Area Descriptor 9”(PEOE_VSA9)的相关系数为0.31,与羰基峰表现出最强的正相关性(图3)。PEOE_VSA9是一个与分子极性表面积相关的描述符,表明具有较大极性的分子...

结论

本研究采用机器学习方法,利用Modred和RDKit描述符预测含有羰基团的有机化合物的实验羰基峰。ET回归模型的决定系数R²值为0.72–0.78,证明了其在捕捉分子描述符与实验IR峰之间复杂关系方面的有效性。研究发现FractionCSP3是最具相关性的描述符,而BCUT2D_MRLOW(RDKit)和FCSP3(Modred)是最具影响力的描述符...

CRediT作者贡献声明

Sadaf Noreen:撰写 – 审稿与编辑、初稿撰写、软件开发、方法论设计、实验设计、数据分析、概念构建。 Mamduh J. Aljaafreh:撰写 – 审稿与编辑、初稿撰写、软件开发、方法论设计、数据分析、概念构建。 Ashour M. Ahmed:撰写 – 审稿与编辑、实验设计、数据分析、形式分析。

资金声明

本研究得到了伊玛目穆罕默德·本·沙特伊斯兰大学(IMSIU)科学研究办公室的支持和资助(资助编号:IMSIU-DDRSP2602)。

利益冲突声明

作者声明没有已知的财务利益或个人关系可能影响本文的研究结果。

生物通微信公众号
微信
新浪微博


生物通 版权所有