彼得·菲希特尔曼 | 朱莉娅·韦斯特迈尔
威廉-奥斯特瓦尔德物理与理论化学研究所,莱比锡大学
林内街2号,莱比锡04103,德国
直接从分子结构预测嗅觉感知在香水、食品饮料和医疗保健等众多行业的产品设计中至关重要。在嗅觉属性中,气味强度是塑造嗅觉感知的关键因素,但由于强度数据稀缺且分散,其建模受到了限制。在这项工作中,我们通过整合两个不同的公共来源,创建了一个包含2300多种分子的有序气味强度数据集,并将结构映射为无味、低强度、中等强度和高强度三类。我们比较了多种分子编码方法和监督学习算法。降维和SHAP分析确定分子形状、大小和极性是主要的影响因素,这与质量传递对挥发性的限制、吸附作用以及受体可及性是一致的。这个可扩展的有序框架能够可靠地估算新分子的气味强度,并为计算机辅助香料设计提供了基础。
1. 引言
香料在我们的日常生活中无处不在。我们每天在各种产品中都能遇到它们,包括香水、清洁剂、卫生用品等。然而,创造一款香水是一个繁琐的过程,需要精细调整数百种不同原材料的组合和浓度。因此,香料设计成本高昂,仅限于全球少数具有多年经验的高度训练有素的专业人士(即调香师)。相比之下,目前的宇航员人数仍然多于调香师。
嗅觉感知的基础在于,有香化合物的化学空间本质上是受限的,分子的挥发性在很大程度上决定了它是否具有气味。要被感知,分子必须具有足够的挥发性以蒸发,通过鼻腔到达嗅觉上皮层。同时,它们还必须具备适当的极性和疏水性,以穿过黏膜层并与嗅觉受体相互作用,从而触发嗅觉受体神经元。这一过程如图1所示。
2. 结果与讨论
2.1. 组织的数据集和气味化学空间
大多数气味数据属于香水公司的财产,而气味强度数据仅在少数几百种化合物的数据集中被汇编。然而,机器学习算法通常需要大规模的数据集进行训练。因此,我们研究的第一步是组织一个数据集。具体步骤如图2顶部所示。我们评估了结合不同来源以编制比现有数据集更大气味强度数据集的可行性。我们清洗并合并了来自Good Scents公司和PubChem的数据。数据清洗和预处理是必要的,因为PubChem的数据采用的是强度描述,需要转换成气味强度。在合并数据之前,还移除了不符合有效SMILES字符串标准的数据点。
总数据集包含2393种分子。每个类别的气味强度分布及代表性分子如图3a所示。每个块代表50个数据实例。具体数量见SI中的表S1。橙色块代表Good Scents的数据,绿色块代表PubChem的数据。这种数据组合有助于平衡不同类别的学习,因为Good Scents主要包含中等和高强度的气味分子,而PubChem主要包含低强度或无味的成分。数据集在注释者之间显示出高度一致。我们计算了两个常用的机会校正指标:(1)Good Scents和PubChem数据集交集上的Cohen's kappa值为0.83;(2)整个数据集上的Krippendorff's alpha值为0.81(范围0到1,1表示完全一致)。这两个指标都反映了整个数据集的标签概率,而不仅仅是交集部分。尽管如此,我们并没有遇到重大主观不一致性,我们的关键词映射方法足够可靠。尽管通过合并来源提高了数据的平衡性,但中等强度仍占多数,低强度仅占总数的12%,这反映了标注强度标签的可用性而非选择性偏差。期望在气味强度上实现更好的平衡可以提高训练模型的稳健性。由于额外的描述符库(如Leffingwell或Thiboud提供的)主要提供气味特征和性能信息,但几乎没有气味强度描述,因此在没有可验证假设的情况下无法在不同顺序类别之间进行协调。同样,心理物理强度数据集也被排除在外,因为它们的评分是浓度、溶剂和实验方案的显式函数;在没有共享浓度尺度或协变量模型的情况下混合这些数据会混淆结构与感知的关系。
2.2. 描述符与回归
为了克服数据稀缺的问题并允许基于机器学习的气味强度训练,我们引入了首个包含2300多种分子的气味强度数据集,从而实现了对多种气味成分的泛化。这些数据来自Good Scents公司和PubChem。利用这些数据,我们进一步研究了不同描述符和回归器预测气味强度的能力。据我们所知,这些是基于机器学习的模型,能够从分子结构预测气味强度类别。该过程的概述见图2。
3. 结论
直接从分子结构预测嗅觉感知在香水、食品饮料和医疗保健等众多行业的产品设计中至关重要。虽然简单的规则可以区分哪些分子具有气味,但对于更复杂的气味属性(如气味相似性、强度或特征)却没有可靠的通用规则,后者通常用“果香”“花香”或“玫瑰香”等词汇来描述。解决这些高维结构-感知关系需要数据驱动的方法,这也促使了机器学习在预测气味相似性等方面的应用。例如,Lee等人基于消息传递神经网络开发了一个主要气味图谱;Sisson等人将这种方法扩展到二元香水混合物。这些研究表明,目前的研究主要集中在气味的特征上,而非其强度,尽管气味强度是感知气味的关键因素。这种研究的缺乏也体现在现有的大型化合物数据集中,这些数据集包含大量关于气味的描述性语言(如Good Scents或Leffingwell的数据集)。只有少数研究记录了总共不到600种化合物的气味强度-感知数据。
此外,当前的近似方法都是简单的模型,用于预测单个气味剂的心理物理强度曲线(如线性模型、指数模型或抛物线模型)。然而,这些模型存在局限性,例如在高浓度下的预测准确性较低,因为缺乏对受体饱和度的建模;此外,这些模型基于高度可变的气味检测阈值(无论是线性还是指数模型),而这些阈值并不一定等于实际感知的强度。近期的一些研究开始通过预测抛物线型心理物理曲线参数并将其扩展到混合物来解决这些问题。
为了克服数据稀缺的问题,我们引入了首个包含2300多种分子的气味强度数据集,实现了对多种气味成分的泛化。我们整理并合并了来自Good Scents公司和PubChem的数据。利用这些数据,进一步研究了不同描述符和回归器预测气味强度的能力。据我们所知,这些是基于机器学习的模型,能够从分子结构预测气味强度类别。相应的PCA载荷表明,第一个主成分主要受描述分子量、大小和连接性的特征的影响。第二个主成分反映了杂原子和极性的贡献。前15个特征对不同主成分的具体分布可以在补充信息(SI)中的表S3和表S4中找到。这些特征是控制分子从气味源传输到嗅觉受体的主要因素。这一观察结果与Mayhew等人的发现一致,他们表明质量传输是决定分子是否有气味的关键。因此,随着气味强度的增加,气味分子所占据的化学空间逐渐变窄,这反映了挥发性和极性带来的更严格限制。有关这一结论的进一步可视化图表可以在SI中的图S5和S6.2.2中找到。
由于传统的聚类算法无法根据气味强度对数据进行分组,而之前部分的降维和化学空间分析也支持了这一点,因此使用监督学习算法来进行气味强度预测。与无监督学习模型(聚类)不同,监督学习模型利用标记数据来指导学习过程。因此,我们的目标是确定这样的模型是否能够学会分子结构与气味强度之间的关系。为了基于分子表征预测气味强度,我们测试了两种不同的建模策略:首先,我们采用了“直接方法”。为此,我们定义了四个类别,即无气味、低气味强度、中等气味强度和高气味强度,然后对所有这些类别进行了模型训练。其次,我们将无气味分子与有气味物质分开。这种方法需要两个预测:一个是判断分子是否有气味,另一个是对气味强度进行分类(低、中、高)。这两种策略都被用于测试关于结构到感知路径的互补假设:单一任务的序数学习器可能最好地捕捉所有类别之间的整体权衡,而层次化的两步流程可以首先利用不同的分子特征进行质量传输,然后进行受体相互作用。
我们测试了五种回归算法,包括经典逻辑回归、随机森林、极端梯度提升(XGBoost)、多层感知器(MLP)和一致性排名逻辑值(CORAL),以及一种专为序数回归设计的MLP架构。每种算法都使用了七种广为使用的分子编码策略来表示分子。这种广度使我们能够在根本不同的特征空间中评估预测性能。我们计算了结构、拓扑和物理化学描述符(RDKit描述符),并使用了能够突出微妙结构差异的经典指纹。这些包括圆形子结构Morgan指纹、预定义的子结构MACCS键指纹,以及几个能够捕捉较长范围原子连接序列的拓扑指纹,如RDKit指纹、拓扑扭转指纹和原子对指纹。除了这些经典方法,我们还评估了更近期的表示学习技术。ChemBERTa-2是一种在7700万个SMILES字符串上预训练的语言模型,提供了数据驱动的嵌入。此外,基于图的编码使用消息传递神经网络最近在预测气味特性和相似性方面展示了有希望的结果。因此,我们应用了ChemProp框架,该框架用于消息传递神经网络。认识到预训练有可能提高下游模型的性能,我们进一步测试了CheMeleon,这是一个在7700万个分子的Mordred描述符上预训练的基础ChemProp模型。所有模型超参数都是通过10次重复的10折交叉验证进行优化的。大量的重复次数减少了数据中的噪声影响。在补充信息中的S2部分(表S5–S14)提供了不同模型的优化超参数。我们选择了宏观平均均方误差(macro MSE)作为每个气味强度类别计算出的MSE的平均值。该公式在计算细节部分的方程(1)中给出。宏观MSE对较大的误差给予了更重的惩罚,同时平等地权衡了所有气味强度类别,无论它们包含多少样本。相比之下,常见的微观MSE是在所有类别中全局计算的,并且受到多数类别的影响。我们在SI的表S17中报告了直接方法的进一步指标(微观MSE、F1 macro、F1 micro/准确率和接收者操作特征曲线下面积(ROC AUC,衡量模型在所有阈值下区分类别的能力),在表S18中报告了间接方法的指标。间接模型的预测步骤组合如下:(1)第一个模型预测化合物是否有气味;(2)第二个模型仅预测在前一步被预测为有气味的化合物的气味强度。错误指标基于最终结果计算得出。
间接方法步骤的结果在SI中的图S7–S11中提供,通常准确性较低。直接方法和间接方法在每种模型和描述符组合的宏观MSE值之间的差异在图S11中进行了绘制。我们对所有描述符-预测器组合进行了5 × 2交叉验证的配对t检验,以测试性能差异的显著性。t值和p值在表S15中提供。在30个描述符-预测器组合中的19个组合中,直接方法的性能优于间接方法(置信区间95%)。鉴于错误传播的潜力降低、训练和预测期间的计算资源消耗更低,以及模型和描述符的整体性能更高,本研究的剩余部分将集中在直接方法上。我们在超参数优化中选择了宏观MSE最低的四个直接模型之间进行了额外的5 × 2交叉验证的配对t检验。结果显示在SI的表S16中。这些模型之间没有观察到显著差异(置信区间95%)。由于RDKit描述符的可解释性更好,我们将在研究的其余部分重点关注这些模型。RDKit描述符MLP、随机森林和XGB模型被组合成一个集成模型,并将预测结果作为各个预测的平均值计算。这个直接集成模型的标准化混淆矩阵显示在图4b中。值得注意的是,中等气味强度类别的准确性最高,这在训练集和测试集中最为普遍。相比之下,很少出现的低气味强度类别的表现最差。总体而言,大多数误分类发生在相邻的气味强度类别之间。我们的集成模型在各自的类别内正确分类了72%的测试实例。MSE、F1、准确率和ROC AUC(包括类别特定分数)在SI的表S19中报告。
下载:下载高分辨率图片(874KB)
下载:下载全尺寸图片
图4. 直接预测方法的模型性能。(a)测试集中所有分子描述符(底部)和预测因子(左侧)组合的气味强度类别的宏观平均均方误差(MSE)。MLP是多层感知器,FP是指纹。(b)直接集成模型在测试集上的混淆矩阵,通过测试样本数量进行了标准化,平均来自10次随机种子化的训练运行。(c)Keller等人20的研究中新型分子的直接集成模型预测与其实验评估的气味强度(从0到100;每个分子13–108个评分)在10^-3稀释度下的面积标准化小提琴图。(d)直接集成模型最具影响力的特征组的全球SHAP(SHapley Additive exPlanations)特征重要性。RDKit描述符特征是根据其特征值相关性(阈值:0.75,最大化轮廓分数(SI中的图S14)使用聚合聚类分组的。每个组内的绝对SHAP值被求和。最后,我们在另一个包含实验气味强度评级的文献衍生测试集上评估了模型的性能。这些分子与上面使用的数据集完全不同,没有通过基于比特的Morgan指纹的Tanimoto相似性进行评估。图4c使用小提琴图显示了评分平均值及其在强度评分中的分布(白线和黑色框),以及在10^-3稀释度下的预测分布(形状、颜色)。可以看出,预测的气味强度与评定的气味强度有很好的一致性(范围从0到100)。尽管个别评分之间存在相当大的变异,我们的模型提供了对感知气味强度的合理近似。当结合从10^-3到10^-7的稀释度时,这种趋势得到了进一步确认,浓度差异高达10^4个数量级。即使没有显式建模气味浓度,直接集成模型的气味强度预测也与实际气味强度非常吻合,如SI中的图S12a所示。然而,我们的模型仅限于较低的浓度范围。在10^-1稀释度时,集成模型的性能下降(图S12b)。
2.3. 气味强度的物理化学决定因素
虽然机器学习模型的性能是一个可以通过MSE或其他指标来评估的中心方面,但模型的可解释性同样重要。为了提供驱动模型决策的因素的见解,我们使用了SHAP(SHapley Additive exPlanations),它根据Shapley值从合作博弈论为模型的预测为每个特征分配了一个贡献值。这种方法提供了直接集成模型行为的全球和局部可解释性。为了评估全局特征重要性,我们计算了所有特征的绝对SHAP值,并根据它们的特征值相关性(阈值:0.75,由于最高轮廓分数(SI中的图S14)将它们聚类到组中。最具影响力的特征组的基于SHAP的特征重要性显示在图4d中,每个特征对其相应组的贡献在SI中的图S15–S19中显示。与所描述的PCA的前两个主成分的载荷(图3b)一致,与分子极性相关的特征(如氢受体或供体的数量和杂原子的数量)以及描述分子量和形状的特征(如分子量或Chi描述符)在直接集成模型的预测中表现出最高的重要性。此外,与氮相关的极性、醇基团的存在和Morgan指纹密度(测量非恒定子组的数量)也对模型预测做出了重大贡献。值得注意的是,其余特征组的累积影响显著更高,反映了模型决策过程的复杂性。此外,每种气味强度的特征重要性在SI中的图S20中显示。没有观察到特定属性对更高或更低气味强度更相关的明确趋势。SI中的图S21展示了代表每个气味强度类别的四种分子的局部特征组贡献的代表性示例。这些示例与全球发现的结果一致,表明极性、分子量和形状显著影响气味强度。
3. 结论
在这项工作中,我们评估了机器学习预测气味强度的潜力。我们展示了可以使用来自两个不同来源的超过2300种气味剂的新编制和合并的数据集直接从分子结构预测气味强度。化学气味空间的二维简化表示显示,当使用分子描述符或圆形指纹作为表示时,气味强度类别显著重叠,因此难以形成特定的簇,这使得无监督学习方法变得困难。分析了区分气味强度类别的关键变异驱动因素,如与质量传输相关的特征,例如分子量、大小、形状和极性,这些特征对更高气味强度的限制更大。对最先进的分子编码和预测算法进行了全面的基准测试,确定了多个表现最佳的模型,它们之间没有显著的性能差异。我们测试了两种不同的学习策略:首先,我们研究了直接预测无气味、低、中等和高气味强度类别的方法。其次,我们首先分离了无气味分子和有气味物质,然后在第二步中根据气味强度对气味剂进行分类。虽然两种模型显示出相当的结果,但第一种直接方法更稳定,通常更准确,在30个描述符-预测器组合中的19个组合中表现显著更好。最后,我们解释了模型特征归属,这与已知的分子质量传输原理一致。我们提出的模型可以用来预测新分子的气味强度,从而支持理性的香水设计,在这种设计中,根据气味强度对成分进行加权可能是有益的。在预测气味强度方面,一个主要挑战仍然是分子的标记问题,这具有高度的主观性,并且需要许多人的评估才能获得可靠的结果。然而,个体之间对气味的感知存在很大差异。此外,离散分类本身忽略了同一气味强度类别内气味强度的连续变化。为了进一步推进气味强度建模,需要全面的气味强度数据,这些数据应涵盖更广泛的分子和混合物,并在多种浓度下进行测量,同时包含特征明确的杂质。这样的数据将有助于模型更好地捕捉到已知的、关于气味剂浓度对数与感知气味强度之间的单调S形关系,这种关系的斜率因不同的气味剂而异。虽然可以通过与结构相关的传输属性可靠地预测气味性和气味强度,但结合生物信息(如受体反应)可能会产生更加准确和机制上更有根据的模型。总体而言,这项工作为数据驱动的计算机香水设计迈出了重要一步。
4. 计算细节
4.1. 数据集生成与分析
为了整理数据,我们使用Python包BeautifulSoup构建了一个网络爬虫,从The Good Scents公司的网站中提取了所有42234个条目的气味强度、SMILES字符串和CAS编号。由于Good Scents数据库中存在一些不正确的SMILES,首先使用CAS Common Chemistry API将CAS编号转换为SMILES。如果转换失败,则使用Good Scents提供的SMILES字符串;如果仍然无法获得,则通过PubChem进行转换。由于只有13种化合物被标记为“非常高”的气味强度,因此将这些化合物重新分类为“高”级别。具体的化合物在表S20的第S6节中进行了标注。关于PubChem数据,检索了根据PubChem分类浏览器具有气味描述的条目的所有化合物ID(CIDs),并通过网络爬取获取相应的SMILES和气味描述。所有SMILES字符串都使用RDKit进行了规范化处理。如果PubChem中的描述包含预定义的关键词,则将气味描述转换为气味强度类别。每个类别的关键词在SI的第S6节中提供。为了量化Good Scents和PubChem数据集之间的评分者间一致性,使用了scikit-learn中的方法计算了二次加权Cohen's kappa系数。此外,还使用python库Fast Krippendorff对整个数据集计算了Krippendorff's alpha系数。仅保留了具有有效规范化SMILES的化合物。去除了PubChem中的重复SMILES条目。共识别出332个包含点的SMILES。SMILES中的点不属于分子的共价结构,而是表示单独的、不相连的片段,例如离子或异构体。包含点的SMILES以及“carob bean absolute”和“galbanum resinoid”这类模糊的条目被排除在外。总共收集了2393个数据点,其中1678条目来自Good Scents,715条目来自PubChem。
另外,还使用Keller等人提供的数据通过Pyrfume生成了另一个独立的测试集。移除了与训练集中至少一种分子具有80%或以上Tanimoto相似性的化合物(基于位的Morgan指纹,半径=3,nBits=2048),以确保测试集只包含与训练化合物有足够差异的新化合物。这些化合物有四种不同的稀释水平。每个化合物由独立的普通评审小组进行了13到108次评分,为每种稀释度的每个化合物提供了评分强度的平均值和标准差。
4.2. 模型训练与验证
为了训练机器学习模型,整个数据集被划分为80%的训练集和20%的测试集,这是根据scikit-learn的实现方法进行的。训练集被用于10次随机种子重复的10折交叉验证。每次运行时,训练集又被划分为90%的训练集和10%的验证集,以找到最佳超参数。选择大量重复次数是为了减少基于机会的变化。所有划分都进行了分层处理,以保持每个子集中大致相同的气味强度类别比例。此外,将具有80%或以上Tanimoto相似性的化合物(基于位的Morgan指纹,半径=3,nBits=2048)分组到相同的子集中,以避免结构非常相似的化合物在数据集之间的交叉影响。
我们进行了5 × 2交叉验证配对t检验,并采用了来自Python包mlxtend的相关代码。作为评估指标,使用了计算每个气味强度类别的宏观MSE(macro MSE),公式如下:
MSE_i = Σ [(y_i - μ_i)^2 / n_i]
其中N是类别的数量(四个),MSE_i是第i类的MSE。
4.3. 超参数优化
每个模型的超参数通过Optuna在100次试验中进行了调整,使用了树结构Parzen估计器。在每次试验中,都应用了之前描述的交叉验证程序。每个分子编码器和预测器的详细超参数范围和采样策略在SI的第S2节中的表S5-S14中提供。采用了两个不同的目标指标:(1)对于直接方法和间接方法的第二步:验证集各个气味强度类别的宏观平均MSE;(2)对于间接方法的第一步(二元分类器:如果一个分子有气味):F1分数,其中目标类是少数类。为了解决类别不平衡问题,所有预测器都使用了基于气味强度类别加权的损失函数进行成本敏感学习。每次交叉验证后,通过25百分位数修剪器淘汰了偏差超过容忍区间(宏观MSE = 0.02,F1分数 = 0.015)的无效试验。
4.4. SHAP特征重要性分析
使用训练集作为背景,通过Python的SHAP包计算了测试集的SHAP值,以估计平均和样本特征值。几个RDKit描述符特征值高度相关(相关矩阵见SI中的图S14)。因此,我们应用了聚类算法将高度相关的特征分为131组。选择0.75的相关性阈值,是因为在这个阈值下轮廓分数的最大值为0.33。不同阈值下的轮廓分数显示在SI的图S14中。虽然存在在SHAP值估计期间考虑特征相关性的方法,但条件或依赖性感知的SHAP的计算成本会随着特征数量的增加而呈指数级增长。考虑到我们的特征数量和组数,目前这不可行。因此,我们通过在基于相关性的组内求和SHAP值来报告组聚合的重要性,并在组级别解释效应。
作者贡献
PF:数据整理、机器学习训练与验证、分析、手稿撰写和修订。
J. W.:概念化、分析、手稿撰写和修订。
利益冲突
没有需要声明的利益冲突。
数据可用性
本研究使用了来自The Good Scents网站和PubChem的公共数据。原始的Good Scents数据集受到美国和外国版权法的保护,因此数据集本身不对外提供;但是获取数据的代码是可用的。原始的PubChem数据集以及用于抓取原始数据集、创建和清理整理后的数据集、分析化学空间、训练和验证模型、揭示特征重要性以及使用交互式笔记本应用最佳模型进行新预测的代码可以在https://github.com/peter-fichtelmann/odor-strength找到,并上传到了Zenodo平台上,DOI为:https://doi.org/10.5281/zenodo.17660448(版本1.0.7)。
补充信息(SI):关于整理后的数据集、超参数范围、模型性能、模型验证和SHAP特征重要性分析的进一步图表和表格。详见DOI:https://doi.org/10.1039/d6ra01805j。
打赏