用于嗅觉识别的机器学习:分子香水成分的序数级气味强度预测

时间:2026年5月15日
来源:RSC Advances

编辑推荐:

从分子结构直接预测嗅觉感知在香水、食品饮料和医疗保健等众多行业的产品设计中至关重要。在嗅觉属性中,气味强度是塑造嗅觉感知的关键因素,但由于强度数据稀缺且分散,其建模一直受到阻碍。在这项工作中,我们通过整合两个不同的公共来源,创建了一个包含2300多种分子的有序气味强度数据集,将这

广告
   X   

从分子结构直接预测嗅觉感知在香水、食品饮料和医疗保健等众多行业的产品设计中至关重要。在嗅觉属性中,气味强度是塑造嗅觉感知的关键因素,但由于强度数据稀缺且分散,其建模一直受到阻碍。在这项工作中,我们通过整合两个不同的公共来源,创建了一个包含2300多种分子的有序气味强度数据集,将这些分子的结构映射到无味、低强度、中等强度和高强度类别中。我们比较了多种分子编码和监督学习算法下的不同预测策略。降维和SHAP分析确定分子形状、大小和极性是主要驱动因素,这与质量传输对挥发性的限制、吸附作用以及受体可及性是一致的。这个可扩展的有序框架能够可靠地估计新分子的气味强度,并为计算机模拟香水设计提供了基础。

1 引言

香水在我们的日常生活中无处不在。我们每天在各种产品中都会遇到它们,包括香水、清洁剂、卫生用品或护理产品。然而,创造一种香水是一个繁琐的过程,需要精细调整数百种不同原材料的组合和浓度。因此,香水设计成本高昂,仅限于全球少数具有多年经验的高度训练有素的专家,他们被称为调香师。相比之下,目前活着的宇航员数量比调香师还要多。

香水感知的基础是,有气味的化合物的化学空间本质上是有限的,分子的挥发性在很大程度上决定了它是否有气味。为了被感知,分子必须具有足够的挥发性以蒸发,穿过鼻子并到达嗅觉上皮。然而,它们还必须具备适当的极性和疏水性,以便穿过黏液层并与嗅觉受体相互作用,从而触发嗅觉受体神经元。这一过程如图1所示。

图1展示了分子成为嗅觉刺激的质量传输机制。气味分子必须蒸发,进入鼻子,到达嗅觉上皮,吸附到嗅觉黏膜中,进入嗅觉受体结合位点,并激活嗅觉受体神经元。因此,潜在有气味化合物的化学空间受到挥发性和极性的限制。虽然简单的规则可以界定哪些分子可以被感知为有气味,但对于更复杂的气味品质(如气味相似性、强度或特征)并没有可靠的通用预测规则,这些品质通常用“果香”、“花香”或“玫瑰香”等词语来描述。解决这些高维结构-感知关系需要数据驱动的方法,这促使人们应用机器学习来预测气味相似性或特征。例如,Lee等人基于消息传递神经网络开发了一个主要气味图。该模型在气味特征描述上进行训练,并推广到气味阈值和气味相似性上。Sisson等人将这种方法扩展到二元香水混合物。这些研究表明,这一方向的主要关注点是气味的特征而非其强度,尽管气味强度是感知气味的决定性因素。这种研究的缺乏也反映在现有的数千种化合物的数据集中,这些数据集包含了气味分子的描述性语言,如Good Scents或Leffingwell的数据集。只有少数研究记录了少于600种不同物质的分子的气味强度-感知数据。

关于强度数据的稀缺性,目前的最佳近似方法是简单的模型来预测单个气味分子的心理物理强度曲线。例如线性(气味值)、指数(Stevens定律)或抛物线(例如Hill模型)方法。然而,这些模型存在几个局限性,例如在高浓度气味分子时预测准确性有限,因为缺乏对受体饱和度的建模(线性和指数模型),并且基于高度变化的气味检测阈值(线性和指数模型)。后者并不一定等于感知强度。最近的研究开始通过预测抛物线心理物理曲线参数并将这些预测扩展到混合物上来解决这些问题,使用了62种不同的分子。

为了克服数据的稀缺性并允许对气味强度进行机器学习训练,我们引入了第一个包含2300多种分子的气味强度数据集,该数据集允许对各种气味成分进行泛化。因此,我们整理并合并了来自Good Scents Company和PubChem的两个不同来源的数据。利用这些数据,我们进一步研究了不同描述符和回归器预测气味强度的能力。据我们所知,这些是基于机器学习的第一个模型,可以从分子结构预测气味强度类别,作为气味强度的估计。该过程的概述如图2所示。

2 结果与讨论

2.1 策划的数据集和有气味的化学空间

大多数气味数据是香水公司的财产,而气味强度数据仅在一些包含数百种化合物的数据集中编制。然而,机器学习算法通常需要大型数据集进行训练。因此,我们研究的第一步是策划一个数据集。这一步在图2的顶部有所体现。特别是,我们评估了结合不同来源以编制比现有数据集更大的气味强度数据集的可行性。如图所示,我们清理并合并了来自Good Scents Company和PubChem的数据。由于PubChem的数据是用强度描述标记的,因此需要进行数据清洗和预处理,这些描述需要转换为气味强度。此外,在合并数据之前,移除了不代表有效SMILES字符串的数据点。有关此过程的详细信息,请参见计算细节部分。总数据集包含2393种分子。每个类别的气味强度分布以及代表性示例分子在图3a中展示。图中的每个块对应50个数据实例。确切的数量在表S1的补充信息(SI)中提供。橙色块代表Good Scents的数据,绿色块表示PubChem的数据。数据的组合应该平衡不同的类别,以便学习,因为Good Scents主要包含中等和高强度的气味分子,而PubChem主要包含低强度或无味的成分。数据集显示出较高的注释者一致性。我们计算了两个公认的校正后的指标:(1)Good Scents和PubChem数据集交集上的Cohen's kappa值为0.83;(2)整个数据集上的Krippendorff's alpha值为0.81(范围0到1,其中1表示完全一致)。后者指标考虑了整个数据集的标签概率,而不仅仅是交集。这两个指标的范围都是0到1,其中1表示完全一致。因此,我们没有面临重大的主观不一致性,我们的关键词映射方法足够可靠。尽管通过结合来源来改善平衡,中等强度仍然是大多数类别,低强度占总数的12%,这反映了注释强度标签的可用性,而不是策划偏见。预计在气味强度上实现更高的平衡将提高训练模型的性能稳健性。由于其他描述符库(如Leffingwell或Thiboud的库)仅提供气味特征和性能说明,但几乎没有气味强度描述,因此在没有可验证假设的情况下,无法在不同有序类别之间进行协调。同样,心理物理强度数据集也被排除在外,因为它们的评级是浓度、溶剂和测试协议的显式函数;在没有共享浓度尺度或协变量模型的情况下混合它们会混淆结构-感知关系,并在有序标签中引入系统偏差。这种保守的选择定义了一个单一标签、浓度无关的有序任务,该任务基于分子结构,而将浓度和溶剂明确的研究推迟到未来的工作中,在那里可以基于已建立的气味强度心理物理定律对稀释和溶剂进行建模。

数据集表示。(a) 每种气味强度的数据量。每个方块对应大约50个数据实例。对于每个气味强度类别,展示了一个示例分子。带有数值的表格显示在表S1的补充信息(SI)中。(b) 我们策划的数据集的RDKit描述符的2D PCA,按其气味强度着色,以及由52,457种分子组成的有气味背景数据集(灰色),这些分子来自GDB-17数据库的降采样,根据Mayhew等人的最佳模型,预测的气味概率为50%或更高。为了更好的可视性,图S2a的补充信息(SI)中提供了包含Glucagon的PCA。在大多数气味文献数据中,一个最关键的问题是香水化学物质的纯度。即使在非常低的浓度下,杂质也会改变气味。Mayhew等人最近的一项使用气相色谱-嗅觉测定的研究报告称,所研究的22%的所谓有气味的分子实际上是无味的。我们比较了该研究中GC分析的化合物样本与我们的数据集中的70个交叉分子。标签-标签对的数量统计显示在表S1的补充信息(SI)中。根据Mayhew等人的研究,Good Scents/PubChem标记为有气味的57个分子中只有2个是无味的,这相当于3.5%的误分类率。为了表征策划的分子如何填充有气味的化学空间,我们对RDKit描述符进行了主成分分析(PCA),其投影显示在图3b中。在这种情况下,RDKit描述符包括217个分子的结构、物理化学和拓扑参数,如分子量、辛醇-水分配系数(log P)或杂原子的数量。PCA将这个相关的描述符空间映射到按解释方差排序的正交主成分上,使得在减少的轴上能够进行准确的可视化检查。为了提供背景,通过降采样GDB-17数据库并保留根据Mayhew等人的最佳模型预测的气味概率大于50%的分子,构建了一个有气味的背景,包含52,457种化合物。当(i)排除有气味的背景,(ii)用非线性降维方法UMAP(均匀流形近似和投影)代替PCA,以及(iii)用圆形指纹(基于Morgan位和计数的)替换RDKit描述符时,可以恢复类似的定性结构。如图3b所示,一些无味和低强度的条目落在了背景空间之外,这与限制嗅觉空间的质量传输约束一致。覆盖范围广泛但不均匀;PubChem和Good Scents衍生的条目集中在特定区域,反映了数据集对香水相关化学类型的刻意强调。PCA和UMAP的表示由数据来源在图S4的补充信息(SI)中显示。另一个显著的模式是,气味强度类别并没有形成明显的簇,而是在描述符空间中大量重叠。这使得不使用标签而仅基于输入特征对数据进行聚类的传统聚类算法无法准确分离分子的气味强度。我们通过评估几种聚类算法来证明这一假设,包括K-means、高斯混合模型、带有噪声的应用程序的基于密度的空间聚类(DBSCAN)、光谱聚类和聚类算法。没有形成与气味强度相对应的组。更多信息可以在补充信息(SI)的第S1.3节中找到,包括评估指标(调整后的rand指数、标准化和调整后的互信息)在表S2中,以及最佳聚类结果在图S7中。为了分析哪些特征对数据分离最重要,分析了主成分的特征重要性。相应的PCA载荷表明,第一个主成分主要受描述分子量、大小和连接性的特征影响。第二个主成分反映了杂原子和极性的贡献。前15个特征对不同主成分的确切分布可以在表S3和S4的补充信息(SI)中找到。这些特征是控制分子从气味源到嗅觉受体传输的主要因素。这一观察结果与Mayhew等人的发现一致,他们表明分子传输的质量对于判断分子是否有气味至关重要。因此,随着气味强度的增加,有气味的分子所占据的化学空间逐渐变窄,这反映了挥发性和极性带来的更严格限制。更多关于这一观点的可视化图表可以在补充信息(SI)中的图S5和S6中找到。

2.2 气味强度预测器和模型验证

由于传统的聚类算法无法根据气味强度对数据进行分组,而前一节中的降维和化学空间分析也支持了这一点,因此使用了监督学习算法来进行气味强度预测。与无监督学习模型(聚类)不同,监督学习模型利用标记数据来指导学习过程。因此,我们的目标是确定这样的模型是否能够学习到分子结构与气味强度之间的关系。为了基于分子表示来预测气味强度,我们测试了两种不同的建模策略:首先,我们采用了“直接方法”。为此,我们定义了四个类别,即无气味、低气味强度、中等气味强度和高气味强度,然后对所有这些类别进行了模型训练。其次,我们将无气味分子与有气味物质分开。这种方法需要两个预测:一个是判断一个分子是否有气味,另一个是分类气味强度(低、中、高)。这两种策略都被用来测试关于结构到感知路径的互补假设:单一任务的序数学习器可能最好地捕捉到所有类别之间的全局权衡,而分层的两步流程可以首先利用不同的分子特征进行质量传输,然后再进行受体相互作用。我们测试了五种回归算法,特别是经典逻辑回归、随机森林、极端梯度提升(XGBoost)、多层感知器(MLP)和一致排名逻辑斯蒂(CORAL),这是一种为序数回归设计的MLP架构。每种算法都使用了七种广泛使用的分子编码策略来表示分子。这种广度使我们能够在根本不同的特征空间中评估预测性能。我们计算了结构、拓扑和物理化学描述符(RDKit描述符),并使用了能够突出微妙结构差异的经典指纹。这些包括圆形子结构Morgan指纹、预定义的子结构MACCS键指纹,以及几种能够捕捉原子连接序列的拓扑指纹,用于更远距离的关系,如RDKit指纹、拓扑扭转指纹和原子对指纹。除了这些经典方法,我们还评估了更新的表示学习技术。ChemBERTa-2是一种在7700万个SMILES字符串上预训练的语言模型,提供了数据驱动的嵌入。此外,基于图的编码使用消息传递神经网络最近在预测气味特征和相似性方面展示了有希望的结果。因此,我们应用了ChemProp,这是一个用于消息传递神经网络的框架。认识到预训练有可能提高下游模型的性能,我们进一步测试了CheMeleon,这是一个在7700万个分子的Mordred描述符上预训练的基础ChemProp模型。所有模型超参数都是使用10次重复的10折交叉验证进行优化的。大量的重复减少了数据中的噪声影响。在补充信息(SI)的第S2节中提供了不同模型所使用的超参数(表S5-S14)。我们选择了宏观平均均方误差(macro MSE)作为每个气味强度类别计算的MSE的平均值。该公式在计算细节部分的方程(1)中提供。宏观MSE对较大的误差进行了更重的惩罚,同时平等地权衡了所有气味强度类别,无论它们包含多少样本。相比之下,常见的微观MSE是在所有类别中全局计算的,主要由多数类别主导。我们在补充信息(SI)的表S17中报告了直接方法的测试集上的进一步指标(微观MSE、F1宏观、F1微观/准确率和接收者操作特征曲线下面积(ROC AUC,衡量模型在所有阈值下区分类别的能力),在表S18中报告了间接方法的指标。间接模型步骤的预测组合如下:(1)第一个模型预测化合物是否有气味,(2)第二个模型仅预测在前一步中被预测为有气味的化合物的气味强度。错误指标是基于最终结果计算的。间接方法步骤的结果在补充信息(SI)的图S7-S11中提供,通常准确性较低。直接方法和间接方法在每个模型和描述符组合的宏观MSE值上的差异在图S11中绘制出来。我们对所有描述符-预测器组合进行了5×2交叉验证配对t检验,以测试性能差异的显著性。t值和p值在表S15中提供。在30个描述符-预测器组合中,直接方法在19个组合中的表现优于间接方法(置信区间95%)。鉴于错误传播的潜力降低、训练和预测期间的计算资源消耗较低,以及模型和描述符之间的整体性能更高,本研究的其余部分将集中在直接方法上。我们对超参数优化中宏观MSE最低的四个直接模型进行了额外的5×2交叉验证配对t检验。结果在补充信息(SI)的表S16中显示。这些模型之间没有观察到显著差异(置信区间95%)。由于RDKit描述符的可解释性更好,我们将在研究的其余部分专注于这些模型。RDKit描述符MLP、随机森林和XGB模型被组合成一个集成模型,预测结果作为个别预测的平均值。这个直接集成模型的标准化混淆矩阵显示在图4b中。值得注意的是,中等气味强度类别的准确率最高,这在训练集和测试集中都最为普遍。相比之下,出现频率最低的低气味强度类别的表现最差。总体而言,大多数误分类发生在相邻的气味强度类别之间。我们的集成模型在各自的类别中正确分类了72%的测试实例。MSE、F1、准确率和ROC AUC(包括类别特定分数)在补充信息(SI)的表S19中报告。

直接预测方法的模型性能。(a) 测试集中所有分子描述符(底部)和预测器(左侧)组合的气味强度类别的宏观平均均方误差(MSE)。MLP是多层感知器,FP是指纹。(b) 直接集成模型在测试集上的混淆矩阵,按测试样本数量标准化,平均来自10次随机种子训练运行。(c) 直接集成模型对Keller等人20年的新分子的预测的面积标准化小提琴图,与它们的实验评级气味强度(从0到100;每个分子13-108个评级)在10^-3稀释度下进行比较。(d) 直接集成模型最具影响力的特征组的全球SHAP(Shapley Additive exPlanations)特征重要性。RDKit描述符特征是根据它们的特征值相关性(阈值:0.75,最大化轮廓分数(SI中的图S14)使用聚类方法分组的。每个组内的绝对SHAP值被求和。最后,我们在另一个包含实验气味强度评级的文献衍生测试集上评估了模型性能。20这些分子与上面使用的数据集完全不同,通过基于位的Morgan指纹的Tanimoto相似性没有评估到接近的结构相似性。图4c使用小提琴图显示了结果,显示了评级强度的平均值及其在强度评级中的分布(白线和黑框),以及10^-3稀释度下的预测分布(形状、颜色)。如图所示,预测的气味强度与评级的气味强度(范围从0到100)有很好的相关性。尽管个别评级之间存在相当大的变异性,我们的模型提供了对感知气味强度的合理近似。当结合从10^-3到10^-7的稀释度时,这一趋势得到了进一步确认,浓度差异高达10^4个数量级。即使没有明确建模气味浓度,直接集成模型的气味强度预测也出人意料地好,如SI中的图S12a所示。然而,我们的模型仅限于较低浓度。集成模型在10^-1稀释度下的性能下降(图S12b)。

2.3 气味强度的物理化学决定因素

虽然机器学习模型的性能是一个可以通过MSE或其他指标来评估的中心方面,但模型的可解释性同样重要。为了提供对驱动模型决策的因素的洞察,我们使用了SHAP(Shapley Additive exPlanations),它根据Shapley值从合作博弈论为模型的预测分配每个特征的贡献值。这种方法提供了直接集成模型行为的全局和局部可解释性。为了评估全局特征重要性,我们计算了所有特征的绝对SHAP值,并根据它们的特征值相关性(阈值:0.75,由于最高的轮廓分数(SI中的图S14)通过聚类方法将它们分组。最具影响力的特征组的基于SHAP的特征重要性显示在图4d中,每个特征对其相应组的贡献在SI中的图S15-S19中显示。与描述的PCA的前两个主成分的载荷(图3b)一致,与分子极性相关的特征,如氢受体或供体的数量和杂原子的数量,以及描述分子重量和形状的特征,如分子重量或Chi描述符,在直接集成模型的预测中显示出最高的重要性。此外,与氮相关的极性、醇基团的存在和Morgan指纹密度(衡量非住宅子组的数量)也对模型预测做出了实质性贡献。值得注意的是,其余特征组的累积影响明显更高,反映了模型决策过程的复杂性。此外,每种气味强度的特征重要性在SI中的图S20中显示。没有观察到特定属性对更高或更低气味强度更相关的明确趋势。SI中的图S21展示了代表每个气味强度类别的四个分子的局部特征组贡献的代表性示例。这些示例与全球发现的结果一致,表明极性、分子重量和形状显著影响气味强度。

3. 结论

在这项工作中,我们评估了机器学习预测气味强度的潜力。我们展示了可以使用来自两个不同来源的超过2300种气味剂的新的整理和合并的数据集直接从分子结构预测气味强度。化学气味空间的二维简化表示显示,当使用分子描述符或圆形指纹作为表示时,气味强度类别有显著的重叠,并不形成特定的簇,因此使得无监督学习方法变得困难。分析了区分气味强度类别的关键变异驱动因素,如与质量传输相关的特征,例如分子重量、大小、形状和极性,对于更高气味强度来说更具限制性。对最先进的分子编码和预测算法进行了全面的基准测试,确定了多个表现最佳的模型,它们之间没有显著的性能差异。我们测试了两种不同的学习策略:首先,我们研究了直接预测无气味、低、中等和高气味强度类别的方法。其次,我们首先分离了无气味分子和有气味物质,然后在第二步中根据它们的气味强度对气味剂进行分类。虽然两种模型显示出可比的结果,但第一种直接方法更稳定,通常更准确,在30个描述符-预测器组合中的19个组合中显著更好。最后,我们解释了模型特征属性,这与已知的分子质量传输原理一致。我们提出的模型可以用来预测新分子的气味强度,从而支持理性的香水设计,在这里按气味强度对成分进行加权可能是有益的。在预测气味强度方面,主要的挑战之一仍然是分子的标记,这非常主观,需要许多个体的评估才能获得稳健的结果。然而,个体之间的气味感知存在很大差异。此外,离散分类本身忽略了同一气味强度类别内气味强度的连续变化。为了进一步推进气味强度建模,需要全面的气味强度数据,这些数据应涵盖更广泛的分子和混合物,测量多种浓度,并且含有特征明确的杂质。这样的数据将有助于构建模型,更好地捕捉到已知的单调、S型关系——即气味剂浓度的对数与感知到的气味强度之间的关系,这种关系的斜率因不同的气味剂而异。虽然气味性和气味强度可以通过与结构相关的传输特性来可靠预测,但结合生物学信息(如受体反应)可能会产生更加准确且基于机制的模型。总体而言,这项工作为数据驱动的计算机辅助香水设计迈出了第一步。

4. 计算细节

4.1. 数据集生成与分析

为了整理数据,我们使用Python的BeautifulSoup包构建了一个网络爬虫,从The Good Scents Company网站上提取了所有42234个条目的气味强度、SMILES字符串和CAS编号。由于Good Scents数据库中存在一些错误的SMILES,首先使用CAS Common Chemistry API将CAS编号转换为SMILES。如果转换失败,则使用Good Scents提供的SMILES字符串。如果仍然无法获取,再通过PubChem将CAS编号转换为SMILES。由于只有13种化合物被标注为“非常高”的气味强度,因此将它们重新分类为“高”。具体化合物在表S20的S6部分中有所标注。关于PubChem数据,检索了所有带有气味描述的化合物ID(CIDs)(共2,393个),并通过网络爬虫获取了相应的SMILES和气味描述。所有SMILES字符串都使用RDKit进行了规范化处理。如果PubChem中的描述包含预定义的关键词,气味描述会被转换为气味强度类别。每个类别的关键词在S6部分的补充信息(SI)中提供。为了量化Good Scents和PubChem数据集之间的注释者一致性,使用scikit-learn计算了二次加权Cohen's kappa系数,该系数是基于数据集的交集计算得出的。此外,还使用python库Fast Krippendorff计算了整个数据集的Krippendorff's alpha系数。

只有具有有效规范化SMILES的分子被保留。来自PubChem的重复SMILES条目被删除。共识别出332个包含点的SMILES。SMILES中的点不属于分子的共价结构,而是表示单独的、不相连的片段,例如离子或异构体。包含点的SMILES以及“carob bean absolute”和“galbanum resinoid”这些含义模糊的条目被排除在外。总共收集了2393个数据点,其中1678条目来自Good Scents,715条目来自PubChem。另外,还使用Keller等人的数据通过Pyrfume生成了另一个独立的测试集。为了确保测试集只包含与训练集中的化合物有足够差异的新化合物,移除了与训练集中至少一种化合物的Tanimoto相似度达到80%或更高的分子(基于位的Morgan指纹相似度,半径=3,nBits=2048)。化合物有四种不同的稀释水平。每个化合物由独立的非专业人士小组评分了13到108次,为每种稀释度下的每个化合物提供了评分强度的平均值和标准差。

4.2. 模型训练与验证

为了训练机器学习模型,整个数据集被分为80%的训练集和20%的测试集,这是按照scikit-learn的实现方式进行的。训练集被用于10次随机种子重复的10折交叉验证。每次运行时,训练集又被分为90%的训练集和10%的验证集,以找到最佳超参数。选择大量重复是为了减少基于机会的变异。所有分割都进行了分层处理,以保持每个子集中大致相同的气味强度类别比例。此外,将Tanimoto相似度达到80%或更高的分子(基于位的Morgan指纹相似度,半径=3,nBits=2048)分组到相同的子集中,以避免结构非常相似的化合物在集合之间的泄漏。我们进行了5×2交叉验证的配对t检验。我们改编了来自Python包mlxtend的相应代码。

在每个气味强度类别上计算的宏观MSE被用作评估指标,公式如下:

(1)

其中N是类别的数量(四个),MSEi是第i个类别的MSE。

4.3. 超参数优化

每个模型的超参数通过100次试验使用Optuna和树结构Parzen估计器进行了调整。在每次试验中,都应用了之前描述的交叉验证程序。每个分子编码器和预测器的详细超参数范围和采样策略在S2部分的补充信息(SI)中的表S5-S14中提供。采用了两个不同的目标指标:(1)对于直接方法和间接方法的第二步:验证集内气味强度类别的宏观平均MSE;(2)对于间接方法的第一步(二元分类器:如果一个分子有气味):F1分数,其中目标是少数类。为了解决类别不平衡问题,所有预测器都使用了基于气味强度类别加权的损失函数进行成本敏感学习。在每次交叉验证重复后,一个25百分位的剪枝器会丢弃那些与最佳试验相比偏差超过容忍区间(宏观MSE=0.02,F1分数=0.015)的试验。

4.4. SHAP特征重要性分析

使用训练集作为背景,通过Python的SHAP包计算了测试集的SHAP值,以估计平均和样本特征值。几个RDKit描述符特征值高度相关(相关矩阵在SI的图S14中提供)。因此,我们应用了聚类算法将高度相关的特征分为131组。选择0.75的相关性阈值,因为在这个阈值下轮廓分数(silhouette score)的最大值为0.33。不同阈值的轮廓分数显示在SI的图S14中。尽管存在在SHAP值估计期间考虑特征相关性的方法,但条件或依赖性感知的SHAP的计算成本会随着特征数量的增加而呈指数级增长。考虑到我们的特征数量和组数,目前这不可行。因此,我们通过汇总基于相关性的簇内的SHAP值来报告组聚合的重要性,并在组级别解释效果。

作者贡献

PF:数据整理、机器学习训练和验证、分析、手稿撰写和修订。J. W.:概念化、分析、手稿撰写和修订。

利益冲突

没有需要声明的利益冲突。

数据可用性

本研究使用了来自Good Scents网站和PubChem的公开数据。原始的Good Scents数据集受美国和外国版权法的保护。因此,数据集本身不提供;但是获取数据的代码是可用的。原始的PubChem数据集以及用于抓取原始数据集、创建和清理整理后的数据集、分析化学空间、训练和验证模型、揭示特征重要性以及使用交互式笔记本应用最佳模型进行新预测的代码可以在https://github.com/peter-fichtelmann/odor-strength找到,并上传到了Zenodo,DOI为https://doi.org/10.5281/zenodo.17660448(版本1.0.7)。补充信息(SI):关于整理后的数据集的更多图表和表格、超参数范围、模型性能、模型验证和SHAP特征重要性分析。详见DOI:https://doi.org/10.1039/d6ra01805j。

致谢

作者衷心感谢Leipzig的Bell Flavors & Fragrances GmbH提供的资助。这项工作的计算使用了Leipzig大学计算中心的资源。

生物通微信公众号
微信
新浪微博


生物通 版权所有