在近红外光谱中实现化学透明的变量选择——通过光谱模拟辅助对药物基质中的对乙酰氨基酚进行偏最小二乘（PLS）回归分析

时间：2026年3月30日

来源：Microchemical Journal

编辑推荐：

近红外光谱分析中，比较了VIP、CARS、MW-PLS、MCUVE和随机青蛙（RF）五种变量选择方法在含对乙酰氨基酚、咖啡因和纤维素的三组分药片基质中的性能。采用基线偏移和Savitzky-Golay二阶导数两种预处理，结合GVPT2量子化学模拟验证化学特异性。结果显示CARS和RF在模型稳健性和化学解释性上表现最佳，VIP、MW-PLS和MCUVE更易受预处理影响且化学特异性不足。证实模型验证需同时考虑预测精度和化学可解释性。

Krzysztof B. Bec | Justyna Grabska | Alexandra Warzilek | Christian W. Huck

因斯布鲁克大学分析化学与放射化学研究所，Innrain 80-82，6020 因斯布鲁克，奥地利

摘要

变量选择在近红外（NIR）光谱学中得到了广泛应用，以提高模型性能，但其化学有效性和稳健性却很少被评估。NIR光谱的复杂性对传统解决方法构成了根本性挑战。在这项概念验证研究中，我们评估了五种变量选择方法：投影变量重要性（VIP）、竞争性自适应重加权采样（CARS）、移动窗口PLS（MW-PLS）、蒙特卡洛无信息变量消除（MCUVE）和随机蛙法（RF），使用偏最小二乘回归（PLS-R）对含有对乙酰氨基酚的三组分药物基质进行定量分析。比较了两种光谱预处理方法：一种是最低限度的预处理，作为光谱透明的参考；另一种是Savitzky–Golay二阶导数预处理，虽然能提高性能但会增加噪声。通过使用广义二阶振动扰动理论（GVPT2）进行从头算非谐振动模拟来解释变量选择结果，从而可以直接评估化学特异性。只有CARS和RF方法始终关注分析物特异性区域，并在测试集验证中获得了最高的稳健性；两者的R²VAL = 0.960，RMSEP = 0.71。特别是RF方法选择了强且对环境敏感的极性振动特征（νOH、νNH），且没有过拟合现象；它实现了最低的模型复杂性（2个潜在变量）和与已知分析物光谱的最大一致性。相比之下，VIP、MW-PLS和MCUVE方法对预处理和/或噪声更为敏感，产生的化学特异性选择结果较差。这些结果支持了一个基于化学原理的框架，用于比较定量NIR分析中的变量选择方法，同时也表明仅凭预测准确性不足以验证这些方法的有效性。

引言

近红外（NIR）光谱学能够快速、无损地对复杂基质进行定量分析[1]，[2]，并且对分子结构和样品物理性质都具有敏感性[3]，[4]。它被广泛用于制剂产品、复杂材料（包括药品混合物、食品和其他异质固体）的质量控制和过程监测[5]，[6]，[7]，[8]，[9]。在这种情况下，将模型行为与分析物的光谱特征联系起来有助于理解方法、排除故障，并在不同仪器和批次间进行方法转移[10]，[11]，[12]。监管机构特别强调运行透明模型的重要性[13]，[14]，[15]，[16]，[17]，因为明确区分处理后的分析信息与活性药物成分（API）的分子基础至关重要[18]，[19]，[20]。然而，由于光谱带结构复杂（主要由宽泛、特异性较低的组合跃迁组成，且容易与样品基质相互作用[12]，[21]，[22]，[23]，[24]，NIR模型往往缺乏可解释性。这些特性使得从模型结构中提取机制信息变得困难，从而给方法的透明性、根本原因分析和监管认可带来了挑战。

在多变量建模中，可解释性是一个固有问题，尤其是在对高度复杂的光谱信息应用数据驱动的降维方法时[17]，[25]，[26]。在偏最小二乘回归（PLS-R）的情况下，感兴趣的光谱特征被编码在潜在空间中，X载荷或回归向量在没有进一步分析的情况下无法直接解释[27]。

变量选择通常作为后处理步骤引入，以改善模型性能或降低复杂性，许多已发表的算法基于统计或预测标准优化光谱区间的选择[28]，[29]，[30]，[31]，[32]，[33]。然而，这一步骤本身并不一定能提高可解释性，如果缺乏化学洞察力的指导，还可能引入人为误差或去除具有化学意义的方差。此外，不同的选择算法往往产生截然不同甚至互斥的变量集；它们旨在优化预测方差而非直接表示化学意义。因此，最终分析模型的透明度常常受到影响，尤其是在对光谱进行大量预处理以增强预测能力时，这会牺牲对潜在分子特征的追溯性。尽管对变量选择方法的关注日益增加[34]，[35]，[36]，[37]，但在不适当考虑可解释性的情况下使用这些方法仍存在相当大的争议。

我们通过使用非谐量子化学模拟分析物的NIR光谱作为外部光谱参考，来支持所选变量的化学合理性检验[38]，[39]。这种理论光谱是使用面向光谱学的广义二阶振动扰动理论（GVPT2）[40]，[41]，[42]，[43]计算得出的，提供了对乙酰氨基酚的振动模式解析图。虽然理论NIR光谱不应被视为精确的真实值（主要是因为它忽略了晶体晶格的复杂性[44]），但在NIR光谱学背景下，它作为一个特别有价值的外部机制参考。与FT-IR或拉曼光谱相比，NIR光谱的带更宽，光谱分配通常更直接；但由于宽泛的泛音和组合带，NIR光谱本质上更为复杂[21]。因此，理论模拟在这里尤为重要，即使不能期望与实验固态光谱完全对应。然后可以评估所选变量是否集中在预期的分析物携带区域，或者是否强调宽泛、非特异性或易受噪声影响的区域。

本研究的目的是评估各种变量选择技术对定量NIR光谱学中PLS-R模型的化学可解释性和稳健性的影响。使用含有对乙酰氨基酚、咖啡因和纤维素的混合物作为化学定义明确、实际相关的模型系统，以便明确讨论制剂固体中的分析物和辅料特异性NIR光谱带。系统评估了五种变量选择技术：投影变量重要性（VIP）、竞争性自适应重加权采样（CARS）、移动窗口PLS（MW-PLS）、蒙特卡洛无信息变量消除（MCUVE）和随机蛙法（RF）。该研究旨在验证变量选择结果的可解释性，而不是对变量选择算法进行普遍排名；为了得出最终结论，同时评估了化学可解释性和模型性能。

应用了两种互补的预处理方案来评估不同预处理强度和噪声暴露水平下的方法表现。基线垂直偏移代表了最小化变换的参考条件，它保留了完整的带结构和相对光谱形状，同时仅去除了可能妨碍直接观察X变量和模型结构的微小垂直位移。从这个意义上说，它满足了用于化学解释的实际相关原始参考的作用。Savitzky–Golay二阶导数（SG-2）代表了一种“强烈”的预处理方式，它显著改变了光谱并提供了接近最优的预测性能。SG-2是NIR光谱学中常用的预处理方法，因为它提高了光谱分辨率并通常增强了模型的预测能力。通过锐化单个带特征，它有助于更好地分离重叠信号，但也放大了光谱噪声和与基质相关的方差。在本研究中，SG-2预处理特别有趣，因为它从化学可解释性的角度来看引入了两种相反的效果：一方面，二阶导数预处理提高了光谱分辨率，有助于更好地显示重叠的光谱特征；另一方面，它放大了噪声并改变了光谱的视觉形式，从而增加了变量选择方法倾向于选择数学上显著但化学意义不强的特征的风险。这种效应在高波数区域（主要由相对简单的X-H泛音组成）和低波数区域（由众多强烈重叠的组合带组成）之间可能有所不同。在每种情况下，都比较了两种预处理边界下的变量选择行为，并将其与基于GVPT2的振动分配结果进行了对比。

所提出的方法能够从化学角度解释方法行为，并揭示哪些变量选择框架可以可靠地识别与对乙酰氨基酚特定振动模式一致的分析物携带光谱特征。分析表明，要评估借助变量选择开发的模型的质量，必须同时考虑化学可解释性和外部稳健性。来自详细NIR光谱带分配的机制洞察力可以减少与化学计量建模中变量选择相关的透明度问题，并有助于识别可解释、可靠的模型，这对药物分析尤为重要。

材料与方法

使用纯度超过98%的对乙酰氨基酚（Thermo Fisher Scientific）和BioXtra级别的咖啡因（Sigma-Aldrich），以及高纯度纤维素粉末（RPH）作为基质。这种组成与欧盟市场上标准商业止痛药片剂的配方相匹配，例如在德国销售的那些。使用Mettler Toledo AX205 DeltaRange分析天平称量各成分，并在研钵中混合三分钟。混合物储存在带有塞子的10 mL小瓶（Dionex）中。

对乙酰氨基酚混合物及其纯组分的NIR光谱

图1展示了使用Büchi NIRFlex N-500 FT-NIR光谱仪测量的示例混合物（60%对乙酰氨基酚，7%咖啡因，33%纤维素）的NIR光谱。对纯组分光谱的初步检查显示了一系列可归因于各个成分的明确吸收带。活性成分（对乙酰氨基酚）的NIR光谱的详细解释将在后续部分给出。不过，这里只需简要说明一些通用特征。

结论与总结

本研究表明，NIR校准中变量选择的合理解释不能仅依赖预测指标。通过系统比较五种方法在最小化和“强烈”（二阶导数）预处理下的表现，我们发现预测性能、模型透明度和分析物特异性特征选择并不是简单耦合的。二阶导数预处理（SG-2）常用于提高光谱分辨率。然而，我们的结果指出……

CRediT作者贡献声明

Krzysztof B. Bec：撰写——原始草稿，可视化，验证，监督，软件，项目管理，方法论，调查，形式分析，数据管理，概念化。Justyna Grabska：撰写——审稿与编辑，可视化，项目管理，资金获取，形式分析，数据管理。Alexandra Warzilek：形式分析，数据管理。Christian W. Huck：撰写——审稿与编辑，监督，资源提供。