1. 引言
近年来,食品科学与计算机科学领域的交叉合作研究显著增加。机器学习等计算方法的进步,加深了我们对功能性食品中生物活性分子代谢相关生物过程及其对人类健康影响的理解。建模与模拟在该领域的应用逐渐增多。特别是整合了机器学习模型的代谢组学技术,使研究人员能够探索食品成分的复杂性。已有不少研究关注并在食品科学中应用数据分析,但主要涉及结构动力学、图像识别、代谢组学信号解析、微生物风险以及微生物群-食物相互作用等领域。机器学习模型的应用在药物发现、基因组学和个性化医学等多个领域的研究转型中发挥了关键作用,展现了广阔的可能性。然而,应用预测模型来模拟食品科学中的干预试验的研究仍然稀缺。这类模型对该领域具有重要意义,因为(纵向)干预试验对于营养学研究仍然至关重要。预测模型可以在不需要参与者实际接触产品的情况下,几乎即时地提供潜在干预结果的估计,从而推动该领域的研究与开发,使预测模型提供初步结果,而试验更多地用于模型验证。
本研究阐述了一种开发机器学习模型以评估功能性食品对人类生理影响的方法论。该方法首次在一位作者的论文中部分概述。具体而言,模型预测了在摄入马基-柑橘饮料干预后,血液和血浆中存在的黄烷酮及其代谢物、花青素代谢物的浓度。预测是针对固定时间段(60天)后相对于基线代谢物谱的变化进行的。该方法论包括基于机器学习算法预测干预后生物活性化合物浓度的能力进行比较。
模型开发使用的数据集来自一项先前发表的纵向试验,该试验研究了如三氯蔗糖和甜菊糖等被宣称为软饮料更健康替代品的甜味剂的影响。该试验收集了干预前后血浆和尿液中代谢物浓度的数据。研究使用了富含黄烷酮和其他具有潜在健康益处的酚类化合物(包括因其抗氧化、抗炎和其他生物活性特性而受到广泛关注的花青素)的马基-柑橘饮料。此外,研究还考虑了性别差异,这一方面的重要性正日益受到关注。
总而言之,本研究专注于实现机器学习模型,以预测摄入马基-柑橘饮料如何影响参与者尿液和血浆中的代谢物含量,同时考虑甜味剂和性别的影响。这种方法有助于研究高糖软饮料的更健康替代品,并利用饮料中多酚的潜在优势。通过利用干预试验的数据并采用先进的建模技术,目标是帮助开发可靠有效的预测工具,为个性化营养的发展做出贡献。
2. 材料与方法
2.1. 实证数据
机器学习模型是使用先前发表的干预试验的原始数据开发的。该试验在138名超重个体中进行,他们每日摄入新鲜的马基-柑橘饮料,持续60天。在摄入期开始(第0天)和结束(第60天)时收集尿液和血浆样本。使用高效液相色谱-电喷雾电离三重四极杆质谱联用技术对尿液和血浆样本中存在的酚类化合物进行鉴定和定量。所得化合物分为两类:黄烷酮及其代谢物,以及花青素代谢物。每种化合物的浓度通过校准曲线推算,结果以纳克/毫升表示。
2.2. 通过迭代插补进行数据填补
干预研究的原始数据存在多处缺失值。这是一个在训练机器学习算法时常见的问题,算法通常无法处理缺失值。因此,必须排除单个值缺失的完整观察结果。填补缺失值的任务称为插补,本研究通过使用scikit-learn Python包中实现的IterativeImputer工具来完成,该工具使用预测性回归算法,将特征的缺失值建模为所考虑的其他特征的函数。该技术遍历每个待插补特征,直到完成预设的迭代次数或满足提前停止标准。此方法灵感来源于MICE R包,但它采用单一而非多重方法。所使用的估计器是梯度提升算法XGBoost的实现。插补过程针对每个考虑的目标变量及其相应的预测变量进行。最大迭代次数设定为15,当当前迭代的相对变化低于10–6阈值时提前停止。
2.3. 膳食干预对参与者影响的模型构建
2.3.1. 总体方法
本研究的目标是预测干预试验对参与者尿液和血浆成分的影响。因此,将机器学习模型定义为回归模型,输出变量为每种生物活性化合物在干预结束时的浓度。预测变量是干预前代谢物浓度的向量,加上参与者的性别和饮料中使用的甜味剂,如所示。
所关注的生物活性化合物因其生物标志物特性和潜在健康益处而被选中。它们包括VA、DHPAA、N、E和HE及其衍生物。模型还考虑了CA、TFA-S和TFA-G,这些化合物被确定其生物利用度因消费者性别而异。此外,研究发现数据集中已有的E-S、HE-G、N-G和DHPAA也因性别不同而具有差异生物利用度。
2.3.2. 建模中引入的生物学约束
初步近似中,每种代谢物都被用作机器学习模型的预测因子。然而,由此产生的模型容易过拟合,表现不佳,并且由于模型复杂性高,需要过长的训练时间。因此,通过仅使用与待估计的目标化合物在生物化学上相关的化合物作为预测因子,来降低模型复杂性。该过程从考虑两个样本(如果可用)的生物化学家族开始,如果结果不理想,则仅使用来自同一样本的化合物作为预测因子。在模型中将特征与生物学合理性对齐,提高了预测准确性和可解释性。此外,当消除冗余或不相关的预测因子时,模型复杂性降低,过拟合风险也随之降低。
2.3.3. 考虑的机器学习算法
在初步计算中,测试了不同的预测方法,如Lasso、Ridge和弹性网络回归,以及不同的机器学习算法。经过这些初步测试,本研究比较了三种先进的机器学习算法:
(i) 随机森林 (RF): 该方法属于集成学习家族,结合多个不相关的决策树,旨在提高模型的整体性能。森林中的每个决策树都在训练数据的不同子集上进行训练,模型的最终预测通过对各个树的预测进行聚合得出。这种方法有助于减少过拟合并提高模型的泛化能力。
(ii) 极限梯度提升 (XGB): 该方法是梯度提升机器学习算法的一种实现,结合多个弱精度模型来增强模型的整体性能。每个弱模型被顺序训练,以估计前一个弱模型的残差误差。
(iii) 轻量梯度提升机 (LGBM): 这是梯度提升算法的另一种实现,设计上具有更高的效率和可扩展性。基于叶向策略,LGBM构建决策树,垂直生长树,优先处理损失减少最多的叶子,在保持高预测能力的同时减少训练时间。
2.3.4. 模型训练与超参数调优
原始数据被随机划分,留出20%的观察值作为测试集。这些观察值被排除在训练和超参数调优之外。这个方法论决定是为了确保用这个集合进行的评估不受先前阶段的影响。剩余数据进一步划分为验证集(20%)和训练集(80%)。集合中对应的性别分布为:训练集46名男性和36名女性,验证集9名男性和13名女性,测试集19名男性和9名女性。最后,为了提高性能并便于进一步比较,使用scikit-learn的MinMaxScaler将数据缩放到0.1的范围。
超参数控制模型的整体行为,例如RF中的树的数量或树的深度。超参数调优通过使用Python框架Optuna进行贝叶斯优化来完成。贝叶斯优化是一种通过概率模型内估计超参数性能来确定其最优值的方法,通过观察到的结果迭代改进此模型。与网格搜索等其他方法不同,贝叶斯优化智能地探索超参数空间,平衡探索与利用,以较少的评估次数找到最优的超参数集。这种方法已被证明能显著降低优化模型所需的计算成本和时间。Optuna需要定义超参数的可行范围,这些范围由初步模拟确定。三种机器学习算法(RF、XGB和LGBM)针对每种目标化合物独立进行了调优和训练,总共产生了135个模型。
2.3.5. 模型性能评估
模型性能评估采用平均绝对误差(MAE)和均方根误差(RMSE)指标。MAE因其简单性以及对异常值和尺度依赖的鲁棒性而被使用,定义为机器学习算法提供的残差(即实际值yi与预测值ŷi之间的绝对差)的平均值,如公式1所示,其中n是观察次数。RMSE表示预测残差的标准差(公式2)。在此上下文中,MAE和RMSE的单位是纳克/毫升,代表预测流体样本中化合物浓度的误差。此外,使用决定系数(R2)来评估模型解释因变量方差的比例(公式3)。
2.3.6. 模拟假设队列
进行了理论队列模拟,以说明所开发的模型如何协助设计膳食干预。该队列是通过基于对应于消费者性别和饮料中添加甜味剂的每种组合的子集的协方差和均值,对多元正态分布进行抽样创建的。从六个分布中,使用训练好的模型来预测饮用马基-柑橘饮料对不同消费者的影响。为了提供干预影响的一般性概述,将预测变量根据生物活性化合物家族进行分组(血浆中的Total VA和Total DHPAA,尿液中的Total HE和Total N)。尽管这些场景获得的结果应谨慎对待,但它说明了模型如何在实际情况中使用。
2.4. 计算方法
计算程序使用Python 3.11.7版本进行。机器学习算法的实现使用了用于RF和XGB的xgboostv.2.0.3包和用于LGBM的lightgbmv.4.3.0包。用于调整模型超参数的贝叶斯优化过程使用了Optunav.3.6.1包。
3. 结果与讨论
3.1. 评估预测每种代谢物浓度的最优算法
使用每种提出的算法构建了机器学习模型。2, (B 和 E) MAE, 以及 (C 和 F) RMSE 结果总结。">说明了每种方法的MAE、RMSE和R2的分布。请注意,由于模型预测的是一个化合物家族,因此图中显示了所有化合物上的分布。总体而言,XGB是结果最一致的方法,通常显示出更高的R2值,血浆和尿液的中位数分别为0.895和0.906,下四分位数分别为0.697和0.777,上四分位数分别为0.961和0.959。相比之下,RF和LGBM的R2值要低得多,血浆的下四分位数分别为0.461和0.602,尿液为0.460/0.602,上四分位数分别为0.887和0.868(血浆和尿液相同)。LGBM与RF的比较显示,前者通常更稳定,离散度更低。
正如预期,MAE和RMSE遵循与R2相似的分布。XGB具有最强的预测能力,血浆MAE中位数为0.0124 ng/mL,下四分位数为0.00564 ng/mL,上四分位数为0.0256 ng/mL;尿液MAE中位数为0.0737 ng/mL,下四分位数为0.00524 ng/mL,上四分位数为0.0160 ng/mL。XGB获得的RMSE值显示,血浆中位数为0.035 ng/mL,尿液中位数为0.015 ng/mL,下四分位数分别为0.00890 ng/mL(血浆)和0.0231 ng/mL(尿液),上四分位数分别为0.0565 ng/mL(血浆)和0.0362 ng/mL(尿液)。RF和LGBM的MAE和RMSE值再次更加分散,中位数更高(尿液分别为0.0284和0.0291 ng/mL,血浆分别为0.0623和0.0554 ng/mL),每个样本的下四分位数和上四分位数范围更广。
尽管XGB显示出总体上优于其他两种机器学习算法的预测能力,但本案例研究需要预测47种单独化合物的浓度。因此,没有使用单一算法,而是基于MAE和R2为每种化合物选择预测效果最佳的算法。这在我们的案例中最为合理,因为每种算法的适用性取决于每个系统潜在的(非线性)关系。这些关系可能因每种化合物而异,因此对所有化合物强加相同的机器学习算法似乎不合理。
由XGB最佳预测的生物活性化合物的分布没有表现出任何可区分的模式。对于VA及其衍生物子集,XGB的预测始终优于其余算法。CA家族仅包含两种代谢物,因此在本分析中不构成一个完整的亚组。其余亚组至少有两个元素不是由XGB最佳预测的。鉴于缺乏任何可辨别的模式,需要进一步分析以确定预测不同亚组的最有效策略。这反过来应能提高对整个研究的代谢系统进行整体预测的性能。
对单个生物活性化合物预测应用最佳拟合机器学习算法,使得每种化合物的R2均高于0.7,62%的化合物达到0.9以上。然而,血浆中的DHPAA-SS和尿液中的DHPAA-GG产生了较低的值(分别为0.59和0.66),因此它们无法通过此处开发的机器学习模型进行“预测”。这可能是由于这些化合物的性质所致,它们的消化与微生物发酵有关,因此受模型未考虑的因素(如肠道微生物群)支配,这两个化合物被排除在进一步分析之外。对两组化合物与样本来源之间关联的更深入检查显示,两组均在尿液样本中得到最准确的预测,黄烷酮及其代谢物的结果略优。
3.2. 利用预测模型预测膳食干预结果
此处开发的预测模型在个性化营养中可能非常有用,因为它们可以即时预测不同干预对参与者的结果。作为此用途的例证,模拟了一个假设队列。每日饮用马基-柑橘饮料持续两个月对生物活性化合物生物利用度的预测影响如图所示。在所有模拟案例中,饮用饮料导致生物活性化合物的总体生物利用度增加,但饮用含三氯蔗糖饮料的男性除外,其预测的干预后生物利用度平均低于干预前。此外,结果表明存在性别差异:女性尿液中的Total N和Total HE浓度通常更高。这些发现与先前使用相同数据集、采用经典统计方法进行的研究得出的结论一致。这强调在群体水平上,机器学习模型的预测通常应与经典统计分析的结果一致。
机器学习模型的附加价值在于它们能够基于每个参与者的属性预测个体化反应,这是使用通常仅限于一般趋势的经典方法无法实现的。作为一个示例,展示了对生物利用度增加最极端的参与者的预测反应。例如,当观察志愿者19、60、69、66和9的Total N预测时,可以描述出低至负增长。值得注意的是,这些受试者除66号外均为男性。因此,可以推断,如果营养医师设定了增加N及其相关化合物水平的目标,则应避免饮用马基-柑橘饮料。性别划分在Total HE值预测中非常重要,前五名最高增幅均为女性,而前五名最低增幅为四名男性和一名女性。Total DHPAA的变化差异不太明显,而在Total VA中,差异明显,达到了像11、51和66号志愿者这样Total VA生物利用度明显下降的情况。
这些模拟说明了这些机器学习模型在实际场景中的潜力。为一系列干预(例如不同的饮料配方)开发此类模型是可以想象的。随后,考虑每个潜在消费者的起始条件,可以确定更适合每个个体消费者的干预措施。这将代表该领域的实质性进步,在该领域,膳食干预的定量结果只能在事后确定。然而,所提出的计算工具的进一步扩展仍有待未来的实验论文。
本研究的主要目的是评估多种机器学习算法在模拟对马基-柑橘饮料干预试验的代谢反应方面的可靠性。这涉及预测饮用饮料对几种黄酮类和/或其代谢物生物利用度的影响,同时考虑消费者的性别和添加的甜味剂。随后,为每种生物活性化合物浓度构建了单独的模型,以便能够完成完整的模拟。假设是,经过仔细调整并包含每种化合物的适当目标和预测变量的选定算法,将能够准确模拟新受试者干预试验的结果,前提是模型已用实证研究的数据进行训练。开发精确可靠的计算方法来模拟这些试验,为研究新型食品消费的时序效应提供了一种更具成本和时间效益的程序。此外,它使得未来能够深入了解个性化营养,并促进理解人体代谢(多)酚的机制,以生物利用度衡量。
存在多种模拟复杂生物系统的方法,这些系统具有众多的输入和输出变量。在模拟开发的初始阶段,多输出回归被研究为一种潜在的优化策略。该范式包含大量预测变量,每个预测变量与多个目标变量相关联,旨在捕获变量之间的相关性。从原则上讲,相关性信息将有助于更精确的预测。然而,这种方法需要更高的计算成本和更长的训练时间,并且有可能通过在生物上不合理或无关的变量之间建立数学上一致的关系而产生不切实际的结果。最终,作为多输出回归的替代方案,所选择的方法是部署与众多独立单输出模型一致的流程,每个模型的个体预测取决于干预后待估计的目标生物活性相关的化合物。将所有模型的结果结合起来,可以形成对膳食干预代谢反应的一般预测。所提出的方法在预测质量和准确性方面已被证明是有效的。然而,这种方法确实在模拟系统的保真度方面做出了一些妥协,因为它没有准确考虑目标变量之间的潜在相互作用。额外的研究可能会产生预测这种情况的最佳机制。
基于机器学习的计算模型的一个显著特征与模型的训练、验证和测试有关,这主要基于类似的实验数据。因此,机器学习算法所做预测的准确性取决于其所依据的实验数据的质量。初步考虑,这在经常进行干预性营养试验的食品科学领域,可能显得相对不重要。这可能意味着大量包含上述试验结果的数据集将是可访问且适合训练、测试和验证计算模型的。相反,获得既有用又可访问的数据具有挑战性,因为大多数此类数据集无法通过开放获取获得,和/或使用了非同源的实验程序。此外,观察到实验设计存在偏差,某些人群代表性不足。显然,这表明在尝试将结果外推到更广泛、更多样化的人群时存在重大限制。因此,很难在现实场景中测试所提出的模拟。本工作中开发的模型适用于不同人群或膳食干预的适用性是有限的。确实,其他类似研究中相关的(可能是不同的)生物活性化合物的反应可能表现出与此处考虑的化合物不同的行为和/或动力学。然而,就设计使用相同类型饮料和人群的膳食干预而言,预计所提出的模型将被证明是强大的工具。
在无法公开获取数据库的情况下,每个计算研究都有责任包含对每种食品产品足够数量的重复试验。有方法可以克服这些挑战。解决此问题的一种可能方法是整合关于人类代谢在不同条件下对不同生物活性化合物消费反应的现有知识。这将减少对特定实验数据的依赖,从而提高模拟的可靠性和灵活性。另一种方法涉及对营养干预代谢反应数据库的重建、促进和整理。这将促进更多模型在众多研究小组中的