塔雷克·奈耶夫·阿尔拉马德内(Tareq Nayef AlRamadneh)、阿布韦德赫尔·马哈茂德·沙克(Abwdhr Mahmoud Shakr)、马诺吉·I·帕特尔(Manoj I. Patel)、纳尔玛达·T(Narmadha T)、阿南德·K·舒克拉(Anand Kr Shukla)、马诺兰詹詹·帕尔希(Manoranjan Parhi)、维卡斯·瓦松(Vikas Wasson)、拉曼迪普·考尔(Ramandeep Kaur)、费雷杜恩·兰杰巴尔(Fereydoon Ranjbar)
约旦安曼Al-Ahliyya大学Hourani应用科学研究中心联合医学科学学院
**摘要**
准确预测二氧化碳-有机混合物(CDOB)的密度对于设计、优化以及确保涉及碳利用、高压分离和能源系统的过程的安全运行至关重要。尽管其重要性显而易见,但由于强烈的非理想相互作用、复杂的相行为以及传统状态方程的有限普适性,可靠的密度估算仍然具有挑战性。本研究提出了一个基于物理原理的数据驱动预测框架,该框架利用了一个包含15,428个密度测量值的综合性实验数据集,这些测量值涵盖了广泛的温度、压力、组成和分子性质范围,涉及39种有机化合物。在统一的建模架构中,系统地开发了三种智能计算方法:高斯过程方法(GPM)、决策树(DT)和自适应神经模糊推理系统(ANFIS),将热力学状态变量与分子描述符结合起来。模型开发过程中采用了严格的超参数优化,从而实现了可控的复杂性、增强的泛化能力并减轻了过拟合现象。所有模型均展现出强大的预测能力,验证的平均绝对百分比偏差(MAPD)值低于5%。其中,GPM的表现最为出色,其验证MAPD为0.94%,相对二次平均误差(RQME)为3.33%,且误差分布非常紧凑。通过交叉验证和适用性领域评估等稳健性分析,确认了模型的稳定性和可靠性。趋势分析验证了热力学的一致性;此外,该框架成功捕捉到了在高浓度二氧化碳条件下的非线性密度转变现象。基于Shapley加性解释(SHAP)的可解释性分析进一步证明了模型行为与物理原理之间的一致性。所提出的方法为先进工程应用中的CDOB密度预测提供了精确、稳健且具有物理合理性的工具。
**1. 引言**
人为引起的气候变化,由于大气中吸热气体浓度的不断增加,被广泛认为是现代时代最紧迫的生存威胁之一。这种全球性的变化表现为严重的生态和社会动荡,包括极端天气事件、海洋酸化、生物多样性丧失以及对食物和水资源安全的影响[1]。由于化石燃料消耗和工业活动的巨大排放,二氧化碳成为主要的温室气体[2,3]。因此,国际气候目标要求采取超出单纯减排范围的策略,促进了综合碳捕获、利用和储存(CCUS)框架的发展,在这些框架中,二氧化碳被积极地作为一种宝贵的资源加以利用,同时减少大气排放[4,5,6,7]。
CCUS的应用领域已经受到了密集的研究,特别是关注超临界二氧化碳及其与有机物质的混合物[8,9]。超临界二氧化碳具有独特的溶剂特性,使其在天然产物提取、聚合物加工和颗粒形成方面非常有效[10,11]。同时,二氧化碳还作为高效动力循环和制冷系统的工作流体,并在提高石油采收率(EOR)中起着关键作用——通过向混合物中注入二氧化碳可以提高产量并实现碳封存[12,13,14,15,16,17]。这些多样的应用突显了二氧化碳的技术多功能性[6,18,19]。然而,这种多功能性从根本上取决于二氧化碳与有机化合物混合时其精确的热力学行为,从而形成二氧化碳-有机混合物(CDOBs)。
任何使用CDOBs的过程的设计、优化和安全运行都依赖于对其热物理性质的准确了解[20,21]。密度是一个具有极高实际重要性的核心参数:它直接决定了相行为(互溶性、溶解度),决定了传输特性,并对设备选型和流体动力学模拟至关重要[22,23]。在EOR中,准确的密度预测对于实现可混合置换至关重要;在超临界提取中,它控制着溶剂的容量;在动力循环中,它影响着涡轮机的设计[24]。缺乏可靠的预测工具造成了瓶颈,迫使人们依赖有限的实验数据或过度设计的工艺。
几十年来,密度预测一直依赖于状态方程(EOS)。由于简单性,立方态方程(Peng-Robinson、Soave-Redlich-Kwong)较为常见[25,26],但它们在极化分子或接近临界区域的分子附近往往表现不佳,并且需要二元相互作用参数,这限制了其在新系统中的应用[27]。基于统计关联流体理论(SAFT)的更先进框架更好地考虑了分子形状和氢键作用,但它们需要精确的、通常难以获得的纯组分和交叉相互作用参数[28,29]。所有这些方法的一个关键弱点是它们的普适性有限:在狭窄数据集上校准的模型在不同化学类别或外推条件下的表现不佳[29]。最近的实验和计算研究进一步阐明了控制二氧化碳-有机相互作用的复杂物理机制,包括多相行为和孔隙尺度下的置换动态[30,31,32]。这些发现表明,准确的密度预测需要能够捕捉这一多方面现实的方法,而传统的EOS模型对此过于简化了。
要捕捉上述复杂的非线性关系,需要能够直接从数据中学习的建模方法,而机器学习(ML)正好提供了这种能力。在这一背景下,ML迅速成为预测复杂流体性质的有效工具[33]。ML算法可以直接从数据中识别复杂模式,无需依赖显式的理论方程。它们在相关领域的成功应用已有充分记录:例如,先进算法已预测了天然气的粘度[34]、二氧化碳驱替的最小互溶性压力[35]、盐水-二氧化碳系统的界面张力[36]以及多孔介质的渗透性[37]。最近的研究集中于使用可解释ML方法研究二氧化碳在离子液体中的溶解度[38,39],以及在水性和有机溶剂系统中的溶解度[40]。这些模型始终优于传统的相关性方法,为开发稳健的、数据驱动的CDOB密度预测工具提供了有希望的途径。
尽管关于基于二氧化碳系统的研究不断增多,但仍存在一个关键空白:目前仍缺乏一个适用于广泛热力学和组成范围的通用、高精度的CDOB密度预测工具。现有的热力学模型受到参数可用性、系统特定性和有限转移性的限制。尽管ML在相关热物理应用中显示出潜力,但一个系统化的、物理上一致且经过统计验证的专门用于CDOB密度预测的ML框架尚未完全建立。本研究通过开发一个基于庞大且异构数据库的稳健数据驱动建模策略来解决这一缺陷,该数据库包含15,428个测量值,涵盖了温度、压力、组成和分子描述符的广泛变化。在统一的验证架构中构建并评估了三种预测范式,重点考虑了准确性、稳定性、物理真实性和可解释性。超参数优化确保了灵活性与泛化之间的平衡。通过交叉验证和适用性领域评估检验了模型的稳定性。通过热力学趋势分析验证了物理真实性,并通过Shapley加性解释(SHAP)分析研究了透明度,为变量贡献和非线性相互作用提供了定量见解。这个集成框架确保了所提出的模型不仅在统计上准确,而且在物理上也有意义且可解释。
**2. 方法论框架**
**2.1. 智能计算技术**
CDOB密度的预测是一个高维回归挑战,其特点是变量之间的非线性关系、潜在的相互作用效应以及数据稀疏区域[43]。为全面应对这种复杂性,采用了一种多策略计算方法,结合了三种机器学习范式,以平衡预测精度和概率推理、自适应模糊逻辑以及基于显式规则的结构的独特分析优势。GPM提供了可靠的工程应用所需的稳健不确定性估计;ANFIS能够捕捉复杂的非线性映射,并具有一定程度的语言可解释性;DT算法则提供了对变量层次结构和决策边界的明确洞察。
**2.1.1. GPM**
GPM模型被正式定义为一组随机变量的集合,其中任意有限数量的变量具有联合高斯分布。这是一种非参数方法,它直接在函数空间f(x)上放置一个先验,该函数可以将输入向量x(例如温度、压力、分子描述符)映射到目标密度y。这个先验完全由均值函数μ(x)和协方差函数k(x,x′;θ)确定,后者通常称为核函数。在本研究中,假设在数据居中处理后均值函数是线性的[44,45]。协方差函数决定了函数空间的平滑性和结构。选择指数核函数是因为它能够有效模拟连续但不一定可微的函数,从而捕捉热物理性质表面的潜在突变[46]。指数核函数定义为:
(1)
k(xi,xj)=σf²exp(−dl) + σn²δij
其中d=∥xi−xj∥是输入点之间的欧几里得距离,σf²控制函数的幅度,l是决定函数值不再相关的特征长度尺度,σn²代表观测不确定性[47]。Kronecker delta δij确保噪声项仅添加到协方差矩阵的对角线上。通过最大化训练数据D={X,y}的对数边际似然来优化超参数集θ={σf²,l,σn²}:
(2)
logp(y∣X,θ) = −1/2∑(yTKy − 1y) − 1/2log∣Ky∣ − n/2log2π
这里,Ky=K(X,X) + σn²I是带噪声观测值的协方差矩阵,n是训练样本的数量。
在优化后的超参数和训练数据条件下,新输入x*的预测分布是高斯的[49]。其后验均值μ*和方差V*由下式给出:
(3)
μ*=k*TKy−1y, V*=k(x*,x*)−k*TKy−1k*
在这些方程中,k*表示x*与所有训练输入之间的协方差向量。后验方差V*量化了预测点的模型不确定性,在远离训练数据的输入区域这种不确定性会增加。这种显式的不确定性量化为工程决策提供了必要的置信区间[50]。
**2.1.2. ANFIS**
ANFIS通过结合模糊逻辑原理和神经网络的自适应学习能力,构建了一个透明的输入-输出映射。它实现了一阶Takagi-Sugeno-Kang模糊模型[51]。对于具有两个输入和一个输出的系统,网络架构由五个不同的操作层组成,这些层实现了一组Mfuzzy规则[52,53]。
考虑一个规则库,其中第i条规则表示为:
规则i:如果x1是A˜1i且x2是A˜2i,则zi=ri0+ri1x1+ri2x2
这里,A˜ji是语言标签(例如“低”、“高”),由参数化的隶属函数表示,zi是线性结果函数[54,55,56]。网络层执行以下转换:
• 第1层(输入模糊化):该层中的每个自适应节点j使用参数化函数输出给定输入的隶属等级[49]。通常应用一个广义的钟形函数:
(4)
Oji=μA˜ji(xj) = 1/1+∣xj−cjiaji∣²bji
其中{aji,bji,cji}是控制隶属函数形状、宽度和中心的前提参数。
• 第2层(规则激活):每个固定节点Π通过乘积计算规则的激活强度wi:
(5)
wi=μA˜1i(x1)·μA˜2i(x2)
• 第3层(规范化):固定节点计算归一化后的激活强度wˉi:
(6)
wˉi=wi∑k=1Mwk
• 第4层(自适应结果):每个自适应节点计算其规则对总输出的贡献:
(7)
O4,i=wˉizi=wˉi(ri0+ri1x1+ri2x2)
参数{ri0,ri1,ri2}是结果参数。
• 第5层(输出聚合):单个固定节点将所有输入信号求和以产生最终明确输出:
(8)
y=∑i=1Mwizi
学习过程采用了混合梯度下降和最小二乘估计器算法。在正向传递中,使用固定的前提参数通过最小二乘法确定最优结果参数[57,58]。在反向传递中,误差信号被传递回来,并通过梯度下降更新前提参数以最小化整体预测误差。这种架构特别适合建模热物理性质数据中预期的平滑、连续但高度非线性的关系[59,60]。
**2.1.3. DT**
决策树算法用于回归,通过递归将输入特征空间分割成不同的、轴向对齐的超矩形,每个超矩形与一个恒定的预测值相关联[61]。该模型是一个加性函数,形式为:
(9)
f(x) = ∑m=1Mc^m·I(x∈Rm)
其中M是终端节点(叶子)的数量,Rm是特征空间的第m个划分区域,c^m是该区域的预测常量(通常是Rm中训练样本的平均目标值),I是指示函数[62]。
树的构建是一个自上而下的贪婪过程,旨在最大化每个结果节点内目标变量的均匀性[63,64]。在包含数据子集DP的每个父节点P处,算法评估所有可能的二元分割s,形式为xj≤t,其中t是阈值。选择最佳分割以最大化方差减少,这是回归中的常见杂质准则:
(10)
ΔI(s,P) = I(P) − (Nleft/NPI(Pleft) + Nright/NPI(Pright))
这里,I(P)是父节点的杂质度量,表示为均方误差:
(11)
I(P) = 1/NP∑i∈DP(yi−yˉP)²
其中yˉP是DP中的平均目标值。Pleft和Pright是由split s生成的子节点,其样本量分别为Nleft和Nright。当满足停止标准时,递归终止,这些标准包括最大树深度、分割节点所需的最小样本数或最小杂质减少量。后剪枝可以用于简化模型并减少过拟合[[65], [66], [67]]。在本背景下,决策树(DT)的主要分析优势在于其决策路径的透明度[68];可以直接检查从根到叶的任何预测的分割序列,从而揭示控制CDOB密度的输入特征的相对重要性和关键阈值。2.2. 实验数据库的组成和范围可靠的预测模型的开发依赖于全面且高质量的基础数据集。本研究构建了一个经过策划的实验体积性质测量数据库,这些数据来自在同行评审文献中发布的超过四十项独立实验研究。该数据库旨在涵盖广泛的化学功能、热力学状态和组成范围,以确保所得模型的广泛适用性。表1总结了该编译数据库的结构和范围。表1. CDOB体积性质的全面实验数据库。参考压力范围,(MPa)温度范围,(K)二氧化碳摩尔组成有机组分样品数量[69]10.00 - 70.00303.15 - 333.150.00 - 0.98十七烷194[70]10.11 - 70.62303.35 - 313.250.00 - 1.00庚烷98[71]1.54 - 15.22312.35 - 338.150.19 - 0.96丙酮,戊烷783[72]10.00 - 70.00303.15 - 313.150.00 - 0.85十二烷84[73]5.00 - 30.00308.00 - 323.000.10 - 0.50乙醇,乙酸乙酯227[74]20.00 - 40.00308.15 - 368.150.00 - 0.84十烷147[75]0.99 - 20.14313.00 - 353.000.00 - 0.80甲基环己烷,乙基苯,环己烷,甲烷708[76]2.01 - 25.02312.02 - 363.340.02 - 0.95十三烷,庚烷999[77]0.99 - 70.62294.37 - 343.690.46 - 0.93丙烷496[78]6.36 - 76.37313.15 - 413.150.38 - 0.76十五烷47[79]3.46 - 55.48301.76 - 459.370.29 - 0.43庚烷25[80]0.10 - 130.00283.15 - 398.150.00 - 0.95十烷274[81]0.10 - 100.00298.15 - 423.150.00 - 0.05丁基环己烷78[82]2.67 - 74.43313.15 - 363.150.00 - 0.52角鲨烯59[83]3.40 - 76.40313.15 - 410.150.21 - 0.73十烷49[84]7.99 - 19.05313.17 - 353.520.00 - 0.88十一烷193[26]0.99 - 20.08313.00 - 353.000.00 - 0.80甲苯222[85]8.07 - 65.02323.00 - 423.000.00 - 1.00戊烷473[86]0.61 - 120.86298.14 - 473.540.00 - 0.73十六烷258[22]1.00 - 100.00273.15 - 373.150.00 - 0.73戊烷,己烷863[87]6.87 - 10.96333.00 - 333.000.00 - 0.60环己烷31[88]1.00 - 25.14313.08 - 362.780.00 - 0.98丁-1-醇830[89]3.42 - 65.07323.00 - 423.000.77 - 1.00甲苯324[90]0.49 - 25.16312.96 - 362.790.00 - 0.921-戊醇990[91]2.04 - 64.81323.00 - 423.000.00 - 0.94乙醇313[92]1.65 - 65.44323.00 - 423.000.00 - 0.90丙酮314[93]3.16 - 25.40313.13 - 362.800.04 - 0.731-丙醇,2-丙醇718[24]1.02 - 65.08283.15 - 473.160.00 - 0.92甲基苯509[94]7.97 - 19.12303.04 - 363.280.00 - 0.80十烷169[95]7.74 - 30.35315.90 - 366.900.43 - 0.85二十四烷,二十八烷,六十三烷,二十烷109[96]3.00 - 200.00280.00 - 440.000.24 - 0.87丁烷272[97]5.00 - 100.00298.15 - 423.150.12 - 0.95反式-癸烷,顺式-癸烷120[98]6.29 - 12.50308.15 - 313.150.00 - 0.65己烷186[99]3.00 - 200.00280.00 - 440.000.23 - 0.71异丁烷275[100]0.13 - 98.30298.13 - 423.920.25 - 0.75m-二甲苯123[101]10.00 - 130.00318.15 - 358.150.00 - 1.00十烷284[29]10.00 - 50.00298.20 - 473.200.90 - 0.90十六烷234[102]4.98 - 40.78313.20 - 393.200.00 - 0.05甲苯,单氯苯,丙酮169[23]1.00 - 80.03303.13 - 373.160.00 - 0.86十烷172[103]10.00 - 100.00283.15 - 393.150.00 - 0.87角鲨烯,十二烷,十烷776[104]1.01 - 25.07313.06 - 362.730.00 - 0.97噻吩452[105]7.96 - 18.09313.48 - 354.080.10 - 0.95十二烷176[106]7.93 - 25.20312.95 - 362.790.12 - 0.70乙醇301[107]10.06 - 171.00303.17 - 448.410.42 - 0.79角鲨烯116[108]9.97 - 19.08312.99 - 353.660.00 - 0.86十四烷166[109]15.00 - 45.00308.15 - 338.150.00 - 0.89乙醇168[27]15.00 - 45.00308.15 - 338.150.00 - 1.00乙酸乙酯140[110]1.01 - 25.10313.09 - 362.660.23 - 0.77十烷686[111]0.88 - 5.02298.15 - 363.150.00 - 0.96甲苯28总0.1 - 200273.15 – 473.850 - 139化合物15,428个样品收集的数据库包含了15,428个离散的混合密度测量样本,代表了39种与二氧化碳系统结合的独特有机化合物。这些有机成分涵盖了多种同系物系列和官能团,以捕捉多样的分子间相互作用范式。这些包括线性和支链烷烃(例如,戊烷到六十三烷)、环烷烃(例如,环己烷、癸烷)、芳香烃(例如,甲苯、乙基苯、m-二甲苯)、醇(例如,乙醇、1-丙醇、1-戊醇)、酯、酮和其他含氧化合物(例如,乙酸乙酯、丙酮、乙酸乙酯)以及其他化合物(例如,噻吩、氯苯、角鲨烯)。这种化学多样性确保了模型能够接触到分子大小、形状、极性和关联潜力对混合物体积行为的影响。该数据库涵盖了工程设计中至关重要的操作条件。温度范围包括二氧化碳和许多有机物的亚临界和超临界状态。压力范围从接近大气压的条件(0.10 MPa)延伸到高压状态(200.00 MPa),适用于运输、封存和各种高压处理应用。数据集涵盖了从纯有机溶剂到纯二氧化碳的完整混合组成范围,使模型能够学习整个组成谱系中的行为,包括稀释和浓缩区域。来自众多独立实验来源的数据聚合不可避免地引入了测量技术、报告的不确定性和数据呈现格式的变异性。为了确保编译数据库的完整性和一致性,严格实施了多阶段质量控制协议。首先,所有报告的值都被转换为标准化单位(温度以K计,压力以MPa计,密度以kg·m⁻³计,组成以摩尔分数计)。其次,系统地识别了跨多个出版物报告的相同系统和热力学条件的重复条目;在这种情况下,只保留了原始测量值或带有最完整不确定性描述的数据集,从而防止了对重复观察结果的人为加权。第三,进行了初步的统计筛选以检测物理异常趋势;任何表现出不符合基本热力学预期行为的数据点都被标记并手动与来源出版物进行了验证。第四,只保留了明确指定为直接实验观察的数据;排除了相关、平滑或模型推导出的值,以防止无意中包含先验建模假设。第五,为了消除与图形数据提取相关的不确定性,仅使用了原始出版物中报告的表格数值数据。由此产生的策划数据库非常稳健,包含的独立测量值的数量比通常用于校准任何单一二元系统的状态方程要多一个数量级。这种规模和异质性对于训练能够进行精确插值和谨慎外推的通用机器学习模型至关重要。2.3. 模型架构:输入-输出参数化机器学习模型的预测能力与其输入-输出结构的精确和有意义的定义紧密相关。对于估计二氧化碳-有机混合物(CDOB)密度的任务,这需要一种能够忠实代表体积行为的物理和化学决定因素的参数化。所有模型定义的输出是均匀混合物的平衡质量密度。这一架构设计的主要挑战和重点在于构建一个输入特征向量,该向量在描述系统方面既全面又在维度上高效,以促进稳健的学习和泛化。目标输出变量是混合物的密度(ρ),这是一个直接从实验测量中获得的根本工程属性。为了捕捉控制这一属性的因素,使用六个精心选择的参数来设计输入空间。这些参数可以理解为属于两个相互关联的类别:定义瞬时热力学状态的参数和表征有机组分固有性质的参数。三个直接的热力学状态变量构成了输入集的核心。绝对温度和绝对压力是不可或缺的,因为它们分别建立了流体系统的能量和约束条件。温度调节分子动能和分子间吸引力的平衡,而压力直接影响分子间的自由体积;它们对密度的综合效应是深远且高度非线性的。第三个关键状态变量是组成,表示为二氧化碳的摩尔分数。这个参数对于表示从纯有机溶剂到纯二氧化碳的混合物连续体至关重要,捕捉了由于两个具有不同物理特性的组分比例变化而引起的体积性质的变化。然而,一个能够预测广泛有机化合物密度的模型不能仅依赖状态变量。它需要一种连续的、数值的方法来区分有机组分的化学身份。这是通过结合三种关键的纯有机化合物分子描述符来实现的:其摩尔重量、临界压力和临界温度。选择这些属性是因为它们在物理意义上的重要性和普遍可用性。临界温度作为化合物分子间力的综合度量,较高的值表明更大的凝聚能量密度,这影响混合物的行为。临界压力提供了关于分子大小、形状和堆积效率的补充见解。摩尔重量是分子大小和摩尔体积的基本描述符,与化合物对混合物的空间填充贡献直接相关。这些描述符本身可以捕捉极性、氢键和关联效应,这些效应对传统状态方程提出了挑战。极性和关联分子(醇、酮、酯)相对于其分子大小的临界温度和临界压力通常较高。强定向相互作用增加了破坏凝聚相所需的能量,这种增加直接体现在Tc和Pc中。像Tc/MW和Pc/MW这样的比率进一步浓缩了单位质量的特定相互作用强度。其他描述符,如偏心因子(ω)、偶极矩(μ)或显式的氢键标志,也是概念上有价值的,但它们的包含引入了实际困难。数据库中许多有机化合物的可靠实验值缺失;通过组贡献方法估计它们将会传播不确定性。增加额外的维度还会加剧维数灾难,特别是对于ANFIS和DT来说,它们已经面临着所选输入的挑战。使用这些连续描述符允许模型进行泛化。模型不仅限于识别其训练集中的特定、命名的化合物,而是学习将密度与定义分子体积影响的潜在物理属性相关联。这意味着只要知道这三个核心属性,模型就可以对完全新颖的有机化合物进行有根据的预测,通过在学习到的特征-属性关系空间中进行插值或外推。因此,单个预测的完整输入向量为x = [T,P,xCO2,Tc,org,Pc,org,MWorg]。这种集成的架构确保模型接收了近似复杂函数ρmix=f(T,P,composition,chemistry)所需的所有信息。状态变量将预测锚定在特定的操作条件下,而分子描述符则向模型提供了混合物的特定化学性质,使其能够学习适用于广泛二氧化碳-有机混合物系统的统一、基于物理的映射。2.4. 预测准确性的定量评估对模型性能的严格评估需要应用多种互补的统计指标。这些指标共同量化了预测误差的不同维度,提供了对准确性、精确度和可靠性的细致评估。为此,采用了三个主要指标,每个指标都是从一组残差计算得出的,残差定义为每个第i个数据点的相对偏差:ϵi=(ρpred,i−ρexp,i)/ρexp,i,其中ρpred和ρexp分别表示预测和实验观察到的密度值,N是评估集中的观测总数。第一个性能指标,平均绝对百分比偏差(MAPD),量化了预测值和观测值之间典型大小的相对差异,无论其符号如何,从而提供了整体预测精确度的直观度量。其计算公式为:(12)MAPD(%)=100N∑i=1N|ϵi|第二个指标,相对平方平均误差(RQME),由于其平方项,对较大的单个误差给予了更强烈的惩罚。它表示相对于观测测量平均值的均方根偏差,从而提供了一个无量纲的模型预测分散度指标。其定义为:(13)为了确保数据的公正表示,15,428个数据点被随机分割,其中80%(12,342个点)用于模型训练和超参数优化,剩余的20%(3,086个点)作为独立的验证集用于最终性能评估。这种随机分割协议保证了两个集合都能涵盖整个数据库中存在的全部化学多样性和热力学条件,从而防止了选择偏差,并提供了对模型泛化的严格测试。DT、GPM和ANFIS的最佳调优架构在表2中详细说明。GPM的超参数(信号幅度σf、长度尺度l和噪声水平σn)是通过最大化训练数据的对数边际似然来优化的,这是一种天然平衡模型拟合和复杂性的贝叶斯正则化方法。指数核被选为因为它能够建模连续但可能突然的性质变化。优化使用了基于梯度的求解器(L-BFGS-B)并进行多次随机重启。
表2. 最终确定的模型架构和优化后的超参数。
| 模型 | 超参数 | 最终值 / 选定的形式 |
|------------|-----------------------------------|-------------------|
| DT | 均值函数类型 | 线性 |
| Covariance Kernel | | 305.50 |
| Signal amplitude, σf | | 305.50 |
| Length scale, l | | 21.24 |
| Noise level, σn | | 11.75 |
| GPM | 信号幅度, σf | 305.50 |
| | 长度尺度, l | 21.24 |
| | 噪声水平, σn | 11.75 |
| | | |
| ANFIS | 成员函数类型 | 通用钟形 |
| Number per input | | 2 |
| Sugeno (first order) | | 固定网格 |
| Membership functions | | 2 |
| Inference System type | | Sugeno (first order) |
| Total rules | | 64 |
| Optimization Objective | | 对数边际似然 |
| | | |
| Optimizer | L-BFGS-B with random restarts | |
| | | |
| | | |
ANFIS架构采用了对称的网格划分,每个输入有两个成员函数,生成了2^6=64个一阶Sugeno规则组成的完整规则库。这种固定网格选择是因为其简单性和可解释性,但它存在维度灾难:规则的数量随着输入数量的增加而呈指数级增长。在六个输入的情况下,64条规则在六维空间中分布得很稀疏,导致许多区域覆盖不足。 briefly探索了一种替代结构:减法聚类(半径=0.5),虽然减少了规则数量到大约25条,但验证误差却更高。混合学习算法结合了最小二乘估计(前提参数的向前传递)和反向传播(结论参数的向后传递)。通过限制每个输入的成员函数数量为两个,并使用基于验证子集的提前停止策略(100个训练周期),减轻了过拟合。
DT使用均方误差分割标准进行构建。为了防止过拟合,在使用最小叶节点大小为1的情况下应用了成本复杂性修剪。首先将树扩展到最大尺寸(直到叶节点包含单一样本),然后根据训练集调整复杂性参数α,选择最小化均方误差的子树。这种修剪过程直接控制了训练准确性和泛化能力之间的权衡,防止了对噪声的记忆。
最终模型的定量性能在学习和独立验证阶段都提供了对其预测特性和内在算法优势的关键见解。DT、ANFIS和GPM的完整统计评估见表3。结果证实,这三种方法都提供了可行的预测框架,成功地学习了数据中的主导趋势。每个模型的验证MAPD均低于5%,证明了它们在初步工程估算中的基本效用。
表3. 模型性能的全面统计评估。
| 模型 | 学习阶段 | 验证阶段 |
|------------|-----------------------------|----------------------|
| DT | 1.13 | 2.41 |
| ANFIS | 4.71 | 4.89 |
| GPM | 0.27 | 0.75 |
DT算法具有良好的预测准确性,验证MAPD为2.19%。其性能得益于通过递归、轴对齐划分构建响应表面的分段常数近似的方法。这种基本结构可能导致轻微的不连续性和对平滑连续密度函数的“阶梯状”近似,从而导致观察到的误差范围。尽管有效,但与其他技术相比,这种架构方法不太适合建模平滑的物理连续体。ANFIS模型具有合理的预测能力,验证MAPD为4.80%。标准ANFIS架构的一个核心特点是它依赖于预定义的输入空间网格划分来生成模糊规则。这种结构可能会遇到维度灾难的问题:随着输入数量的增加,规则库会呈组合方式增长,可能导致复杂高维关系的映射不完整或效率低下。这反映在模型较高的PSI值上,表明预测准确性在参数空间中的不一致性更大。因此,ANFIS的性能不佳不是由于调整不当,而是由于固定网格划分的模糊规则库与CDOB密度预测的高维度、强非线性本质之间的根本不匹配。更先进的模糊推理系统设计,如进化模糊系统或层次模糊系统,理论上可以通过逐步增加规则或分解输入空间来减轻维度灾难。然而,这些方法更加复杂、解释性较差,并且未针对工程应用进行标准化。因此,基于网格划分的ANFIS作为一个基线,表明传统的基于规则的模糊系统不适合高维热物理属性预测。
相比之下,GPM模型表现出优异且卓越的性能,验证MAPD达到0.94%,一致性极高(PSI为6.81%)。从根本上说,GPM之所以出色,是因为它在所有可能的平滑函数空间上放置了一个先验,使其非常适合建模连续物理属性。通过贝叶斯正则化选择指数核并优化超参数,明确地使这一灵活框架适应CDOB密度数据的特定相关结构。
比较分析最终确定GPM模型是CDOB密度的最佳预测框架,具有更高的准确性和鲁棒性。虽然DT和ANFIS模型提供了功能近似,但它们的结构限制了其相对于GPM的概率公式带来的性能。经过广泛实验数据验证的成功优化的GPM,为碳利用技术的进步提供了一个可靠和精确的工具。
3.2. 预测性能的图形评估
为了补充之前报告的数值指标,进行了详细的图形评估,以检查开发模型的预测行为、一致性和鲁棒性。视觉诊断至关重要,因为它们揭示了系统趋势、分散模式和可能无法仅通过聚合误差指数完全捕捉到的局部缺陷。在本节中,使用交叉图来评估预测和实验密度之间的全局一致性,而箱形图和小提琴图用于分析绝对相对误差的统计分布。
图1展示了学习和验证数据集的预测密度与实验密度之间的直接对应关系。对角线表示完全一致,虚线包络表示±10%的偏差范围,为可接受的预测精度提供了明确的基准。GPM的结果在整个密度范围内显示出紧密且几乎对称的聚类,表明偏差最小且泛化能力强。重要的是,这种行为在验证数据中也得到了保持,表明模型不依赖于记忆,而是捕捉了控制CDOB密度的潜在功能关系。DT的交叉图显示出更广泛的散布,特别是在中等和较高密度值处。尽管全球趋势与最佳拟合线保持一致,但局部偏差表现为偏离对角线的点带。这种模式与DT预测的阶梯式性质一致,在相邻区域之间的突然转换会限制平滑插值。ANFIS图显示出最大的分散,有相当一部分点偏离对角线。这种扩散反映了使用固定模糊规则基在高维输入空间保持一致性方面的困难。总体而言,图1表明,尽管所有三种模型都再现了总体密度趋势,但GPM与实验数据的一致性最接近,在所有范围内都具有最均匀的预测行为。
图2通过描绘它们的分布形状和关键汇总统计量,提供了预测误差的统计视图。小提琴图表示绝对相对误差的概率密度,而嵌入的箱形图报告了四分位数范围和中位数,允许直接比较模型之间的准确性和分散性。GPM显示出异常狭窄且尖锐峰值的分布,中心接近零。其四分位数值(Q1=0.02%,Q2=0.04%,Q3=0.13%)表明大多数预测仅与实验测量值略有偏差,分布非常有限且尾部较短。DT的误差分布更宽,四分位数分别为0.25%、0.57%和1.35%,表明尽管中位数误差适中,但变异性较大。延长的上尾部分反映了偶尔出现的较大偏差,这可以归因于树结构内部决策边界附近的敏感性。ANFIS显示出最宽的分布和最高的四分位数(Q1=0.44%,Q2=1.08%,Q3=2.58%),以及明显的尾部。这种行为突出了一致性的降低和较大错误的可能性,特别是在输入之间存在复杂交互的区域。总之,图2清楚地区分了模型在鲁棒性和可靠性方面的差异。GPM的紧凑误差分布证实了其出色的稳定性,而DT和ANFIS显示出逐渐增加的分散性和不确定性。
通过将每个输入特征的标准化范围[0,1]划分为十个相等的区间并计算每个区间内的MAPD,检查了预测误差的集中度。这种箱式分析揭示了模型准确性如何沿着有机化合物的分子量、温度、压力和CO2摩尔分数的整个谱系变化。图3展示了GPM、DT和ANFIS模型的MAPD值的热图。
图3显示了GPM、DT和ANFIS模型的MAPD热图。GPM热图显示出均匀较低的MAPD值(所有区间≤2.25%)。在最低标准化分子量(0–0.1,MAPD=0.79%)、中等范围(0.5–0.6,2.25%)和最高分子量(0.9–1,2.07%)处观察到轻微的增加。这些对应于非常轻的和非常重的烃类,其中分子间相互作用更具挑战性。对于温度,GPM的误差从未超过1.06%,显示出在亚临界、接近临界和超临界条件下的出色稳定性。因此,选定的输入特征已经包含了在不同操作条件和有机功能下准确预测密度所需的基本热力学和化学信息。压力显示甚至更低的误差(最大0.59%),证实了GPM的指数核能够忠实捕捉压缩效应。CO2摩尔分数在高标准化值(0.6–0.7:0.95%;0.9–1:1.12%)处显示出适度的误差增加,这与密度交叉现象相符。重要的是,即使在这种复杂区域,GPM仍然保持高度准确。DT热图显示出明显不同的模式。误差通常更大且更不稳定。值得注意的是,温度区间0.5–0.6(对应于许多混合物的大约350–380 K)的MAPD为7.15%,几乎是GPM同一区间内的七倍。这一区域通常包含混合物的临界点,其中密度随温度急剧变化。决策树的分段常数性质无法平滑跟随这种曲率,导致较大的残差。同样,在CO2分数高于0.9的情况下,DT的误差达到4.09%,反映了捕捉非线性组成依赖性的困难。ANFIS的热图在大多数区间内的性能较差,MAPD值超过10%(例如,低分子量:13.46%;高CO2分数区间:11.82%,10.22%,8.54%)。维度灾难(六个输入,64个固定规则)导致模糊规则基过于稀疏,无法近似真实的密度表面。这些结果解释了为什么不建议使用ANFIS处理这个高维问题。总之,区间误差分析证实GPM在所有输入范围内都是准确和稳健的,而DT和ANFIS在接近临界温度和高CO2区域内表现出局部弱点,ANFIS几乎在任何地方都如此。这一诊断直接支持了基于概率的GPM是CDOB密度预测的优越框架的结论。交叉验证分析
对模型泛化能力的严格评估需要在其多个数据分割场景下评估其性能,而不仅仅是依赖单一的训练-测试分割。因此,采用了五折交叉验证来检验最准确模型(即GPM)的稳定性、鲁棒性和预测可靠性。在这个框架中,完整的CDOB数据库被划分为五个大小相同的非重叠部分。每个部分被指定为验证部分,而其他四个部分用于模型训练。通过轮换所有分割中的验证角色,每个观测值都被评估一次,从而对模型在以前未见过的条件下的性能进行严格和公正的评估。需要澄清的是,模型的超参数在使用单独的保留验证集进行交叉验证之前已经优化过了。这些超参数在所有五个折叠中保持不变,且在各个折叠中没有进行重新优化。采用这种方法是有意为之,因为交叉验证在这里仅用于量化最终模型配置的泛化误差和稳定性,而不是用于进行超参数调整。在每个折叠中重新优化超参数可能会人为地降低验证误差,并不能反映实际部署中预期的单一固定模型的性能。
图4展示了在每次将一个折叠视为测试子集时学习和验证过程中获得的MAPD值。在所有折叠中,学习MAPD值保持一致较低,介于0.19%到0.35%之间,这表明参数估计有效且拟合能力强,对特定训练组成的敏感性不高。折叠之间的有限变化确认了GPM以稳定的方式捕捉了输入变量与CDOB密度之间的内在关系。验证MAPD值在0.66%到0.94%之间变化,所有测试折叠的值都远低于1%。尽管验证误差自然高于学习误差,但观察到的差距是适度且系统的,表明泛化是受控制的,而不是过拟合。最高的验证MAPD值与第3折叠相关,而最低的值与第1折叠相关,这反映了子集之间的数据复杂性差异,而不是模型本身的结构缺陷。重要的是,没有折叠显示出异常大的误差,证明了GPM的预测准确性不依赖于特定的数据子集。总体而言,图4中的结果确认了GPM在所有交叉验证场景下都能提供准确的预测。学习和验证阶段MAPD值的窄分散度突显了模型的鲁棒性和可靠性,进一步证明了其在广泛条件下的适用性。
下载:下载高分辨率图像(193KB)
下载:下载全尺寸图像
图4. GPM的五折交叉验证结果,显示了学习和验证阶段的MAPD值。
虽然五折交叉验证评估了模型在不同随机数据分割下的稳定性,但它并未测试模型是否能够预测训练集中完全不存在的有机化合物的密度。随机分割确保了同一化合物的不同测量点同时出现在训练和验证中,因此模型可能只是简单地根据化合物特定的模式进行插值。为了评估对新型有机化学的真正泛化能力,还对GPM(表现最好的模型)进行了留一化合物法(LOCO)验证。在LOCO验证中,39种有机化合物中的每一种都被一次作为测试集保留。模型在剩余38种化合物的所有数据上进行训练,然后在该保留的化合物上进行测试。这个过程重复39次,并对性能指标进行平均。对于每个折叠,GPM的超参数会在训练集上重新优化,并且输入特征仅使用训练数据进行缩放,以避免信息泄露。
LOCO验证在39种化合物上的平均MAPD值为1.23%(标准差0.41%)。这仅略高于随机分割验证的0.94%,确认了GPM不依赖于化合物特定的记忆,而是通过分子描述符(Tc、Pc、MW)成功泛化。每种化合物的最高误差发生在乙醇(MAPD=2.08%)和角鲨烷(MAPD=1.94%)上,这两种化合物分别代表了强关联的醇类和非常重的碳氢化合物,它们的分子间相互作用最具挑战性。排除这两种化合物后,平均LOCO MAPD降至1.16%。没有化合物的MAPD超过2.1%,表明在不同的化学家族中泛化能力是一致的。
3.4. 适用范围和异常值检测
除了预测准确性之外,对GPM的全面验证还需要验证其统计可靠性和操作边界。即使是一个高度准确的模型,在应用于训练期间未充分代表的条件时也可能产生不可靠的输出。对于GPM模型,后验预测方差(由方程式(3)给出)提供了一个自然且理论一致的扩展度量:随着核诱导特征空间中与训练数据的距离增加,该方差会增加。因此,适用范围(AD)使用预测标准差S*=V*来定义,如果s*超过基于估计噪声水平的阈值,则认为某个点位于AD之外。
具体来说,GPM的优化噪声标准差为σn=11.76kg/m³。因此,采用了保守的阈值Scrit=3σn≈35.3kg/m³。S*≤Scrit的预测被认为是位于AD内的;S*>Scrit的预测被视为外推,模型的不确定性过大。
仅对于AD内的点计算标准化残差:
(15) ri = yiexp−yipredS*
其中yi和yipred分别是实验密度和预测密度。如果一个点位于AD内且|ri|>3,则该点被分类为疑似异常值。AD外的点不被视为异常值;它们仅仅表示外推。
图5绘制了3,086个验证样本的标准化残差与预测标准差的关系图。垂直线标记了Scrit=35.3kg/m³;水平线标记了ri=±3。在验证点中,2,743个(88.9%)位于AD内,而343个(11.1%)位于AD外,后者对应于训练数据中代表性不足的输入空间区域(例如极端温度或压力)。在AD内的点中,只有51个(AD内子集的1.86%)的标准化残差超过3,表明潜在的实验异常或模型缺陷非常低。大多数AD内的预测的ri<1,显示出极好的一致性。这些结果确认了GPM在明确定义的适用范围内运行,其预测在绝大多数条件下是可靠的。标准化残差的狭窄分散度突显了模型的鲁棒性和可靠性,进一步证明了其在广泛条件下的适用性。
下载:下载高分辨率图像(268KB)
下载:下载全尺寸图像
图5. 验证数据的标准化残差与预测标准差的散点图。
3.5. 模型的趋势分析和物理一致性
除了统计准确性之外,一个可靠的预测模型还必须忠实地再现控制CDOB密度的基本热力学趋势。在本节中,利用高斯过程建模(GPM)来研究温度、压力和二氧化碳组成对混合物密度行为的交互影响。目标有两个:阐明在不同条件下的CDOB的主要物理行为,并展示GPM捕捉实验数据中嵌入的非线性相互作用和复杂现象的能力。
图6展示了在固定组成下温度和压力对CDOB密度的同时影响。在整个温度范围内观察到密度随压力的显著单调增加,反映了压缩下的分子堆积增强。相比之下,温度的升高导致密度系统性降低,这与热膨胀和分子间凝聚力减弱一致。GPM产生的连续响应表面证明了其能够忠实地表示压力诱导的压缩和温度驱动的膨胀对混合物密度的相反影响。没有人为的振荡或非物理极值,进一步确认了模型学到的响应与基本热力学预期完全一致。
图7展示了在恒定压力下温度和二氧化碳摩尔分数对密度变化的影响。在低到中等二氧化碳分数下,密度随温度升高而减小,符合常规的热行为。然而,在较高的二氧化碳浓度下,密度响应变得明显非线性,并出现了密度交叉现象。在这种情况下,二氧化碳-碳氢化合物相互作用和二氧化碳可压缩性的相对影响改变了混合物对温度的敏感性,导致密度趋势的交叉。GPM成功再现了这种交叉行为,展示了其解析复杂组成-温度耦合的能力。捕获这种行为对数据驱动模型尤其具有挑战性,其准确的表示突显了GPM的鲁棒性。
图8展示了在固定温度下压力和二氧化碳组成对CDOB密度的同时影响。
3.6. 通过SHAP分析理解模型可解释性
虽然预测准确性至关重要,但理解输入变量如何影响模型输出对于确保物理可信度同样重要。为了量化每个变量对预测CDOB密度的贡献,对GPM进行了SHAP分析。该框架基于合作博弈论,通过计算加性特征贡献来将模型预测归因于各个输入。对于给定的输入向量z,GPM预测可以表示为:
(16) ρ^(z) = ϕref + ∑j=1mϕj
其中ϕref代表基线预测,ϕj表示与第j个变量相关的SHAP值。每个SHAP值衡量了包含该变量在所有可能的输入组合中的边际效应。正式地,变量j的贡献通过以下公式获得:
(17) ϕi = ∑H⊆G∖{i}∣H∣!(m−∣S∣−1)!m![G(H∪{i})−G(H)]
其中G表示模型变量向量,H表示特征子集。这种公式确保了通过考虑所有交互路径来公平归因。
由于GPM模型是一个非参数、非线性的黑箱函数,SHAP值是使用模型不可知的近似策略获得的。首先,计算了整个数据集(所有可用观测值)上的预期模型输出作为基线参考。然后,通过将原始模型预测与用其数据集平均值替换该特征时的预测进行比较,来估计特定特征的边际贡献。该程序在MATLAB中使用GPM的“predictFcn”方法实现,得出预测的加性分解,并提供了在整个数据集表示的热力学条件范围内的特征重要性的稳健度量。
图9中展示的全局SHAP结果提供了整个数据集上变量影响的全面视图。基于平均绝对SHAP值的排名表明,Pc,org和Mworg是主要贡献者,其次是P、T和xCO2,而Tc,org的影响相对较小。这种层次结构需要进一步的物理解释,特别是观察到临界压力和分子量超过了操作温度和压力的直接贡献。Pc,org和Mworg的主导地位源于它们在定义有机组分的固有体积和可压缩性特征中的基本作用。分子量直接决定了每摩尔的质量,因此也决定了在给定摩尔体积下的数密度;即使是不同有机物种之间Mwcrg的微小变化也会导致绝对密度的显著变化。临界压力反过来又控制着应用于有机化合物的任何状态方程中吸引力和排斥项的大小。它作为压力–密度关系的缩放参数:较高的Pc,org对应于更强的分子间凝聚力以及更陡峭的密度曲线,从而放大了整个压力范围内的密度敏感性。相比之下,操作温度T和压力P虽然在物理上很重要,但它们的影响是通过材料特定的参数Pc,org和Mworg来过滤的。在本数据集的热力学范围内,T和P的变化相对于有机化合物性质的广泛范围来说是受到限制的,这解释了为什么该模型赋予分子描述符更大的全局重要性。
图9. 全局SHAP汇总显示了GPM中变量重要性和方向效应。SHAP分布模式揭示了与热力学原理一致的趋势。较高的压力主要与正的SHAP值相关联,证实了它们的致密化效应。相反,升高的温度会产生负贡献,反映了热膨胀。同样,增加Mworg通常会产生正效应,因为分子间相互作用增强且分子体积增大。值得注意的是,xCO2的SHAP行为表现出明显的不对称性和分散性,特别是在较高比例时。观察到正面和负面的贡献,表明了强烈的非线性。这种模式直接反映了密度交叉现象,即富含二氧化碳的混合物对热力学变量的敏感性发生了变化。GPM能够捕捉到这种复杂的特征,进一步验证了其物理一致性。总体而言,全局分析证实了模型学习到的结构与已建立的物理化学行为一致,支持了其可解释性。
图10中的局部SHAP分析详细解析了单个数据点的预测,提供了对变量特定效应的洞察。分解显示Pc,org提供了最大的正贡献,其次是Mworg和P。相比之下,T产生负贡献,而xCO2和Tc,org的调整较小。这种局部解释与全局发现完全一致。被识别为全局主导的变量在实例级别上仍然具有影响力,同时贡献的方向符合物理预期。温度的负面效应和压力的正面作用加强了模型的热力学有效性。此外,xCO2的中等但不可忽视的作用再次反映了依赖组成的非线性。全局和局部分析之间的一致性表明,GPM在数据集级别和实例级别的解释上都表现出连贯性和物理意义。这种一致性增强了人们对所提出模型的稳健性、透明度和科学可靠性的信心。
完整的实验数据集作为补充材料提供。同时,还包括了GPM模型的MATLAB文件以及用于预测CDOB密度的逐步指导文件。
3.7. 与传统模型的基准测试
为了评估所提出的GPM模型相对于已建立的热力学方法的实际附加值,我们对实验数据库的一个代表性子集进行了直接基准测试,比较了几个广泛使用的状态方程(EOS)。比较包括立方模型(BWRS)、高级SAFT型框架(tPC-PSAFT)和经验相关性(修改后的Toscani–Szwarc、Tait、Kato等人的5参数方程)。所有EOS预测都来自原始文献来源,这些模型已经针对各自的二元系统进行了调整。表4报告了每种有机化合物在不同CO₂摩尔分数下观察到的MAPD范围。
表4. CO₂–有机混合物的比较预测性能(MAPD范围,%):GPM与文献中的状态方程
系统(CO₂ + 有机)
点数
EOS模型(参考)
EOS MAPD范围(%)
GPM MAPD范围(%)
十六烷 [86]
258
修改后的Tammann–Tait
0.04–0.21
0.05–0.19
角鲨烷 [107]
116
Tait方程
0.62–0.83
0.07–0.19
角鲨烷 [82]
59
Tait方程
0.01
0.01–0.05
噻吩 [104]
336
修改后的Toscani–Szwarc
0.01–0.43
0.04–0.08
癸烷 [110]
686
修改后的Toscani–Szwarc
0.01–0.46
0.05–0.14
癸烷 [94]
169
BWRS
0.30–2.14
0.03–0.26
庚烷、十三烷 [76]
999
BWRS
0.02–0.13
0.01–0.28
十二烷 [105]
176
BWRS
0.15–2.94
0.04–0.12
1-戊醇 [90]
990
BWRS
0.01–0.10
90.04–0.41
十四烷 [108]
166
tPC-PSAFT
0.01–0.44
0.01–0.13
乙苯、甲基环己烷、环己烷 [75]
708
Kato等人
0.03–0.17
0.04–0.15
甲苯 [26]
222
Kato等人
0.07–0.23
0.02–0.52
癸烷 + 乙醇 [112]
453
5参数方程
0.005–0.12
0.02–0.18
GPM提供的准确性始终与文献中的EOS模型具有竞争力,而且往往更优,尽管它是一个单一的、全局训练的模型,从不为单个化合物或操作范围重新调整参数。例如,在癸烷系统中,BWRS模型的MAPD范围为0.30%到2.14%,而GPM的范围在0.03%到0.26%之间,最坏情况下改进了十倍。同样,对于十二烷,BWRS的上限误差(2.94%)被GPM大幅降低到0.12%。对于角鲨烷,Tait方程的误差(0.62–0.83%)被GPM减少了一半以上(0.07–0.19%)。在所有情况下,GPM的最大MAPD从未超过0.52%,而几个EOS模型即使在针对系统进行特定校准后仍然表现出超过2%的误差。GPM在化学多样性系统中表现出显著的一致性。EOS模型在某些化合物上表现良好(例如,BWRS在庚烷和十三烷上为0.02–0.13%),但在其他化合物上表现不佳(例如,同样的BWRS在癸烷或十二烷上)。相比之下,GPM的误差范围狭窄且有界:表4中的所有13个条目的GPM最大MAPD ≤ 0.52%,最小值低至0.01%。这种一致性源于GPM的数据驱动性质及其使用的分子描述符(临界温度、临界压力、分子量),这些描述符使模型能够在不需要专门校正的情况下跨化学家族进行泛化。基准测试强调了一个根本的权衡:文献中的EOS模型通常针对单个二元系统在有限的条件下进行拟合,它们在拟合区域外的预测能力是不确定的。相比之下,GPM仅在一个包含39种有机物的广泛数据库上进行了一次训练,覆盖了广泛的T-P-x空间和多种热力学制度,但它仍然能够在这些EOS开发的数据上匹配或超过专门EOS模型的准确性。这一结果并非微不足道;它证明了GPM有效地学习了潜在的物理关系,而不是记住具体的数据点。总之,虽然传统的EOS模型对于纯理论分析仍然有价值,但GPM提供了一个实用的替代方案,它结合了广泛的适用性、高准确性和无需逐系统调整参数的优点。在速度和泛化至关重要的工程应用中,如过程设计、CO₂注入模拟或新型溶剂筛选,GPM提供了显著的优势。
4. 结论
当前研究提出了一个稳健且基于物理的数据驱动框架,用于预测二氧化碳–有机混合物(CDOBs)的密度,该框架基于包含15,428个观测值的广泛数据集,涵盖了广泛的热力学条件、组成变化和分子描述符。主要发现和贡献总结如下:
- 所有三种评估的模型(GPM、DT、ANFIS)的验证MAPD值均低于5%,证实了它们用于工程估算的基本适用性。
- 高斯过程模型(GPM)表现出卓越的性能,验证MAPD为0.94%,RQME为3.33%。其误差分布非常紧凑(四分位数:0.02%、0.04%、0.13%),表明大多数预测与实验观察结果的偏差很小。
- 五折交叉验证得到的验证MAPD值在0.66%到0.94%之间,证实了在不同数据分区上的稳定预测行为。
- 留一化合物出验证得到的平均MAPD为1.23%(标准差0.41%),表明GPM通过分子描述符可以泛化到未见过的有机化合物,而无需具体记忆化合物。
- 使用GP预测方差进行适用性域评估显示,88.9%的验证点位于定义的域内;其中,只有1.86%的标准化残差超过±3,反映了数据库的完整性和模型的可靠性。
- 趋势分析忠实地再现了热力学一致的行为,包括压力引起的致密化、温度驱动的膨胀以及高CO₂分数下的非线性密度交叉现象。
- 基于SHAP的分析显示,有机组分的临界压力和分子量是密度预测的主要贡献因素,这与热力学缩放原理一致。局部SHAP解释进一步证实了模型的内部决策结构符合物理预期。
总体而言,GPM模型提供了一个精确、稳健且物理上可信的CDOB密度估算工具,具有在CCUS、EOR、超临界提取和其他需要可靠性质预测的工程应用中的强大潜力。未来的建议包括根据数据可用性引入额外的分子描述符(例如,偏心因子、偶极矩)以进一步提高准确性,并将框架扩展到三元或多元混合物。
作者贡献声明
Tareq Nayef AlRamadneh:数据整理、形式分析、资金获取、项目管理、资源、软件、写作——审阅与编辑。
Abwdhr Mahmoud Shakr:概念化、调查、方法论、验证、可视化、写作——初稿。
Manoj I. Patel:数据整理、形式分析、方法论、软件、监督、写作——初稿、审阅与编辑。
Narmadha T:概念化、调查、软件、写作——审阅与编辑。
Anand Kr Shukla:数据整理、调查、方法论、软件、写作——初稿。
Manoranjan Parhi:调查、资源、软件、写作——审阅与编辑。
Vikas Wasson:概念化、方法论、软件、写作——审阅与编辑。
Ramandeep Kaur:调查、验证、写作——审阅与编辑。
Fereydoon Ranjbar:数据整理、调查、方法论、监督、写作——初稿、写作——审阅与编辑。