在科学与工程领域,我们常常需要探究复杂的参数化系统——那些行为由一组用户定义或问题相关参数所支配的系统。从制造、个性化医疗到智慧城市与可持续发展,优化、控制、数据同化、不确定性量化乃至新兴的数字孪生技术,都需要对这些系统进行大量、高效的查询分析。然而,描述这些系统的“全阶模型”——无论是基于物理定律的偏微分方程,还是由数值模拟器或实验观测产生的数据集——通常计算成本高昂。于是,“代理模型”应运而生,它旨在构建输入参数与输出“感兴趣量”之间的紧凑关系,从而实现对复杂参数化系统的高效评估。
代理模型作为一种函数逼近
我们可以将系统看成一个“黑箱”:输入参数向量 μ,得到高维输出向量 x(μ)。代理模型 S(μ) 的目标,就是用低维、紧凑的形式近似这个复杂的映射关系,即 x(μ) ≈ S(μ)。这本质上是一个高维空间的函数逼近问题。构建这样一个代理模型,需要考量四个核心方面:对真实系统的先验知识(物理规律或实验认知)、可用的离散数据对 (μi, xi)、近似准则(如何定义“最佳拟合”,比如插值还是回归),以及逼近类型(即选择何种基函数来构建低维表示,如多项式、神经网络等)。
重温函数逼近准则
在选定低维表示(约简基)之前,我们首先需要理解如何“拟合”数据。文章系统回顾了几种经典的近似准则。
对于标量函数,多项式插值能构造一个穿过所有采样点的多项式。径向基函数 (RBF) 和克里金法/高斯过程回归 (GPR) 则提供了更灵活的插值选择,它们基于样本点之间的距离来构造响应函数,能自然处理高维参数空间,其计算复杂度主要取决于样本数而非参数维度。当数据存在噪声时,最小二乘逼近通过最小化全局误差的平方和来寻找最佳拟合函数,例如利用切比雪夫多项式可以获得接近极小极大误差的优良性质。移动最小二乘法 (MLS) 则引入了局部加权的思想,使近似具备局部适应性和一定的正则性。最后,基于万有逼近定理,人工神经网络 (ANN) 通过多层非线性变换,能够以极高的灵活性从数据中学习复杂的输入-输出映射。
构建约简基:本征正交分解 (POD)
有了逼近数据的准则,下一步是寻找高效的“约简基”,以大幅降低表示维度。本征正交分解 (POD) 是一种强大的数据降维技术。其核心思想是对一组来自仿真或实验的“快照”数据(即不同参数下的系统响应)进行奇异值分解 (SVD),提取出能量最集中的少数几个正交模态(POD模态)。这样,任何系统响应都可以近似表示为这些模态的线性组合:x ≈ x̄ + Uz,其中U是POD模态矩阵,z是低维的系数向量。
基于POD,可以发展两类代理模型。一类是POD结合插值/回归 (PODI),这是一种非侵入式方法。它先对已知参数样本计算其POD系数z,然后利用函数逼近技术(如RBF、克里金法甚至神经网络)学习从参数μ到系数z的映射。对于新参数,通过该映射预测系数,再重构出全场响应。另一类是POD结合投影的降阶模型 (POD-RB),这是一种侵入式方法。它将全阶模型的控制方程(如有限元方程 K(μ)x(μ) = f(μ))投影到POD张成的低维子空间上,得到一个维度极小的方程用于求解系数z。这种方法强制代理模型满足底层物理规律,但需要访问全阶求解器。对于非线性问题,POD-RB需要配合超减缩技术(如离散经验插值法 DEIM)来高效处理非线性项,这又带来了额外的复杂性。
构建约简基:本征广义分解 (PGD)
本征广义分解 (PGD) 则提供了一种“先验”的模型降阶途径。与POD基于已有数据不同,PGD旨在直接构造一个参数可分离的代理模型表达式,例如 S(μ) ≈ Σ Fi(x) Gi(y) Hi(z) ...。它通过一种迭代的贪婪算法,逐步添加最优的可分离项,直到满足精度要求。PGD的核心优势在于能规避维数灾难,其计算成本与参数数量呈线性而非指数关系,特别适合高维参数空间。它同样可以用于构建非侵入式的数据驱动代理模型,或侵入式的基于物理的降阶模型。
构建约简基:神经网络
神经网络本身就是一类强大的函数逼近器,自然可以作为构建代理模型的工具。前馈神经网络可以直接学习参数到输出的端到端映射。更高级的架构如卷积神经网络 (CNN) 善于处理图像式的高维空间场数据,循环神经网络 (RNN) 及其变体(如长短期记忆网络 LSTM)则适合序列或时间依赖的参数化问题。近年来,物理信息神经网络 (PINN) 通过将控制方程的残差作为损失函数的一部分,将物理规律嵌入网络训练,发展出混合建模的新范式。深度生成模型(如变分自编码器 VAE、生成对抗网络 GAN)可用于学习解流形的低维表示并生成新样本,为非线性降维和数据增强提供了新工具。
交叉赋能主题:多保真度建模与自适应策略
在实际应用中,我们常面临数据稀缺或获取成本不一的问题。多保真度建模致力于融合来自不同保真度(精度和成本)源的信息,例如结合少量高精度仿真数据和大量低精度数据,以低成本获得高精度代理模型。方法包括基于协关系的标度、空间映射以及基于高斯过程回归 (GPR) 的多保真度克里金法等。
另一个关键问题是如何高效采样。在参数空间中选取哪些点来运行昂贵的高保真模型,才能以最少的样本获得最好的代理模型?这引出了自适应采样和实验设计的研究。此外,当初始数据集不足时,可以利用数据增强技术,例如通过合成少数类过采样技术 (SMOTE) 或基于生成模型创造新数据,来丰富训练集,提升模型鲁棒性。
总结与展望
本文系统回顾了构建参数系统代理模型的物理学与数据驱动方法及混合范式,并将其统一于函数逼近的框架下进行分析。POD、PGD和神经网络代表了构建约简基的不同哲学,各有其适用场景和优劣。多保真度建模和自适应采样等技术则是提升代理模型实用性、应对数据挑战的关键交叉赋能工具。
未来,该领域的研究将朝着几个方向发展:一是开发更具表达力和可解释性的非线性降维与代理建模方法,以处理更复杂的解流形;二是深化物理与数据的融合,发展更强大的物理信息机器学习框架;三是提升代理模型在不确定性量化和外推预测方面的可信度;四是优化算法以实现极端尺度下的高效计算。最终,这些进展将为构建高效、可靠、可扩展的下一代数字孪生技术奠定坚实的基础,推动科学发现与工程创新。