摘要:符号回归(Symbolic Regression, SR)是一种强大的技术,用于从观测数值数据中发掘描述数据的解析数学表达式。传统SR模型处理表格形式的数据,施加纯粹的函映射关系而不考虑底层时空依赖性或控制物理定律,此类方法不适用于物理问题——物理问题中数据随时间和空间动态演化并受常/偏微分方程(Ordinary/Partial Differential Equations, ODEs/PDEs)支配。此外,由于SR的性能常以从相对较少的数据中获取泛化方程的能力来衡量,高效地表示数据对其性能至关重要。本研究提出一种简洁而强大的求解器无关(solver-agnostic)SR拟合方法,采用双重表示——一种保留可解释性,另一种为物理信息化的表示。主要创新在于将标准表格表示与基于图的时空表示结合到统一的SR拟合框架中,可在不修改现有SR求解器内部搜索机制的情况下增强其性能。具体而言,该方法同时使用表格和基于图的数据表示,图中节点关联时空坐标和动态状态变量,边编码空间或时间依赖性。该方法通过隐式纳入时空模式和约束,可直接生成描述底层物理系统的微分方程。在源自函数、常/偏微分方程(O/PDE)、积分方程和时滞ODE的多组合成数据集上的基准测试表明,所提方法即使在噪声环境下也能高精度恢复控制方程,开箱即用式地改进了多种SR方法的性能。结果表明,用基于图的时空结构丰富SR为迈向更鲁棒且物理一致的方程发现提供了一条可行路径。同时,当前框架假设可构建有意义的时空邻域结构,且主要在受控合成基准系统上得到验证。
论文解读:《从表格到图——物理信息时空符号回归》发表于《Scientific Reports》
一、研究背景与问题提出
符号回归(Symbolic Regression, SR)旨在从数据中自动发现可解释的解析数学表达式,区别于黑箱机器学习模型和预设形式的统计回归,SR能得到科学家可直接分析的方程形式,在物理学中尤为受关注——物理学的目标本就是揭示描述自然规律的控制方程(如ODEs/PDEs)。然而,现有SR方法存在两个关键局限:第一,传统SR将时空物理数据视为独立同分布的表格样本,忽略了物理量在时空中的局部相互作用与演化依赖性(即微分算子所描述的邻域关系),导致模型虽能拟合数据却无法捕捉底层动力学;第二,SR通常仅搜索代数映射关系,未显式纳入系统受ODEs/PDEs支配这一物理先验,使得发现的"方程"可能缺乏物理意义、泛化能力差。尽管Physics-Informed Symbolic Regression(PiSR)和Physics-Informed Neural Networks(PINNs)有所进展,前者仍需修改搜索策略,后者多为黑箱且解释性不足。因此,研究人员开展了本研究,提出一种求解器无关的双重数据表示方法,在不改动任何现有SR求解器内部机制的前提下,将时空图结构引入SR拟合过程,以提升物理方程发现的准确性、噪声鲁棒性和数据效率。
二、主要关键技术方法
研究人员构建了时空网格图:节点为时空观测点(含坐标(x,y,z,t)及状态量f_i),边分空间边(同时间步邻近空间点)与时间边(同空间点相邻时刻),由阈值ε_S、ε_T或kNN确定。图经Graph Convolutional Network(GCN)编码器进行消息传递得到物理感知潜嵌入h_i(L),GCN以自监督重构节点特征及时间有限差分一致性为损失预训练并冻结参数。SR候选表达式E经数值模拟器S_E生成合成轨迹,通过GCN得潜嵌入ĥ_i(k),总目标函数J(E)由四项加权组成:原始空间重构误差L_raw(E)(含可选有限差分约束)、潜空间一致性误差L_latent(E)(节点级L2+最大均值差异MMD)、模型复杂度与符号树规模惩罚R_cmp(E)、物理约束残差R_phys(E)(边界/初值条件及对称性symm(E)惩罚)。实验选用10种SR算法(gplearn、PySR、SINDy、FLEXPDE-SR、SciMED、EQL、Deep Symbolic Regression(DSR)、AI-Feynman、Symbolic PINN、GP-SR),在10类物理基准方程(函数、ODE、PDE、积分、时滞ODE各两例)的合成数据集上,对比表格表示与表格+图双重表示在干净/加噪/少数据三种设置下的表现,评估指标为平均绝对误差(Mean Absolute Error, MAE)、决定系数R²及表达式树相似度(Expression Tree Distance, ETD)。
三、研究结果
Baseline models(基线模型)
研究人员选取涵盖遗传编程(gplearn、PySR)、稀疏回归(SINDy、FLEXPDE-SR)、深度学习与混合架构(SciMED、EQL、DSR、AI-Feynman)及物理信息/概率形式(Symbolic PINN、GP-SR)共10种SR求解器作为基线,确保算法范式多样性。
Datasets(数据集)
研究人员从五类物理方程(函数、ODE、PDE、积分、时滞ODE)各取两例构建十个基准系统,数值模拟生成时空数据,每样本加入三个与真方程无关的结构化干扰特征和独立高斯噪声特征η,输入/输出变量可加可控高斯噪声(σ_n为信号幅值1%),共生成K=1000次独立实现,时空离散为N_t=100时间步与N_x=100空间点。
Experiments(实验设计与结果)
第一实验对比表格表示与双重表示下各SR模型的MAE、R²、ETD。结果显示双重表示在所有模型与指标上一致改善或持平,相对提升约1%–3%;其中PySR与SINDy等进化/稀疏回归方法符号匹配得分提升达25%–40%、MAE降低15%–30%,SciMED与Symbolic PINN已达低误差水平但也获稳定增益。
第二实验逐步增大高斯噪声(σ_n∈[0,0.05])。表格-only基线随噪声退化明显,而双重表示将MAE与ETD恶化速率压低10%–15%,深度学习和物理信息类方法本身较鲁棒,双重表示进一步增强抗噪性。
第三实验递减训练样本量(10%–100%)。双重表示使SR模型仅需约60%–70%的实验数据即可达到表格-only基线的渐近精度,对SciMED、FLEXPDE-SR和EQL尤为显著,证明图编码提供的时空上下文促进小样本下方程恢复。
Graph embedding implementation(图嵌入实现)
研究人员采用两层GCN:H(k)=Φ_Θ(G(k),F(k))=ReLU(A(k)F(k)W_1)W_2,A(k)为归一化邻接矩阵(边权重隐含空间/时间邻域信息),W_1、W_2为可学习参数;配套MLP解码器联合训练以重构特征及时间差分,训练后冻结Φ_Θ丢弃解码器。此具体实现符合一般消息传递框架,边属性通过邻接矩阵构造间接参与聚合。
四、讨论与结论总结(翻译并浓缩讨论中结论部分)
研究人员提出并验证了将传统表格数据与时空图表示相结合的双重表示方法用于物理信息符号回归,克服了传统SR忽略样本时空依赖及未纳入微分方程结构的缺陷。通过在十种SR算法和十类物理基准方程上的综合实验证明:(1)双重表示普遍提升SR恢复控制方程的数值精度(MAE降低)与符号保真度(ETD提高),尤其使纯进化或稀疏回归方法获益显著;(2)在噪声条件下双重表示减缓性能退化,表现出更好的鲁棒性;(3)在数据稀缺时可用少约30%–40%样本达到同等发现效果,数据效率高。GCN编码器习得的潜空间具平滑去噪效应,同一物理规律下节点聚簇、不同规律分离。该方法可作为辅助约束无缝嵌入现有SR流程,无需修改求解器内核。当前局限包括:GCN与SR分阶段独立训练、假定已知时空拓扑(无坐标时需图结构学习)、限于合成受控数据验证、未针对超高维变量做专门降维、未比较其他非GNN潜空间编码策略、采用标准有限差分近似导数。未来工作应拓展至真实实验数据、联合优化SR–GNN、多场耦合动力学及结合神经代理模型实现自动微分求导。总之,用物理信息图结构丰富SR显著增强了从有限带噪数据中发现物理解释性控制方程的能力,在纯粹数据驱动与物理引导建模间建立了桥梁。