基于物理学原理的神经网络方法用于求解非线性波动方程：以Rosenau-Hyman方程和Sharma-Tasso-Olver方程为例

时间：2026年5月15日

来源：Scientific African

编辑推荐：

瓦利德·阿德尔|亚辛·萨巴尔|科塔卡兰·苏皮·尼萨尔纳米电子集成系统中心，尼罗河大学，吉萨，12588，埃及摘要本研究探讨了物理信息神经网络（PINNs）在非线性色散波动方程中的应用，重点关注Rosenau-Hyman（RH）和Sharma-Tasso-Olver（STO

瓦利德·阿德尔|亚辛·萨巴尔|科塔卡兰·苏皮·尼萨尔
纳米电子集成系统中心，尼罗河大学，吉萨，12588，埃及

摘要
本研究探讨了物理信息神经网络（PINNs）在非线性色散波动方程中的应用，重点关注Rosenau-Hyman（RH）和Sharma-Tasso-Olver（STO）模型。尽管PINNs在Burgers方程、Korteweg–de Vries（KdV）和Schrödinger方程等基准问题上已经得到了广泛验证，但它们在具有非线性色散、紧支撑和高阶导数相互作用的非线性色散系统中的应用仍然相对有限。RH方程支持由非线性色散产生的紧支撑孤立波（compactons），这些波在波边界处引入了导数不连续性，给自动微分和训练稳定性带来了额外挑战。同样，STO方程结合了非线性平流和三阶导数相互作用，导致了由陡化和色散相互作用驱动的丰富波动动力学。所提出的框架将控制偏微分方程（PDEs）、初始条件和边界条件嵌入到一个复合损失函数中，并利用自动微分来无网格地计算高阶导数。数值实验显示，该方法能够准确重建compactons和色散孤立波，并且在时空域内与解析解有很好的一致性。该方法在稀疏配置采样下仍然稳定，并且能够很好地扩展到较长的时间范围。定量误差分析证实了对非线性波动动力学的的高保真近似。这些结果扩展了PINNs的应用范围，使其不仅适用于经典的平滑孤子方程，还适用于结构更复杂的非线性色散系统，并为未来扩展到逆问题、噪声数据场景和高维模型奠定了基础。

引言
偏微分方程（PDEs）是科学和工程中模拟各种物理现象的数学基础，包括不可压缩和可压缩流体动力学、声波和电磁波传播、热和质量传递以及非线性色散过程[1]、[2]。其中，非线性PDEs对于捕捉复杂且非平凡的行为（如孤子相互作用、冲击波形成、compacton传播和色散冲击波）尤为重要[3]，这些现象无法通过线性模型充分描述[3]。
非线性PDEs的解析研究通常具有挑战性，因为非线性项和高阶导数引入了复杂性[4]。因此，闭式解通常只存在于涉及可积性、对称性简化或理想化边界条件的特殊情况中[4]。这些限制促使人们开发了一系列数值和半解析方法来在更一般的情况下近似解[5]。经典方法包括在结构化网格上离散PDEs的有限差分方法、使用全局基函数在平滑区域保证准确性的谱方法，以及适用于小参数的渐近展开的扰动技术[6]。这些方法已经广泛用于研究非线性波传播[6]。尽管这些方法很有效，但它们通常计算成本高、数值不稳定，并且在处理具有陡峭梯度、复杂几何形状或局部解的问题时存在困难。
在模拟孤立波和色散波现象的非线性PDEs中，Rosenau-Hyman（RH）和Sharma-Tasso-Olver（STO）方程引起了相当大的关注。RH方程由Rosenau和Hyman提出[7]，用于模拟产生紧支撑孤立波（compactons）的非线性色散波。这些波与受Korteweg–de Vries（KdV）方程控制的经典孤子不同，后者具有无限的空间尾部[8]。RH方程结合了非标准非线性色散，平衡了陡化和色散效应，产生形状稳定的局部波形。这种非线性色散虽然物理上是有意义的，但也引入了分析和数值上的挑战，需要专门的数值方案，如紧凑的有限差分方法和保持结构的积分器[9]。STO方程最初由Sharma和Tasso提出[10]，通过引入高阶导数项和非线性平流-色散相互作用，扩展了经典的非线性波模型。该方程表现出更广泛的非线性波行为，并支持在长时间和空间尺度上持续存在的平滑孤立波。已经采用了多种数学技术，包括Hirota的双线性方法[11]、李群对称性分析[12]和变分扰动方法[13]来获得精确的行波和孤立波解。尽管取得了这些进展，但对对称性假设或可积性条件的依赖限制了这些解析方法的通用性，特别是在具有复杂初始条件和边界条件的现实世界场景中。
近年来，机器学习（ML）作为科学计算中的变革性范式出现，为建模复杂系统和求解微分方程提供了强大的工具。数据驱动的方法，包括前馈和卷积神经网络，已被用于从传统求解器生成的大型数据集中近似PDE解[14]、[15]、[16]。尽管这些方法有效，但它们通常受到需要大量标记数据的限制，这在高维或实时环境中可能计算成本高昂或实际不可行。为了克服这些限制，开发了物理信息机器学习框架，将物理定律直接集成到神经网络中。物理信息神经网络（PINNs）最初由Raissi等人提出[17]，因其能够将控制PDEs及其相关的边界和初始条件编码到网络损失函数中而受到广泛关注。通过自动微分最小化PDE残差，PINNs在从稀疏或噪声数据中学习时强制物理一致性，使其在数据有限的问题以及求解正向和逆问题方面非常有效[17]。与传统数值方法不同，PINNs是无网格的、灵活的，非常适合具有复杂域、异质介质和可变边界条件的问题[18]、[19]、[20]。PINNs在广泛的应用中展示了显著的多功能性，包括Burgers方程[17]、Korteweg–de Vries（KdV）方程[21]、不可压缩的Navier–Stokes方程[22]、时间依赖的Schrödinger方程[23]和模拟异常传输过程的分数阶PDEs[24]。最近的先进架构，如DeepONets和神经运算符，进一步提高了它们在高维、耦合或随机系统中的可扩展性和准确性[25]。
尽管物理信息神经网络（PINNs）在Burgers方程、Korteweg–de Vries（KdV）和Schrödinger方程等基准非线性PDEs方面发展迅速，但它们在具有非线性色散、紧支撑和高阶导数相互作用的非线性色散系统中的应用仍然相对有限。特别是Rosenau-Hyman（RH）和Sharma-Tasso-Olver（STO）方程引入了结构复杂性，而这些在常见的平滑孤子模型中不存在。RH方程支持具有有限空间支撑的compactons——其导数在波边界处的不连续性给自动微分和神经近似的稳定性带来了额外挑战。与KdV方程中的线性色散项不同，RH模型涉及非线性色散，增加了对参数变化和训练稳定性的敏感性。同样，STO方程结合了非线性平流和三阶导数相互作用，导致更丰富的波动动力学和陡化与色散效应之间的更强耦合。表1强调了这些类型方程之间的差异。本研究通过扩展PINN框架来准确重建这些研究较少的非线性色散模型的解，解决了这些挑战。我们开发了一种稳健的物理信息训练策略，将控制PDEs、初始条件和边界条件嵌入到一个复合损失公式中，同时在稀疏配置采样下保持稳定性。所提出的框架准确地恢复了紧支撑和高阶孤立波结构，强调了其在处理超出标准PINN基准方程的复杂非线性动力学方面的鲁棒性。本研究的关键贡献总结如下：
1. 将PINN框架扩展到涉及非线性色散和紧支撑孤立波（RH方程）的非线性色散PDEs，这些在结构上比经典平滑孤子方程更具挑战性。
2. 在统一的PINN架构中系统地研究了STO方程中的高阶非线性导数相互作用。
3. 通过自动微分展示了具有非线性三阶动力学的方程的高阶导数的稳定和准确计算。
4. 在稀疏配置采样下验证了鲁棒性，使用有限的训练数据显示出可靠的解重建。
5. 使用相对L2范数和点误差指标对解析解进行了定量验证，以评估性能。
本文的其余部分组织如下：第‘所提出的PINN框架的方法论和架构’部分介绍了方法和问题设置。第‘计算结果和数值模拟’部分展示了RH和STO方程的数值实验和结果。第‘讨论和结论’部分提供了结论性意见，并讨论了潜在的未来方向。

表1. 常见研究的PINN基准方程与本研究中研究的非线性色散模型之间的结构比较

模型 | 非线性色散 | 紧支撑 | 第三阶非线性 | 稀疏数据
--- | --- | --- | --- | ---
Burgers [17] | ××× | ✓ | × | ×
KdV [21] | ××× | ✓ | × | ×
Schrödinger [26] | ××× | ✓ | × | ×
RH（本研究） | ✓ | ✓ | ✓ | ✓
STO（本研究） | ✓ | × | ✓ | ×

所提出的PINN框架的方法论和架构
本部分详细描述了为求解非线性色散偏微分方程（特别是RH和STO模型）而开发的PINN架构。与传统神经网络不同，后者完全依赖于大型数据集进行监督学习，PINNs通过将控制PDEs及相关边界和初始条件嵌入到网络损失函数中来整合物理定律[17]。传统的神经网络，如CNN和RNN，通过从大量训练语料库中学习复杂的输入-输出关系，从而革新了图像分类和自然语言处理等任务。然而，当应用于受PDEs控制的物理系统时，纯粹的数据驱动模型往往泛化能力较差，需要大量标记的数据，并可能违反重要的约束，如守恒定律或边界条件。
PINNs通过在神经网络的训练阶段直接嵌入领域知识来克服这些限制。PINN框架不仅依赖数据监督，还通过基于物理的成分来增强损失函数，该成分通过对控制方程的残差进行自动微分来对其进行惩罚。这种混合公式使得从稀疏和噪声数据中准确学习解成为可能，同时保持了与物理模型的一致性。
考虑在有限时空域Ω⊂Rd×[0,T]上定义的一般PDE，其边界为∂Ω。PDE可以表示为：(1)N[u(t,x)]=0, (t,x)∈Ω，受限于：(2)B[u(t,x)]=0, (t,x)∈∂Ω，其中N[⋅]是一个（可能是非线性的）微分算子，如在RH或STO方程中出现的算子，B[⋅]表示边界或初始条件算子，可能是Dirichlet、Neumann或Robin类型的。
为了近似解u(t,x)，我们定义了一个由权重和偏置θ参数化的神经网络uθ(t,x)。网络必须满足两个基本约束：它应该在训练点匹配已知的u观测值，并遵循底层的PDE动力学。PINN框架优化了一个复合损失函数，平衡了控制PDE残差、初始条件和边界条件。总损失函数表示为：L=λfLf+λ0L0+λbLb，其中：
- Lf通过最小化配置点的残差误差来强制执行PDE的物理约束。
- L0确保与规定的初始条件一致。
- Lb确保沿空间域边界的边界条件得到满足。
权重λf、λ0和λb是调整参数，用于控制训练过程中PDE残差、初始条件和边界条件项的相对重要性。在这里介绍的所有实验中，这些权重都被设置为1，因为这产生了稳定的收敛。前述要求通过复合损失函数得到满足。(3)Ltotal=Ldata+λLPDE，其中λ>0平衡了数据保真度和物理一致性项。
设{(tiu,xiu)}i=1Nu表示解u已知的位置（例如，边界或初始数据），并设{(tif,xif)}i=1Nf是从Ω采样的配置点。那么：(4)Ldata=1Nu∑i=1Nu|uθ(tiu,xiu)−u(tiu,xiu)|2，(5)LPDE=1Nf∑i=1Nf|N[uθ](tif,xif)|2。这里，N[uθ]是PDE残差，导数使用自动微分（AD）计算，无需显式离散化即可获得准确的梯度和高阶导数。
训练目标是最小化Ltotal，使用基于梯度的优化器（例如Adam或L-BFGS），使网络能够学习满足观测约束和控制方程的函数uθ(t,x)。PINN框架本质上是无网格的，允许灵活处理不规则几何形状、移动边界和参数识别。该框架还适用于耦合系统、高维模型和具有未知系数的逆问题。为了澄清整个过程，图1示意性地展示了PINN训练的架构和流程，强调了通过统一的深度学习框架同时执行数据和物理约束。从图中可以看出，神经网络接收时空坐标作为输入，并输出解uθ(t,x)的近似值。网络通过最小化一个复合损失函数进行训练，该函数惩罚数据不匹配（例如，初始/边界条件）和域内配置点的PDE残差。导数使用自动微分（AD）计算，确保网络预测符合控制方程中编码的物理定律。最后，PINN的算法在算法1中描述。该网络接收时空坐标作为输入，并输出uθ(x,t)，其导数通过自动微分（AD）计算得出。计算结果和数值模拟在本节中，我们展示了一组全面的计算实验，以评估所提出的PINN框架在解决Rosenau-Hyman（RH）和Sharma-Tasso-Olver（STO）非线性波动方程方面的性能。模拟是在定义明确的空间-时间域上进行的，初始和边界条件在已知解析解的情况下直接引用，作为模型验证的基准。所有实验中使用的神经网络架构和训练设置在“所提出的PINN框架的方法论和架构”部分中有详细描述。简要来说，PINN采用全连接前馈架构，每层有20个神经元，激活函数为tanh，并使用L-BFGS拟牛顿求解器进行批量优化，最多迭代1500次。在域的内部使用随机采样的配置点（Nf=10,000个），以及N0=50个初始条件点和Nb=25+25个边界条件点，以无网格的方式强制符合物理约束。PINN生成解决方案的质量通过多种定量指标进行评估，包括逐点绝对误差、相对L2范数误差、损失值以及与参考解的视觉比较。通过热图、线图和3D表面图进一步展示了PINN方法的有效性。这些结果证实了该模型能够在不依赖精细网格或特定问题数值离散化的情况下，恢复复杂的非线性行为，如(compacton)结构和色散波现象。为了对所提出的PINN框架进行严格的定量评估，我们报告了在整个时空评估网格上相对于参考解析解计算的相对L2、绝对L2和L∞误差。相对L2误差定义为(6)‖e‖L2rel=‖uPINN−uexact‖L2/‖uexact‖L2，而绝对L2误差和L∞误差由(7)‖e‖L2=‖uPINN−uexact‖L2和‖e‖L∞=max|uPINN−uexact|给出。

数值实验1：Rosenau-Hyman型非线性色散方程在我们的第一个数值实验中，我们研究了所提出的PINN框架对Rosenau-Hyman型非线性色散模型的性能，该模型的特点是平流和三阶色散相互作用之间存在强烈的非线性耦合。本研究中考虑的控制方程为(8)ut−uuxxx−uux−3uxuxx=0，(x,t)∈[a,b]×[0,T]，其中下标x和t表示偏微分。方程(8)包含非线性平流uux和色散相互作用uuxxx及uxuxx，这使得它成为一种对物理信息要求很高的训练测试。模型中每个参数的物理解释如下：•非线性对流项uux负责振幅依赖的波形陡化。振幅较大的区域传播速度更快，导致形成更尖锐的波前和局部结构。•高阶非线性色散项uuxxx+3uxuxx引入了色散扩散机制。这些项通过重新分配能量来抵消非线性引起的陡化，防止波的破裂。•非线性陡化和色散之间的平衡决定了(compacton)的形成、宽度和稳定性。当这些效应适当平衡时，方程支持在传播过程中保持振幅和形状的紧凑孤立波。问题在时空域(x,t)∈[a,b]×[0,T]上提出，初始条件为(9)u(x,0)=−83cos2x4，x∈[a,b]，并且时间依赖的狄利克雷边界条件由参考解(10)u(a,t)=−83cos2a−t4，u(b,t)=−83cos2b−t4，t∈[0,T]给出。为了验证，我们采用了以下参考行波剖面：(11)u(x,t)=−83cos2x−t4，用于生成初始和边界数据，并量化PINN的近似误差。模拟结果在图2、图3和表2中展示，表2总结了训练收敛后获得的最终误差值。图2展示了孤立波随时间的动态演变，突出了其在传播过程中形状和振幅的保持。PINN预测的解与解析剖面非常吻合，整个轨迹上都保持了孤子的振幅和紧凑结构。图3提供了解的详细可视化。子图(a)展示了PINN预测的波形，子图(b)显示了精确的解析解，子图(c)显示了两种解之间的绝对误差分布。结果证明了PINN在捕捉非线性波动力学方面的准确性和鲁棒性。观察到的最大误差小于2×10^-3，证实了所提框架的高精度。最后，PINN训练过程的收敛行为反映在表2报告的误差测量中。如表所示，对于λ=0.5和1.0的不同值，相对L2误差和绝对L2误差都达到了较低的值，表明在L-BFGS求解器下优化是稳定且高效的。

下载：下载高分辨率图像（315KB）
下载：下载全尺寸图像

图2. 在t=0,0.25,0.5,0.75,1.0时，PINN预测的Rosenau–Hyman方程（方程8）的孤子解。实线蓝色：PINN预测；虚线红色：精确解析解。

下载：下载高分辨率图像（479KB）
下载：下载全尺寸图像

图3. Rosenau-Hyman（RH）方程（方程8）的数值结果。(a) 在时空域上的PINN预测的紧凑波解决方案。(b) 相应的精确解析紧凑波剖面。(c) 绝对逐点误差；最大观察误差低于2×10^-3。

表2. 对所提出的PINN框架用于Rosenau-Hyman型方程的定量验证。

架构 λ 最终损失 ‖e‖L2rel ‖e‖L2 ‖e‖L∞
8 × 20 1.0 6.85×10^-5 2.10×10^-3 2.96×10^-1
6 × 20 0.5 3.09×10^-5 1.49×10^-3 2.10×10^-1
5 × 20 5.89×10^-3

数值实验2：Sharma-Tasso-Olver（STO）方程在第二个实验中，我们将所提出的PINN框架应用于解决Sharma-Tasso-Olver（STO）方程，这是一个以丰富的非线性和色散波相互作用而闻名的三阶非线性演化方程。STO方程包含二次非线性、非线性扩散和色散效应，导致产生行波和折痕型解。本研究中考虑的STO方程的标准化形式为：(12)ut+3u2ux+3uuxx+3ux2+uxxx=0，其中：
• 项3u2ux代表非线性对流和振幅依赖的陡化。
• 组合项3uuxx+3ux2引入了非线性扩散相互作用。
• 三阶导数uxxx考虑了线性色散。
与Korteweg–de Vries（KdV）方程不同，STO方程包含额外的非线性导数项，这显著增加了解结构的复杂性以及对初始和边界条件的敏感性。非线性陡化和色散之间的相互作用产生了在传播过程中保持一致性的行波剖面。为了评估PINN模型的鲁棒性和准确性，我们考虑了行波解：(13)u(x,t)=11+et−x，它代表沿着空间域传播的平滑单调波。相应的初始条件为：u(x,0)=11+e−x，以及直接从解析解获得的边界条件：u(a,t)=11+et−a，u(b,t)=11+et−b。这种配置使得可以直接对PINN的预测与精确解进行定量验证。图4展示了不同时间点上PINN预测和解析解的比较。预测的剖面准确捕捉了单调波结构、传播速度和空间域上的振幅保持。既没有观察到虚假振荡，也没有人为的数值扩散，表明方程(12)中编码的非线性-色散平衡被物理信息驱动的训练过程忠实地再现了。更详细的可视化在图5中提供，其中子图(a)展示了时空域上的预测解，子图(b)显示了精确的解析解，子图(c)-(d)分别展示了等高线和绝对误差分布。误差表面在整个域上保持均匀较小，证明了三阶导数相互作用的学习稳定性和边界及初始约束的一致性。定量验证结果总结在表3中。报告的相对L2和L∞误差证实了对解析解的高保真近似。特别是，相对L2误差保持在10^-3的数量级，而最大逐点偏差对于两种网络配置都低于10^-2。不同网络深度（20×8和20×6）和不同的λ值的比较进一步表明，该框架在网络深度和损失权重发生变化时仍能保持稳定性和准确性。这些结果共同表明，所提出的PINN框架不仅实现了低数值误差，还保留了STO方程的基本定性动力学。波振幅、传播速度和平滑色散结构的准确重建证实了PINN框架成功地内化了控制方程的非线性陡化和三阶色散平衡，而不仅仅是插值解析解。

下载：下载高分辨率图像（232KB）
下载：下载全尺寸图像

图4. 在t=-2,−1,0,1和2时，STO方程的PINN预测（实线蓝色）和精确解析（虚线红色）解。

下载：下载高分辨率图像（501KB）
下载：下载全尺寸图像

图5. STO方程的详细PINN模拟结果。(a) PINN预测的孤立波解。(b) 相应的精确解析解。(c) (c) (x,t)域中预测解的等高线图。(d) 强调近似误差分布和大小的绝对误差表面。

表3. 对所提出的PINN框架用于Sharma Tasso型方程的定量验证。

架构 λ 最终损失 ‖e‖L2rel ‖e‖L2 ‖e‖L∞
20 × 8 1.0 4.91×10^-5 7.31×10^-3
20 × 6 0.5 3.58×10^-5 6.46×10^-3

注1：除了数值精度之外，获得的结果还关于RH和STO方程控制的波动力学具有重要的物理意义。在RH模型中，compacton的形成是非线性对流和非线性色散之间微妙平衡的结果。这种平衡确保了传播过程中的有限空间支持和形状保持。PINN预测的解准确地再现了这一决定性特征：波浪保持其紧凑结构，没有产生人为的振荡或色散尾部，表明物理信息驱动的训练过程正确捕捉了非线性-色散平衡。compacton剖面随时间的稳定性反映了网络保持RH方程内在传播机制的能力，而不仅仅是最小化逐点误差。对于STO方程，非线性对流和三阶色散效应之间的相互作用决定了孤立波的振幅、宽度和传播速度。PINN解一致地再现了这些定性特征，包括振幅保持和在参数变化下的平滑色散扩散。观察到的稳定性和准确的波速表示表明，网络成功地内化了非线性陡化和高阶色散之间的控制平衡。这些发现表明，PINN框架不仅仅是插值解析解，而是学习了非线性色散波传播的潜在物理结构。因此，该方法保留了compacton稳定性和非线性色散平衡的基本定性动力学，扩展了框架在结构复杂波方程中的适用性。

讨论与结论在这项工作中，我们研究了物理信息驱动的神经网络（PINNs）在解决非线性色散波方程中的应用，特别关注Rosenau-Hyman（RH）和Sharma-Tasso-Olver（STO）模型。通过将控制方程、初始条件和边界条件嵌入到一个复合损失函数中，并利用自动微分来计算高阶导数，所提出的框架实现了紧凑波和孤立波解的准确且稳定的无网格近似。与通常研究的PINN基准方程（如Burgers’或KdV模型）不同，RH方程涉及非线性色散，并支持紧凑支持的孤立波，由于波边界处的非平滑导数行为而引入了额外的结构复杂性。STO方程进一步结合了非线性对流与三阶导数相互作用，导致对参数变化的敏感性和陡化与色散之间的更强耦合。这些波结构的成功重建表明，PINNs能够有效处理比经典平滑孤子方程更复杂的非线性色散系统。数值实验证实了与解析解的高保真一致性、低相对L2误差以及在稀疏配置采样下的鲁棒性。这些发现突显了PINNs在不需要密集离散化网格的情况下近似复杂非线性动力学的能力。未来的研究方向包括将框架扩展到逆参数识别问题、结合噪声或部分观测数据，以及将方法适应于多维或耦合非线性系统。先进的神经算子架构为提高可扩展性和效率提供了有希望的方向。

CRediT作者贡献声明：
Waleed Adel：概念化、方法论、形式分析、数据管理、软件、研究、原始草稿编写、审阅与编辑、监督。
Yassine Sabbar：概念化、方法论、原始草稿编写、审阅与编辑、可视化。
Kottakkaran Sooppy Nisar：概念化、方法论、形式分析、原始草稿编写、审阅与编辑。

未引用的参考文献：[27], [28], [29]

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部