作者:Alireza Afzal Aghaei, Mehdi Hosseinzadeh, Kourosh Parand
所属机构:伊朗伊斯法罕的独立研究者
摘要
科尔莫戈洛夫-阿诺德网络(Kolmogorov-Arnold Networks, KANs)的发展标志着深度学习领域从传统多层感知器模型的重大转变。最初,KANs使用可学习的B样条曲线作为主要基函数,但其固有的复杂性给实现带来了挑战。因此,研究人员探索了其他基函数,如小波、多项式和分数函数。本文探讨了将有理函数作为KANs的新基函数的应用。本文提出了两种基于帕德逼近(Padé approximation)和有理雅可比函数(rational Jacobi functions)的方法来定义有理KAN(rKAN)。通过多个领域的研究验证了rKAN的性能,包括深度学习和基于物理知识的深度学习:在MNIST分类任务中准确率达到99.29%,在文本情感分析中准确率为86.6%,并且在大约200个训练周期内解决了CartPole强化学习问题。
引言
神经网络已成为现代机器学习中的重要工具,推动了回归、图像分类、自然语言处理和科学计算等领域的进步(Fares等人,2025b)。它们成功的关键在于能够有效逼近复杂函数。激活函数的选择作为基函数,对预测的表达能力和准确性起着决定性作用。与传统架构(如多层感知器MLPs)不同,Kolmogorov-Arnold网络(KANs)通过自适应学习函数(Abd Elaziz等人,2024;Fares等人,2025a;Kiamari等人,2024;Liu等人,2025)提升了性能。
KANs代表了一类新的神经网络架构,它们以一维函数的组合作为主要操作方式,取代了传统的线性变换和非线性激活函数。这种设计不仅提高了准确性和函数逼近能力,还使得使用简单、可调的一维函数作为非线性项成为可能。这类函数的例子包括样条、多项式、傅里叶变换、小波和分数函数(Somvanshi等人,2024)。
每种基函数都有其独特的优势,但它们的局限性往往限制了其在特定问题领域的应用。例如,样条函数虽然保证了平滑性和灵活性,但计算效率较低且具有局部性(Liu等人,2025);多项式基函数计算效率高,但存在Runge现象等不稳定问题,影响了高阶逼近的可靠性(Boyd,1992);傅里叶级数和小波等特殊函数在处理周期性数据时效果显著,但在其他领域泛化能力较差(Bozorgasl和Chen,2024)。这些局限性的共同点在于难以高效建模具有全局行为的函数,如奇点或特定渐近趋势。
有理逼近通过两个多项式的商来构造,直接解决了这些问题。它们特别适用于具有渐近行为或奇点的函数,并且天然克服了高阶多项式的不稳定性,同时保持了计算效率(Babaei等人,2024;Boullé等人,2020;Sun和Yang,2023;Tiller,1983)。帕德逼近是一种特殊类型的有理逼近,以其高精度而闻名,在控制理论和复分析等领域展现了价值(Baker和Gammel,1961;Boyd,2001)。尽管这种方法有潜力解决现有KAN基函数的局限性,但尚未在KAN框架中得到应用。我们的工作通过两种创新方法将有理基函数整合到KANs中:
- 帕德逼近(Padé Approximation):我们将有理函数表示为两个可学习雅可比多项式展开式的商。该技术的核心是在KAN内部构建可学习的边缘函数,每个函数都是通过两个可训练雅可比多项式级数的商得到的帕德逼近。
- 雅可比多项式的有理映射(Rational Mapping of Jacobi Polynomials):我们对雅可比多项式的输入进行有理变换,将其定义域从有限区间扩展到整个实数线,非常适合处理无界输入。这种方法所需的参数和超参数更少,评估也更简单,从而加快了训练速度(Babaei等人,2024)。
我们提出的方法将在多个任务中进行评估,包括回归、图像和文本分类、强化学习以及微分方程求解。结果表明,与传统KANs和其他基线方法相比,该方法在需要处理具有渐近行为的场景中表现更优。
本文的其余部分安排如下:第2节回顾了神经网络中有理函数的相关研究;第3节提供了工作的初步准备;第4节详细介绍了所提出的方法,包括通过帕德逼近和映射雅可比多项式实现有理函数;第5节展示了各种任务下的实验设置和结果;第6节总结了研究发现和未来研究的方向。
相关研究
Leung和Haykin(1993)首次提出了在神经网络中使用有理函数的方法,他们引入了基于有理函数逼近的前馈架构——有理函数神经网络(RFNN)。RFNN使用线性自适应滤波算法(如递归最小二乘算法),无需非凸优化技术即可实现高效的参数估计和全局优化。
本节为提出rKAN提供了一些必要的定义。
本节介绍了构建有理KAN的两种方法:一种基于著名的帕德逼近,另一种基于雅可比多项式的有理形式。第一种方法涉及两个多项式的除法,通常称为帕德逼近。这种方法通常使用泰勒多项式作为基函数(Boullé等人,2020)。然而,随着多项式阶数的增加,这种选择可能导致数值不稳定,例如Runge现象。
在本节中,我们在各种实际和工程任务中评估了所提出的有理KAN。实验表明,仅使用一个有理基函数ϕ作为网络的激活函数可以获得优于其他方法的结果,因此我们在所有模拟中都采用了这种方法。所有实验均使用Python和PyTorch/TensorFlow库实现,实验在配备Intel处理器的PC上进行。
本文解决了现有Kolmogorov-Arnold网络的一个关键局限性:它们依赖于样条或标准多项式作为基函数,而这些基函数难以处理具有全局行为(如奇点或渐近衰减)的函数。我们的主要目标是证明将有理函数作为核心可学习基函数可以克服这些挑战,提高准确性和参数效率。我们通过引入两种新方法成功证明了这一点。
利益冲突:作者声明没有利益冲突。
资金支持:无。
CRediT作者贡献声明:
Alireza Afzal Aghaei:撰写初稿。
Mehdi Hosseinzadeh:撰写、审稿和编辑,资源协调。
Kourosh Parand:撰写初稿,项目管理。
作者声明没有已知的财务利益或个人关系可能影响本文的研究结果。