当代神经科学已经确定,成人大脑大约包含860亿个神经元[1],它们的集体活动支撑了认知功能。这一生物学特性激发了人工智能模型的建立,例如McCulloch Pitts感知器[2]和树突神经元模型(DNM,见图1)[3]。DNM是一个生物学上合理的框架,它将计算原理与神经生物学见解相结合,其非线性、可解释性[4]、[5]、[6]和计算效率使其在分类、回归和预测等多种任务中得到了成功应用[3]、[7]、[8]、[9]、[10]、[11]。
然而,标准DNM架构的一个核心限制是其树突层使用累积乘法来聚合特征,这会导致中间输出呈指数级衰减,并在面对标准化的高维数据时梯度完全消失[12],从而严重影响了模型在复杂数据集上的学习能力和性能。已经有一些努力[13]、[14]来解决这个问题。在[13]中,提出了一种基于季节趋势分解的树突神经元模型(STLDNM)来解决金融时间序列预测问题。尽管STLDNM在处理金融数据方面有效,但其泛化能力不足,因为它是一个为具有季节趋势的时间序列数据量身定制的分解-分离-整合过程。STLDNM没有对树突层的乘法聚合问题进行任何特殊改进,因此仍然无法有效解决高维数据的分类问题。在[14]中,提出了一种交替兴奋和抑制机制来模拟树突层的兴奋-抑制动态。他们的交替兴奋-抑制树突神经元系统(ADNS)在各种分类任务中取得了优异的性能,但这是以参数量大幅增加为代价的。
从第一原理的角度来看,上述方法都没有解决标准DNM的基本限制:即在不过度增加参数的情况下处理高维数据的有限能力,这促使我们当前对DNM的内在计算框架进行了研究。我们引入了融合树突层(FDL),这是一种新的组件,它用混合的均值-乘法聚合替换了纯粹的乘法操作。实证分析证实,包含均值操作可以防止特征值崩溃,同时通过受控的、考虑维度的缩放保留了必要的非线性特性。这一创新使DNM在保持其生物学启发的计算优势的同时,也能在高维数据上有效学习,而不会出现梯度消失。
此外,为了提高学习效率和专注度,我们在初始突触层之后集成了一种突触注意力机制(SAM)。这一机制受到深度学习中注意力机制成功的启发[15],使模型能够通过可学习的权重系统动态地优先处理与任务相关的信息。它的设计旨在通过将计算资源导向最显著的特征来明确加速模型收敛,解决了构建高效和稳健模型的另一个关键方面。
总之,我们的研究是对DNM结构局限性的清晰分析所驱动的。通过提出两种针对性的创新FDL和SAM,我们旨在克服梯度消失和收敛速度的具体挑战,从而提高模型的适用性和性能。本研究的贡献如下:
为了解决DNM在高维数据处理中的梯度消失问题,我们提出了FDL,这是一种新的树突结构,它保留了DNM的乘法非线性,同时实现了有效的高维特征处理,而不会出现梯度消失。
基于注意力机制和DNM的突触修剪之间的概念一致性(两者都优先考虑信息显著性),我们开发了SAM来通过计算突触输出的注意力权重来增强特征建模。
我们在31个公共数据集上进行了全面实验,以评估所提出的方法,并将其与三类方法进行了比较:传统机器学习、现代神经网络和生物启发式计算模型。结果表明,所提出的模型在性能和速度方面具有竞争力。
本文的其余部分组织如下:第2节简要介绍了注意力机制、标准DNM以及基于DNM的模型的应用和发展;第3节详细阐述了所提出的方法,并通过理论推导验证了其在缓解梯度消失问题方面的有效性;第4节通过广泛的实验全面验证了所提出的方法;第5节总结了本文并概述了未来研究的方向。