一种通过突触-注意力机制和融合树突层得到增强的新型树突神经元模型

时间：2026年2月13日

来源：Neurocomputing

编辑推荐：

针对标准Dendritic Neuron Model（DNM）处理高维数据时梯度消失的问题，提出融合层（FDL）和突触注意力机制（SAM），通过混合均值与乘积聚合缓解梯度衰减，并利用注意力机制提升特征建模效率，实验验证其在31个数据集上有效且参数更少，收敛更快。

马润聪|庞永华|张灿龙|罗旭东

教育部教育区块链与智能技术重点实验室，广西师范大学，桂林541004，中国

摘要

在各种神经网络架构中，树突神经元模型（DNM）提供了一个生物学上合理的框架，由于其非线性、可解释性和效率而具有独特的计算特性。这种非线性归因于树突突触特征的乘法聚合。然而，面对高维数据时，多个标准化特征的乘法聚合可能导致输出呈指数级衰减，并在反向传播过程中梯度完全消失。为了解决这个问题，我们提出了融合树突层（Fusion-Dendritic Layer），它使用均值聚合和乘法聚合代替了原始的乘法聚合，理论和实证分析都证实了这种改进的有效性。此外，我们在突触层之后集成了一种新的突触注意力模块（Synaptic-Attention module），从而使模型能够专注于与任务相关的信息，从而加速了模型的收敛速度。在31个公共数据集上的实验表明，改进后的DNM在参数很少的情况下实现了显著的效率，并有效解决了标准DNM的稳定性问题。与各种最近的DNM变体相比，我们的DNM在处理高维数据时也获得了更高的准确率和更快的收敛速度。代码可在以下链接获取：https://github.com/PPOMZ/SAM-FDL-DNM。

引言

当代神经科学已经确定，成人大脑大约包含860亿个神经元[1]，它们的集体活动支撑了认知功能。这一生物学特性激发了人工智能模型的建立，例如McCulloch Pitts感知器[2]和树突神经元模型（DNM，见图1）[3]。DNM是一个生物学上合理的框架，它将计算原理与神经生物学见解相结合，其非线性、可解释性[4]、[5]、[6]和计算效率使其在分类、回归和预测等多种任务中得到了成功应用[3]、[7]、[8]、[9]、[10]、[11]。

然而，标准DNM架构的一个核心限制是其树突层使用累积乘法来聚合特征，这会导致中间输出呈指数级衰减，并在面对标准化的高维数据时梯度完全消失[12]，从而严重影响了模型在复杂数据集上的学习能力和性能。已经有一些努力[13]、[14]来解决这个问题。在[13]中，提出了一种基于季节趋势分解的树突神经元模型（STLDNM）来解决金融时间序列预测问题。尽管STLDNM在处理金融数据方面有效，但其泛化能力不足，因为它是一个为具有季节趋势的时间序列数据量身定制的分解-分离-整合过程。STLDNM没有对树突层的乘法聚合问题进行任何特殊改进，因此仍然无法有效解决高维数据的分类问题。在[14]中，提出了一种交替兴奋和抑制机制来模拟树突层的兴奋-抑制动态。他们的交替兴奋-抑制树突神经元系统（ADNS）在各种分类任务中取得了优异的性能，但这是以参数量大幅增加为代价的。

从第一原理的角度来看，上述方法都没有解决标准DNM的基本限制：即在不过度增加参数的情况下处理高维数据的有限能力，这促使我们当前对DNM的内在计算框架进行了研究。我们引入了融合树突层（FDL），这是一种新的组件，它用混合的均值-乘法聚合替换了纯粹的乘法操作。实证分析证实，包含均值操作可以防止特征值崩溃，同时通过受控的、考虑维度的缩放保留了必要的非线性特性。这一创新使DNM在保持其生物学启发的计算优势的同时，也能在高维数据上有效学习，而不会出现梯度消失。

此外，为了提高学习效率和专注度，我们在初始突触层之后集成了一种突触注意力机制（SAM）。这一机制受到深度学习中注意力机制成功的启发[15]，使模型能够通过可学习的权重系统动态地优先处理与任务相关的信息。它的设计旨在通过将计算资源导向最显著的特征来明确加速模型收敛，解决了构建高效和稳健模型的另一个关键方面。

总之，我们的研究是对DNM结构局限性的清晰分析所驱动的。通过提出两种针对性的创新FDL和SAM，我们旨在克服梯度消失和收敛速度的具体挑战，从而提高模型的适用性和性能。本研究的贡献如下：

为了解决DNM在高维数据处理中的梯度消失问题，我们提出了FDL，这是一种新的树突结构，它保留了DNM的乘法非线性，同时实现了有效的高维特征处理，而不会出现梯度消失。

基于注意力机制和DNM的突触修剪之间的概念一致性（两者都优先考虑信息显著性），我们开发了SAM来通过计算突触输出的注意力权重来增强特征建模。

我们在31个公共数据集上进行了全面实验，以评估所提出的方法，并将其与三类方法进行了比较：传统机器学习、现代神经网络和生物启发式计算模型。结果表明，所提出的模型在性能和速度方面具有竞争力。

本文的其余部分组织如下：第2节简要介绍了注意力机制、标准DNM以及基于DNM的模型的应用和发展；第3节详细阐述了所提出的方法，并通过理论推导验证了其在缓解梯度消失问题方面的有效性；第4节通过广泛的实验全面验证了所提出的方法；第5节总结了本文并概述了未来研究的方向。

方法论

本节详细介绍了所提出的SAM和FDL。所提出的DNM模型如图2所示。

实验

我们在31个公共二元分类基准数据集上进行了验证实验，这些数据集分为两大类：合成数据和真实世界数据。合成数据是人为生成的，用于评估模型在特定分类场景下的性能。真实世界数据来自UCI机器学习仓库[49]，其特征是覆盖范围广、数据多样性高且与实际应用密切相关。

结论

DNM模型旨在模拟生物神经元的工作机制。树突层中的乘法累积操作为模型提供了强大的非线性处理能力。然而，对于高维数据，小值的连续乘法会导致反向传播过程中梯度完全消失。为了解决这个问题，我们提出了FDL，它保留了DNM的原始非线性特性，同时实现了有效的处理

CRediT作者贡献声明

马润聪：撰写——原始草稿、验证、方法论、调查。庞永华：可视化、方法论、数据管理。张灿龙：撰写——审稿与编辑、监督、资源获取、调查、资金筹集。罗旭东：监督、资金筹集。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

致谢

本工作得到了中国国家自然科学基金（项目编号62266009和62466007）、广西科学技术计划（编号AB25069418）、中国广西壮族自治区自然科学基金（项目编号2025GXNSFAA069771）、滁州大学智能感知与老年护理工程研究中心开放基金（项目编号2025OPB05）以及高等教育研究计划项目（项目编号2022AH010067）的支持。

马润聪目前是中国广西师范大学软件工程的博士生。他于2015年在中国广西师范大学获得了计算机应用硕士学位。他的研究兴趣包括神经计算、计算机视觉处理、室内定位和语义相似性计算。