摘要
引言:理解深度学习模型如何将神经群体活动映射到刺激上,需要同时具备高预测准确性和可解释的内部机制。
方法:在这项工作中,我们采用了POYO框架,这是一种基于脉冲标记化和潜在建模的可扩展变换器架构,用于解码大规模视网膜神经节细胞记录。我们通过评估两种对比条件来探讨模型的注意力机制是否能够提供生物学上有意义的见解:一种是均匀闪光刺激,另一种是时空结构化的移动球体刺激。
结果:我们展示了该模型能够可靠地解码这两种刺激,并通过微调迅速适应新的实验设置,这表明模型捕获了可转移的群体编码。随后,我们分析了模型的内部组织结构,发现编码器的注意力模式会随着刺激复杂性的变化而调整:对于闪光刺激,注意力头呈现同步且广泛分布;而对于移动球体刺激,则表现出异质化的、专门化的分配策略。通过聚合注意力权重来识别每个任务中最相关的神经元,我们证明了这些高注意力单元具有不同的生理特征——对于闪光刺激,它们集中了持续的高频率响应;而对于结构化输入,则表现出多样的动态特性。我们通过注意力引导的消融实验验证了这些发现的因果有效性,逐步移除这些排名靠前的单元会导致解码性能的系统性下降。此外,我们还将分析扩展到解码器的注意力上,发现了特定于刺激的检索策略,其中各个注意力头表现出不同的方向性调谐偏好。
讨论:我们得出结论,通用的注意力机制可以自发地恢复生物学编码策略,无需监督即可识别功能上不同的神经亚群,从而验证了基于变换器的架构在神经科学发现中的实用性。
1 引言
视网膜是位于眼睛后部的一种高度组织化的神经组织,负责捕捉入射光并将其转换为电信号,这些信号可以通过动态学习过程被大脑解读。这一过程始于光感受器吸收光子,并通过与中间神经元和视网膜神经节细胞(RGCs)的相互作用,生成动作电位序列或序列,这些电位通过视神经传递到更高的视觉中心(Dowling, 2012; Kolb et al., 1995)。理解这些信号如何编码自然界中的各种视觉刺激对于揭示感觉输入如何转化为感知的机制至关重要。与此问题相对应的自然问题是:是否可以逆转这一过程:给定神经反应,能否重建原始刺激?这一挑战定义了神经解码问题,即试图从一群神经元的电反应中重建或推断出刺激。在视觉系统中,这涉及从记录的RGCs尖峰活动中估计原始刺激的形状、运动或对比度等特征(Warland et al., 1997; Marre et al., 2015; Rieke et al., 1999)。精确的解码模型具有双重好处:它们有助于确定关于外部世界的信息是如何在神经活动中保留的,并有助于设计视觉假体和脑机接口。
早期的解码方法依赖于线性模型,因其简单性和直接的可解释性而受到重视。这些方法允许在模型参数和生理特征之间建立清晰的联系,有助于识别特定神经元或感受野(RF)属性对刺激重建的贡献(Warland et al., 1997; Nichols et al., 2013)。然而,随着数据集的丰富化和刺激的复杂性增加,线性方法被证明是不够的。为了捕捉非线性依赖性,研究人员转向了人工神经网络(ANN)、贝叶斯解码器以及后来的深度学习架构,这些架构在解码自然图像和动态视觉场景方面取得了显著更高的准确性(Parthasarathy et al., 2017; Botella-Soler et al., 2018; Yu et al., 2025)。
最近,基于变换器的架构重塑了解码领域。在语言(Vaswani et al., 2017)和视觉(Dosovitskiy et al., 2021)方面的进展基础上,它们提供了可扩展的表示,并擅长捕捉长距离依赖性。这种基于注意力的机制为可解释性提供了内在路径;通过量化模型如何动态地优先考虑特定输入特征,研究人员可以超越黑箱预测,揭示神经数据的潜在结构。POYO框架通过引入统一的标记化方案并利用PerceiverIO风格的注意力来解码跨会话、动物和任务的神经活动,展示了这一进步,其鲁棒性前所未有(Azabou et al., 2023)。这种方法的一个关键区别在于,与将脉冲序列二值化为离散时间区间的传统解码器不同,POYO将单个脉冲视为连续时间事件。这种点过程框架使模型能够保留视网膜输出的亚毫秒级精度,这对于捕捉由移动刺激触发的快速神经动态至关重要。其扩展版本POYO+进一步扩展了这一理念,表明在涵盖不同细胞类型、脑区和行为的高度多样化数据集上进行训练不仅提高了解码性能,还实现了跨任务和跨区域的迁移(Azabou et al., 2025)。重要的是,作者通过分析在大型数据集(如Allen Brain Observatory)上训练的潜在空间来探索模型的可解释性。他们观察到,即使没有明确的监督,学习到的单元嵌入也会自发地组织成对应于不同解剖脑区和细胞亚型的簇。虽然这提供了大规模模型能够捕获生物学上有意义模式的有希望的证据,但分析仍然主要是描述性的,尚未得出强有力的生理结论。
POYO的能力提出了一个更深层次的问题:这些高性能模型的内部机制,特别是它们的注意力和潜在表示,能否用于逆向工程神经群体的计算策略?在这项工作中,我们测试了基于变换器的解码器能否揭示不同的群体编码机制的假设。我们提出,注意力机制通过动态地加权不同输入的贡献,直接揭示了神经群体如何分配其计算资源。我们在两种对比刺激下对POYO模型进行了训练:均匀闪光和复杂的移动球体。除了基准测试准确性外,我们还分析了模型的内部动态是否会在简单的全局刺激下从集中的、专门化的编码转变为复杂的、时空刺激下的分布式、多样化的表示。我们的目标是确定可解释的人工智能是否能够超越性能,生成关于适应性神经计算的可测试假设。
手稿的组织结构如下:第2节详细介绍了电生理程序、光刺激和POYO模型架构,以及注意力分析的方法论。第3节展示了解码性能基准,并分析了编码器和解码器的注意力模式与生理属性之间的关系。第4节讨论了我们的发现对可解释神经解码的意义,并指出了当前的局限性。最后,第5节总结了主要结论和未来的研究方向。
2 材料与方法
2.1 电生理记录和脉冲分类
我们遵循了Ravello et al. (2019) 和Escobar et al. (2018) 描述的完整电生理记录协议。简而言之,我们使用了带有252个电极的多电极阵列(MEA)(USB256,Multichannel Systems GmbH,德国Reutlingen)和20 kHz的采样率来记录孤立视网膜组织中的RGCs。我们将所有记录存储在计算机上以进行离线分析。我们从5只成年野生型小鼠(3只雄性和2只雌性,3个月大)中获取了视网膜组织。在每次实验之前,我们将动物置于黑暗环境中适应30分钟。随后,通过吸入2.5%异氟醚(Baxter,美国伊利诺伊州Deerfield)在氧气(流速300 mL/min,3L腔室)中深度麻醉动物,并立即通过斩首处死。我们在昏暗的红光下迅速摘出眼睛,并将眼杯浸入含有碳酸氢盐缓冲液的Ames培养基(Sigma-Aldrich,美国密苏里州圣路易斯)中,温度为32°C,pH值为7.4,同时用95%(O2)和5%(CO2)持续供氧。我们轻轻地将小块视网膜从视网膜上皮分离出来,并将其放置在支持透析膜环的杆状装置上(MWCO-25000,Spectrumlabs,美国加利福尼亚州Rancho Dominguez),并用聚赖氨酸(Product P4707,Sigma-Aldrich,美国密苏里州圣路易斯)处理,以促进视网膜的RGC侧与MEA电极表面的接触。
我们使用SpyKING Circus(Pierre Yger & Olivier Marre,法国巴黎视觉研究所)和SpikeInterface软件(SpikeInterface开发团队(开源),洛桑,瑞士)(Yger et al., 2018)进行脉冲检测和分类。只有当单元的脉冲间隔(ISI)违规率低于1.5%,信噪比(SNR)超过3个标准差,并且在前10次试验中至少有5次试验出现10次或更多次脉冲时,我们才保留这些单元以进行进一步分析。这种方法通过严格的标准确保了单元分类的可靠性。由于两种视觉协议之间的反应性不同(详见第2.2节),我们为每种协议获得了不同的单元计数。对于闪光刺激,我们分别从雄性小鼠中识别出512、446和339个单元,从雌性小鼠中识别出373和339个单元。对于移动球体刺激,我们分别从雄性小鼠中识别出490、400和314个单元,从雌性小鼠中识别出377和366个单元。
2.2 光刺激
我们使用MATLAB软件(The MathWorks, Inc., 美国马萨诸塞州Natick)和Psychtoolbox [Mario Kleiner et al.(开源),德国蒂宾根] 通过标准LED投影仪(PB 60G-JE,LG)生成和传递光刺激。我们通过定制的光学平台将图像投射到与光感受器层对齐的位置。我们使用USB4000分光光度计(Ocean Optics Inc., 美国佛罗里达州奥兰多)校准了460和520 nm的光谱发射,并使用Newport 1918-R光功率计测量样本平面上的光功率,平均辐照度为70 nW/mm²。最后,我们在倒置显微镜(Eclipse T200,尼康公司,日本东京)下在MEA阵列上显示了400 × 400像素的图像,覆盖2 × 2 mm的区域,其中每个像素大约代表4微米。
刺激协议包括两组视觉刺激。第一组刺激是全场闪光,用于测量全局亮度响应。协议包括3秒的闪光开启后跟3秒的闪光关闭。我们重复了这个序列10次。
第二组刺激是在黑色背景上显示的移动球体。球体是一个青色椭球体,平均像素强度为154.2(范围0–255)。球体在整个展示过程中占据了大约28.0 × 36.6像素的面积。我们展示了20秒的刺激,并重复了10次。为了确保激活不同视网膜区域的不规则、持续的轨迹,我们使用Hurst指数为H = 0.9的分数布朗运动生成了运动。球体的平均移动速度为232像素/秒。
2.3 光特征
为了表征每个RGC的光诱发电响应特性,我们计算了几个指标:极性、持续指数和潜伏期。我们根据它们的相对幅度估计了闪光偏置响应,将每个RGC分类为ON、OFF或ON-OFF:
fBR = (fON − fOFF) / (fON + fOFF)
其中fON和fOFF分别是闪光刺激开启或关闭期间的最大脉冲计数。值为1对应于纯ON单元,值为-1对应于纯OFF单元,值为0对应于纯ON-OFF单元。
我们计算了持续指数(Si)来评估每个响应的时间轮廓(持续 vs. 短暂):
Si = (fON/OFF − ̄fON/OFF) / (fON/OFF + ̄fON/OFF)
其中̄f̄表示整个闪光序列期间的平均发射率,fON/OFF是刺激开启或关闭期间的总脉冲计数。持续指数为1对应于纯短暂响应,而值为0对应于纯持续响应。最后,我们将闪光潜伏期定义为刺激开始(开启或关闭阶段)与峰值发射响应之间的时间间隔。我们还计算了每个单元的平均发射率,即总脉冲数除以闪光刺激的总持续时间。
2.4 模型架构
我们采用了POYO框架(Azabou et al., 2023),这是一种基于变换器的架构,旨在学习神经群体动态的稳健表示。与将神经活动分箱的标准方法不同,我们使用了POYO的基于脉冲的标记化策略,其中模型输入包括代表1秒时间窗口内单个视网膜脉冲事件的标记。我们将处理流程组织成两个功能组件:编码器和解码器。模型的信息流如图1所示。
图1 适用于视网膜解码的POYO架构示意图。该图说明了信息流。输入脉冲(左侧)代表神经活动,交叉注意力机制将这些活动压缩成一组固定的学习到的潜在特征(中间)。自注意力模块处理这些潜在特征,最后阶段通过查询这些特征来预测时间刺激特征(右侧)。在编码器中,我们使用交叉注意力机制将高维的输入脉冲令牌映射到一组固定的潜在令牌上。这一步有效地降低了维度,同时保留了相关的上下文特征。随后,我们对潜在令牌应用了自注意力模块,使模型能够捕捉神经元单元之间的长距离时间依赖性和相互作用。在解码器中,我们通过额外的交叉注意力操作将精炼的潜在表示投影到输出令牌上。然后,我们将这些输出令牌与会话级嵌入整合起来:可学习的向量表示,捕捉每个实验会话的特定特征。这种机制考虑了不同视网膜准备和记录日期之间的变异性,使得多个数据集能够使用统一的解码策略。最后,我们将输出令牌通过多层感知器(MLP)(David E. Rumelhart, 1986)进行处理,将其转换为与刺激特征相对应的连续值预测。对于闪光刺激,它由没有空间结构的全场亮度变化组成,我们将每一帧压缩成一个单一的标量值来形成时间刺激曲线。对于移动球刺激,我们使用球的x和y位置坐标作为输出信号。
2.5 模型训练和实现细节
为了确保可重复性,我们使用非重叠的时间块将数据集划分为训练集(70%)、验证集(10%)和测试集(20%)。我们使用POYO框架实现了该架构,潜在维度为128,潜在序列长度为64,层数为六层。交叉注意力机制和自注意力机制各自使用了八个头,每个头的维度为64。为了防止过拟合,我们在前馈层、线性层和注意力层应用了0.3的丢弃率。我们使用AdamW优化器(初始学习率1 × 10−4,权重衰减1 × 10−2)训练模型,以最小化重建刺激和真实刺激之间的均方误差(MSE)。单个实验的训练持续100个周期,多个实验的训练持续400个周期,批量大小为16,并在最后25%的周期内将学习率衰减0.1。
2.6 编码器注意力分析
为了量化单个视网膜单元的贡献,我们分析了编码器中的交叉注意力机制。对于包含Ni个脉冲令牌的给定上下文窗口i,模型为每个头h∈{1, …, H}计算一个注意力矩阵Ah, i。这些矩阵定义为:
Ah,i∈RL×Ni
Ah,i∈ℝL×Ni
其中L是固定的潜在令牌数量。每个元素ah,ij,kaj,kh,i表示第j个潜在令牌分配给第h个头的第k个脉冲事件的注意力权重。为了获得一个与潜在投影无关的特定于脉冲的相关性分数,我们通过对所有L个令牌的权重进行平均来压缩潜在维度:
̄wh,i,k=1/L∑j=1ah,ij,kw̄h,i,k=1/L∑j=1Laj,kh,i
为了确保在不同脉冲密度和窗口之间的重要性分数具有可比性,并防止高发射间隔的偏差,我们通过窗口内的总脉冲计数来归一化权重:
ŵh,i,k=̄wh,i,k⋅Ni
ŵh,i,k=w̄h,i,k·Ni
得到的归一化权重ŵh, i, k用于对栅格图进行颜色编码,其中来自单元u的每个脉冲k在其发生时间tk处以强度ŵ绘制。这个程序允许客观比较不同头部如何优先处理不同的神经亚群。
2.6.1 熵和统计散度
为了量化注意力的时间组织和焦点,我们计算每个注意力头h在每个1秒上下文窗口i内的香农熵E。使用脉冲权重̄wh,i,kw̄h,i,k,熵(以纳特为单位)定义为:
E(h,i)=−∑k=1/ℕi∑j=1/ℕiln(̄wh,i,k)
这种转换产生了一个分辨率为1赫兹的时间变化指标,其中每个值E(h, i)被分配给其相应窗口的结束时间戳。为了确定各个注意力头是否发展出了专门的功能角色,我们对所有头组合进行了成对的Kolmogorov-Smirnov(K-S)测试。这种非参数测试使我们能够评估熵值累积分布的显著差异,提供了头部差异的稳健度量。
2.6.2 因果相关性和单元排名
为了评估单个视网膜单元u对解码性能的功能贡献,我们根据其脉冲分配的平均注意力权重定义了一个重要性分数I(u)。该分数是通过平均所有注意力头和属于单元u的所有脉冲的特定于脉冲的相关性分数来计算的:
I(u)=1/HW∑h∈H∑i∈W∑k∈Nuīwh,i,k
I(u)=1/HW∑h∈H∑i∈W∑k∈Niuw̄h,i,k
其中W是刺激持续时间内的上下文窗口数量,Nui是单元u在上下文窗口i中的脉冲数量。这个指标识别出模型一致认为对解码任务最相关的神经元,而不考虑它们的总发射率。
为了验证这种排名的预测相关性,我们通过比较两种排除策略下的解码退化进行了因果消融分析:
- 注意力引导的消融:按I(u)的降序依次移除单元。
- 随机控制:以随机顺序移除单元以建立性能基线。
对于每个移除步骤,我们在测试集上重新评估模型,并计算决定系数R2以跟踪解码完整性的退化。对于每种刺激类型,我们重复了这个过程八次独立训练(种子)。
2.6.3 高注意力单元的生理特征
我们进一步检查了编码器优先考虑的单元是否具有独特的生理特性。对于每种刺激和每个种子,我们确定了在消融曲线中累积移除导致R2降低到0.5的单元数量(K),为每个种子生成一个前K列表。为了获得一组特定于刺激的始终被关注的单元,我们汇总了这八个列表,并仅保留至少出现在一半种子中的单元。然后,我们比较了这些共识子集与记录单元的全局群体之间的光响应特征分布。为了评估这些差异,我们使用了非参数统计K-S测试来检测特征的总体形状和累积分布的差异。
2.7 解码器注意力分析
为了重建视觉刺激,解码器使用交叉注意力机制选择性地从学习到的潜在表示中检索信息。对于给定的重建序列,模型为每个头h计算一个解码器注意力矩阵Dh。与将脉冲映射到潜在特征的编码器不同,解码器操作在输出时间网格上:
Dh∈RM×L
Dh∈ℝM×L
其中M是输出令牌(时间戳)的数量。矩阵中的每个元素dm,jdm,jh表示第m个输出令牌分配给第j个潜在向量的注意力权重。我们将这些矩阵可视化为热图,以观察信息整合的时间动态。
2.7.1 刺激-注意力耦合分析
为了量化内部注意力动态和刺激重建之间的功能联系,我们计算每个注意力头h在每个1秒上下文窗口i内的香农熵E。使用脉冲权重̄wh,i,kw̄h,i,k,熵(以纳特为单位)定义为:
E(h,i)=−∑k=1/ℕi∑j=1/ℕiln(̄wh,i,k)
这种转换产生了一个分辨率为1赫兹的时间变化指标,其中每个值E(h, i)被分配给其相应窗口的结束时间戳。为了确定各个注意力头是否发展出了专门的功能角色,我们对所有头组合进行了成对的Kolmogorov-Smirnov(K-S)测试。这种非参数测试使我们能够评估熵值累积分布的显著差异。
2.8 比较解码架构
为了评估POYO框架的特定优势并解决当代机器学习工具的性能基准,我们实现了四种代表不同解码策略的基线架构:
- 最优线性估计器(OLE):我们实现了一个Ridge回归模型,以建立基本的线性解码基线(Warland等人,1997年)。该模型将分箱的发射率直接映射到刺激坐标。我们使用正则化参数α = 0.1(通过交叉验证确定),以确保稳健的线性估计,同时防止过拟合。
- 神经数据变换器2(NDT2):我们调整了NDT2架构,以处理分箱的神经活动,作为现代基于变换器的解码器的代表(Ye和Pandarinath,2021年)。该模型具有4层变换器编码器,8个注意力头,隐藏维度为128,前馈维度为512。我们集成了可学习的位置编码,以保留分箱输入的序列依赖性。
- CEBRA:我们使用CEBRA框架进行假设驱动的潜在空间探索(Schneider等人,2023年)。我们使用offset10模型配置了该模型,并使用对比InfoNCE损失进行了优化。为了量化其解码能力,我们使用k-最近邻(kNN)解码器将得到的3D潜在嵌入映射到刺激空间。
- 群体状态空间模型(POSSM):我们使用高斯过程因子分析(GPFA)实现了状态空间方法,以捕捉潜在的群体动态(Yu等人,2009年)。我们提取了一个32维的潜在状态来表示神经流形,然后应用Ridge回归器来解码刺激特征。
这些基准提供了一个全面的视角,将脉冲-令牌注意力机制的性能与传统的线性方法和现代潜在模型框架进行了对比。
3 结果
3.1 不同视网膜准备下的解码性能和适应性
在讨论模型的内部机制之前,我们验证了不同视网膜片段的解码性能。我们在两种条件下评估了来自五个单独视网膜的神经记录:在单个视网膜上进行独立训练/测试,以及在四个视网膜上进行预训练后将其适应到第五个视网膜的微调设置。首先,在表1中,我们将POYO框架的解码准确性与几种已建立的机器学习基线进行了比较,针对两种刺激类型。对于移动球刺激,POYO模型的R2值为0.978,而线性OLE基线的R2值为0.749,状态空间POSSM的R2值为0.690。在评估闪光刺激时,我们观察到POYO保持了高性能(R2 = 0.994),与分箱NDT2变换器(R2 = 0.844)和对比CEBRA模型(R2 = 0.821)获得的较低准确性形成对比。这些测量结果表明脉冲-令牌注意力机制与依赖传统分箱发射率或线性近似的方法之间存在一致的性能差距。
表1总结了所有实验会话中两种刺激类型的解码准确性。对于闪光刺激,我们观察到模型始终达到R2值超过0.98,反映了几乎完美的刺激动态重建。对于移动球刺激,我们发现性能在各个视网膜上保持较高,大多数实验的R2值在0.97到0.98之间。我们进一步检查了模型使用微调配置泛化到未见视网膜记录的能力。如图2所示,我们观察到预训练的多视网膜模型只需要几个微调周期就能在新视网膜上收敛,达到与从头开始训练相当的解码准确性。这种快速收敛表明预训练的编码器-解码器保留了可转移的视网膜群体动态表示,从而实现了高效的适应,而无需大量重新训练。
表2总结了所有实验会话中两种刺激类型的解码准确性。对于闪光刺激,我们观察到模型始终达到R2值超过0.98,反映了几乎完美的刺激动态重建。对于移动球刺激,我们发现性能在各个视网膜上保持较高,大多数实验的R2值在0.97到0.98之间。我们进一步检查了模型使用微调配置泛化到未见视网膜记录的能力。如图2所示,预训练的多视网膜模型只需要几个微调周期就能在新视网膜上收敛,达到与从头开始训练相当的解码准确性。这种快速收敛表明预训练的编码器-解码器保留了可转移的视网膜群体动态表示,从而实现了高效的适应。
3.2 不同刺激下的编码器注意力分配策略
接下来,我们研究了编码器在将输入映射到潜在空间时如何分配注意力到视网膜脉冲上。对于每个上下文窗口,我们计算了潜在标记与单个脉冲标记之间的注意力分数,并对这些值进行了归一化,以便在不同脉冲计数之间进行公平比较。图3显示了栅格图,其中脉冲活动通过所有潜在标记的归一化注意力权重进行颜色编码,代表每个刺激的四个注意力头中的一个子集。在均匀闪光刺激下,我们观察到一个广泛分布的注意力模式,缺乏明确的功能边界,反映了光强度变化的全局时间驱动。相比之下,移动球刺激触发了一种更选择性的分配策略,其中各个头部强调与轨迹快速变化相对应的特定神经元子集和离散时间间隔。图3展示了在闪光和移动球刺激期间编码器注意力分配的可视化结果。栅格图显示了视网膜脉冲活动,通过归一化注意力权重进行颜色编码,并在潜在维度上进行了平均,代表每个刺激的四个注意力头中的一个子集。(左)在均匀闪光刺激下,注意力模式在头部之间时间上同步,一致地优先考虑与全局亮度变化对齐的刺激间隔。(右)相比之下,在移动球刺激期间,注意力模式在头部和时间上表现出更高的异质性,高注意力带与轨迹的时空动态快速变化对齐。每列的顶部面板展示了真实刺激特征:闪光的光强度(左)和移动球的位置坐标(右)。
为了超越这些定性观察,我们通过注意力分布的香农熵分析了这些模式的时间组织。如图4A所示,我们分析了以1秒间隔采样的注意力熵的时间演变。对于闪光刺激,所有头部的熵轨迹显示出高度的时间同步性,熵的急剧下降与主要的亮度变化相对应。这表明编码器在处理全局变化时采用了一种统一的池化策略。相反,移动球刺激引发了高度异质的熵分布,其中不同的头部独立调整它们的焦点以捕捉运动的特定时空特征。图4B中的小提琴图显示了熵分布的增加变异性,表明刺激的复杂性迫使架构多样化其内部焦点。
我们通过表3中总结的成对统计比较验证了这些观察结果。通过将结果整合为对角线格式,我们对比了两种实验条件下的头部专业化:下对角线代表闪光刺激,而上对角线显示移动球的结果。K-S检验显示,虽然在闪光刺激下许多头部对保持冗余分布(P>0.05),但移动球刺激引发了显著的功能分化。几乎所有关于复杂运动的比较都达到了极端的显著性水平(例如,Head 2的P < 10^-9)。这种在统计显著性规模和频率上的显著差异证实,虽然全局刺激主要保持冗余的处理机制,但结构化运动触发了高度专业化和异质的注意力头部招募。
为了确定编码器分配的注意力是否反映了功能上重要的神经元,我们检查了每个刺激的八个独立训练种子中前K个受关注单元之间的重叠。我们观察到几个单元在多次运行中始终被选中,表明注意力模式是稳定的,并表明模型反复识别出对解码至关重要的核心神经元子集。然后,我们评估了在系统地移除这些高注意力单元时解码性能的变化,与随机移除基线进行了比较。图5显示了随着移除单元数量的增加,注意力引导策略和随机控制的R2值的变化。对于两种刺激,我们发现当排除最受关注的单元时,性能急剧下降,而随机移除单元则导致解码质量的显著减缓。这一差距证实了注意力权重准确地捕捉了具有高预测相关性的神经元,而不仅仅是反映了输入密度的普遍依赖性。我们注意到这种效应在闪光刺激中更为明显,其中较少的单元对性能的贡献不成比例。相比之下,在移动球条件下,性能对初始移除更为稳健,表明信息分布在更广泛的神经元群体中。
为了进一步表征编码器优先考虑的神经元的属性,我们比较了整个记录群体和每个刺激中最受关注单元的共识集合之间的偏差指数和三个光响应特征的联合分布。对于每个种子,我们将那些移除后R2降低到0.5的前K个单元识别出来;然后我们汇总了这些列表,只保留至少出现在一半种子中的单元,以获得特定于刺激的持续受关注神经元子集。图6显示了结果的二维KDE分布,相应的统计分析详见表4。在闪光刺激下,我们发现最受关注的神经元显示出与全局群体相比显著更高的持续指数和更高的发射率。虽然KDE可视化表明偏差特征平面存在集中模式,但偏差指数和响应延迟的统计比较显示这些特征与整个记录群体无法区分。对于移动球刺激,受关注的单元显示出与全局群体密切跟随的生理分布。此外,两种刺激之间的直接比较证实,编码器根据视觉任务选择具有显著不同发射率分布的单元。这些趋势共同表明,虽然模型利用专门的、高活性的神经元来解码像闪光这样的均匀全局变化,但它依赖于更多样化和更具代表性的视网膜群体样本来重建复杂的运动丰富输入。
最后,我们分析了解码器的交叉注意力机制,该机制在刺激重建期间将潜在表示与输出序列联系起来。对于每种刺激类型,我们提取了所有八个头部的注意力矩阵,并将它们可视化为热图,其中潜在投影空间索引位于垂直轴上,输出时间点位于水平轴上。图7展示了这些结果以及每种条件下四个代表性注意力头的刺激轨迹。在闪光条件下,我们观察到解码器注意力以重复的、带状模式组织,与亮度变化对齐。这种结构表明模型采用了一种统一的检索策略,其中在同步间隔内查询潜在空间以跟踪全局强度。相比之下,移动球条件产生了更多异质和分布式的模式。我们注意到,虽然一些头部在快速位置变化期间专注于狭窄的潜在子集,但其他头部则更分散地分配注意力,反映了空间和时间动态的更复杂整合。
为了量化这种信息检索的效率,我们分析了解码器注意力分布的香农熵。如图8所示,对于闪光刺激,所有八个注意力头部的熵轨迹都与光强度紧密耦合,导致一致的高负皮尔逊相关系数,范围从r = −0.77到r = −0.93,证实了解码器在发生显著亮度变化时增加了其关注度。然而,在移动球条件下,注意力熵与刺激位置之间的关系显示出专门的功能组织。我们观察到注意力头部表现出不同的方向调谐偏好:某些头部对视野下部的运动表现出强烈的负相关性(例如,Head 3),而其他头部则调谐到水平或上半象限的轨迹。这些定量结果表明,解码器不仅仅全局跟踪刺激;相反,它采用了一种空间选择性策略,其中各个头部专门监控视野的特定区域以重建复杂的轨迹。虽然我们观察到该模型在各种视网膜和刺激下始终能够保持高解码精度,但我们的主要关注点在于评估其内部机制是否能够提供与已知神经生理学相一致的可解释结构。首先,微调过程使模型能够在仅经过少量训练周期后迅速适应新的视网膜,这表明POYO提取了可转移的潜在结构,这些结构捕捉了视网膜编码的一般原理,而不仅仅是记忆训练数据。鉴于生物感觉系统的固有波动性(突触强度和神经噪声的变化会严重限制静态最优线性解码器的信息传输),这种灵活性至关重要(Sprague等人,2015年;Hendler等人,2026年)。其次,通过利用动态注意力机制,我们的发现表明POYO能够快速调整其内部表示,从而绕过在易变生物系统中常见的信噪比饱和问题,有效减轻了这种不稳定性带来的信息损失(Sprague等人,2015年)。此外,与NDT2等架构中使用的传统时间分箱方法不同,POYO采用了脉冲标记化技术,保留了解码复杂时空动态所需的亚毫秒级精度。这使得我们能够识别出在不同视网膜准备条件下仍然保持稳定的神经活动流形。因此,我们的方法表明,类似注意力的动态机制实现了灵活的群体编码,架起了视觉注意力机制与固定最优解码之间的桥梁(Sprague等人,2015年;Glaser等人,2020年)。
为了进一步研究这些学习到的特征的本质,我们检查了模型的内部优先级(通过其注意力权重表示)与已知生理反应模式之间的对应关系。具体来说,编码器注意力分析显示,模型通过将单个脉冲直接映射到潜在表示中,自发地恢复了生物编码策略。对于闪光刺激,我们观察到注意力分布广泛,这与亮度驱动反应的全局性和均匀性一致(Chichilnisky,2001年)。所有注意力头部观察到的高度同步的熵迹线支持了这一观点,表明模型将神经群体招募到一个冗余的、统一的表示中,以处理均匀的输入。尽管K-S检验的高敏感性可以检测到这些分布中的微小变化,但得到的p值仍然接近显著性阈值,证实了没有强烈的功能差异。相比之下,移动球刺激引发了高度异质的熵分布,注意力头部之间存在显著的统计差异(P < 10^-9)。我们将这种巨大的熵水平差异解释为功能上的“劳动分工”的证据,即不同头部不同步以捕捉复杂轨迹中固有的多样时空特征(如位置和运动方向)(Gollisch和Meister,2010年;Baden等人,2016年)。这种从同步状态到不同步状态的转变展示了变压器的内部策略如何动态调整其计算复杂性以适应视觉输入的结构(Vaswani等人,2017年;Ye和Pandarinath,2021年)。具体而言,我们认为这种机制在功能上模仿了动态增益控制(Demb,2008年)和侧向抑制机制,这些机制是视网膜电路的特征。通过不同步其注意力,模型有效地抑制了全局冗余,优先处理特定的、非冗余的视觉特征,这是高效感觉编码的标志。这一解释与Nirenberg等人(2001年)的发现一致,他们证明视网膜神经节细胞主要作为独立编码器工作,即使忽略相关性,也能恢复超过90%的刺激信息。我们的结果表明,通过模仿这些生物过滤策略,POYO框架自发采用了一种多通道加权策略,利用这种神经元独立性来解析复杂的时空动态。然而,我们也认识到注意力并不保证因果相关性,高权重也可能反映相关性、冗余或共享的刺激驱动(Paninski和Cunningham,2018年)。因此,尽管编码器注意力提供了可解释的信号,但我们仍然认为其生物学意义需要进一步验证(Duncker和Sahani,2021年;Kriegeskorte和Douglas,2015年)。
为了解决这一差距,我们进行了基于注意力的消融分析,并量化了在八次独立训练运行中排名最高的单元的种子级稳定性。特定高注意力单元在种子间的重复出现证实了模型始终收敛于一组具有信息量的神经元上。我们的结果表明,按注意力排名顺序逐步移除单元会导致系统性和特定于刺激的性能下降(图5)。对于闪光刺激,解码性能迅速且几乎单调地下降,显示出少数单元承载了大部分信号(Pillow等人,2008年)。对于移动球刺激,尽管最初移除了一些单元,性能仍然保持稳定,这与分布式和功能多样化的表示一致,其中信息在更广泛的神经群体中共享(Marre等人,2015年)。重要的是,我们强调注意力与功能相关性之间的关系并非微不足道。许多高性能的神经解码器依赖于复杂的内部表示,其中归属分数并不一定对应于因果贡献(Glaser等人,2020年;Duncker和Sahani,2021年)。在这里,我们通过消融分析提供了缺失的因果联系:那些持续获得高注意力的单元正是移除后解码能力最受影响的单元。这种因果验证加强了使用注意力作为神经相关性原则性指导的理由,使我们能够研究这些优先单元是否具有独特的生理特性。
对全局群体和高注意力子集之间的光响应特征进行统计比较,揭示了取决于视觉任务的不同的选择模式(图6)。在闪光刺激下,编码器优先选择具有显著更高发射率的子集,并倾向于持续的时间响应,这表明其策略旨在最大化总信息容量。这种对时间持续性的关注使模型能够跟踪强烈的全局亮度调制,利用了更高放电频率与更大绝对信息率相关的事实(Baden等人,2016年;Koch等人,2004年)。对于移动球刺激,高注意力单元在偏差、可持续性、发射率或延迟多样性方面并未偏离整体群体。我们将这种对群体内在多样性的依赖解释为对复杂运动的更大空间结构和方向要求的适应(Fiscella等人,2015年;de Vries和Baylor,2002年)。总体而言,这些结果表明,编码器根据任务的时空需求分配注意力,平衡了绝对信息率和编码效率之间的权衡(Koch等人,2004年)。这表明POYO的注意力机制自主恢复了脊椎动物视网膜的代谢和计算原理,调整其选择标准以匹配视觉输入的信息论需求(Gollisch和Meister,2010年;Meister等人,1995年;Koch等人,2004年)。在解码器中,虽然学习到的潜在向量的功能含义仍然抽象,但基于熵的分析显示其内部逻辑出人意料地具有可解释性。在闪光刺激下,我们观察到解码器注意力组织成重复的、带状模式,所有头部都冗余地跟踪全局亮度调制。这一点通过熵迹线得到证实,这些迹线与光强度的时间轮廓显示出强烈的、一致的相关性(r值在-0.77到-0.93之间)。在没有空间复杂性的情况下,模型采用了一种统一的检索策略,将其计算资源集中在唯一可用的刺激维度上。在移动球刺激下,注意力模式变得高度异质。我们的方向分解显示,这些头部表现出不同的方向调谐偏好,这一点通过图8F中不同的皮尔逊相关向量清晰可见。这些向量的空间方向性表明,各个头部专门监测视野内的特定区域和方向,有效地划分了刺激空间。这种专门的空间组织为脊椎动物视网膜的并行处理流提供了有力的功能类比。具体来说,解码器头部之间的“劳动分工”反映了方向选择性神经节细胞(DSGCs)的生理组织。正如DSGCs被组织成基本方向以编码运动向量(Vaney等人,2012年;Fiscella等人,2015年)一样,POYO框架自发采用了一种多通道加权策略来解析时空复杂性。这表明模型不仅仅执行高维回归;它隐式地恢复了生物编码原理,以过滤冗余信息,优先处理局部运动特征。尽管缺乏潜在向量的明确生理标签仍然是一个挑战,但这些基于熵的相关向量为我们提供了对神经群体编码逻辑的稳健定量窗口。
我们得出结论,基于变压器的架构,特别是POYO框架,不仅实现了最先进的解码性能,还自发恢复了基本的生物编码策略。我们对编码器-解码器动态的分析表明,模型根据刺激复杂性自适应地重新分配其计算资源,从全局闪光的冗余、同步池化转变为针对结构化运动的高度专业化的、异质的注意力头部招募。通过基于注意力的消融建立直接的因果联系,我们证明了模型的内部优先级具有生理学基础:它识别并依赖于特定的神经亚群体,移除这些亚群体会系统性地降低解码完整性。此外,模型能够选择性地对具有不同特征的单元进行加权,例如用于亮度跟踪的持续时间响应,这证实了人工注意力可以作为理解视网膜如何在并行功能通道间分配信息的原则性代理(Baden等人,2016年;Fiscella等人,2015年)。虽然我们承认学习到的潜在特征的抽象性质仍然对完全的机制透明度构成挑战,但我们的工作表明,当通过熵指标和统计假设检验进行验证时,这些架构提供了对神经群体编码逻辑的透明窗口。POYO能够自主优先处理相关生理特征的能力,将这些模型不仅视为解码器,而且视为大规模神经科学中自动化生物发现的强大工具。
作为进一步的研究,我们建议未来的进展需要将深度架构与注重可解释性的方法结合起来,包括因果扰动分析、与感受野模型的比较,以及鼓励基于生物学的潜在结构的框架(Bengio等人,2019年)。只有通过将预测能力与机制透明度结合起来,像POYO这样的模型才能超越黑盒解码,更直接地促进我们对视网膜计算的理解。从视网膜编码的角度来看,进一步研究每个注意力编码器头部内实现的不同编码策略将是有意义的,这有助于我们阐明触发群体编码、成对编码或独立神经编码的条件(Pillow等人,2008年;Averbeck等人,2006年;Nirenberg等人,2001年)。
打赏