视觉神经元动态调谐与物体及纹理流形的对齐模式

时间：2026年3月11日

来源：Nature Neuroscience

编辑推荐：

为解决视觉神经元如何编码从纹理到物体的复杂特征这一难题，研究人员开展了基于深度生成对抗网络（GANs）的闭环优化研究。他们让V1、V4和PIT（posterior inferotemporal cortex）区的神经元分别引导DeePSim（纹理）和BigGAN（物体）模型生成偏好刺激。结果发现，早期视觉皮层神经元（V1/V4）更倾向于对齐纹理流形，而高级视觉皮层（PIT）神经元在反应后期更对齐物体流形，且能驱动两个模型产生共享的局部特征。这项研究揭示了腹侧视觉通路中神经元调谐的动态变化规律，为理解视觉编码机制和评估当前视觉计算模型提供了新的见解。

我们的视觉系统能够从千变万化的景象中迅速识别出对象、场景和纹理，这背后是大脑视觉皮层数以亿计的神经元在高效工作。然而，一个长期困扰神经科学家的谜题是：单个视觉神经元到底偏爱什么样的“视觉密码”？几十年来，从简单的朝向线条到复杂的人脸和物体，研究人员提出了各种假设。但一个奇特的现象是，许多视觉皮层神经元会对看似毫不相关的图片产生强烈反应，比如一张蜈蚣、一辆卡车和一座桥的图片，这挑战了传统的特征选择理论。视觉系统如何在语义关联性很弱的图片之间提取“关键特征”？这成为了理解高级视觉编码的核心挑战。

为了深入探究这个问题，由研究人员主导的团队在《Nature Neuroscience》上发表了一项开创性研究。他们不再局限于用预设的特征库去“试探”神经元，而是让神经元自己“发言”，通过一种被称为“闭环优化”的先进技术，引导深度生成模型合成最能激活它们的图像。研究人员特别设计了一场“模型竞赛”：让视觉神经元同时驾驭两个风格迥异的深度生成对抗网络（Generative Adversarial Networks, GANs）——一个擅长生成抽象纹理的DeePSim模型，和一个能生成逼真物体的BigGAN模型。通过并行优化，他们系统比较了神经元在“纹理流形”和“物体流形”这两种不同图像空间中的调谐（tuning）特性，从而动态揭示了神经元偏好特征在腹侧视觉通路（从初级视觉皮层V1，经V4区，到后颞下皮层PIT）中的演变规律。

该研究主要采用了基于深度生成对抗网络（GANs，包括DeePSim和BigGAN）的闭环图像优化技术。研究人员在四只雄性猕猴的V1、V4和PIT脑区植入慢性微电极阵列，记录单个或多个神经元的活动。在实验过程中，他们使用协方差矩阵自适应进化策略（CMA-ES）作为优化算法，以神经元在特定时间窗（50-200 ms）内的放电频率作为优化目标，实时、并行地在DeePSim和BigGAN的潜在空间中搜索能最大化神经元反应的图像。此外，研究还结合了计算模型分析，包括在计算机视觉网络（CNN）单元上进行预实验和参数调优，使用空间归因掩码（attribution mask）定位图像关键区域，以及通过Hessian调谐实验在BigGAN潜在空间中测绘神经元的局部调谐景观。

^结果

^{表征生成器并适应闭环优化}

研究人员首先定量比较了DeePSim和BigGAN的图像特性。BigGAN生成的图像在统计上更接近真实物体照片，而DeePSim在图像重建任务中表现出更高的灵活性。通过在卷积神经网络（CNN）单元上进行预实验，他们调整了优化算法的参数，使其能同时适用于两个生成器的潜在空间。预实验还发现，即使是用于物体分类的CNN高层单元，也更偏好纹理空间（DeePSim）的优化，这提示人工网络与生物视觉系统可能存在差异。

^{神经元引导的双生成空间图像合成}

关键的活体实验显示，V1、V4和PIT的神经元能够成功引导DeePSim和BigGAN两个空间的图像优化。在一个典型的PIT神经元实验中，两种优化线程都成功地提升了神经元的放电频率。尽管最终生成的图像在全局上看起来不同（DeePSim产生纹理样图案，BigGAN产生物体样图像），但它们包含了相似的局部视觉特征。

^{图像相似性是局部的且与反应动力学相关}

通过计算空间归因掩码和分析图像特征相似性，研究发现，同一神经元驱动DeePSim和BigGAN生成的优化图像，虽然在整体上不同，但在局部区域共享高度相似的特征模式。例如，一个橙色-红色的特征可能同时出现在两种优化图像中的相同位置。这种局部特征的相似性得到了特征空间相似性度量和计算模型重新优化的“特征示例”图像的证实。此外，神经元对不同生成器图像的反应时间过程（PSTH）的差异，与图像之间的相似性显著相关，表明时间动态编码了跨生成器的特征信息。

^{对齐性表现为爬坡的难易程度}

研究人员从三个维度量化了神经元调谐与生成器空间的对齐性：优化成功率、起点与终点的激活水平、以及收敛速度。结果显示，对齐性在腹侧通路中发生系统性变化：

•
优化成功率：在V1和V4区，纹理（DeePSim）空间的优化成功率远高于物体（BigGAN）空间。而在PIT区，两者成功率变得相近。
•
激活水平：优化前，BigGAN的初始图像在所有脑区都能引发更强的反应。优化后，V1和V4神经元对DeePSim图像的响应显著高于BigGAN图像，而PIT神经元对两者的响应水平相当。
•
收敛速度：在DeePSim空间中，收敛时间沿着腹侧层级（V1 < V4 < PIT）增加。在BigGAN空间中，V4到PIT的收敛时间无显著差异，且PIT神经元在BigGAN空间中收敛速度甚至快于在DeePSim空间。

这些结果表明，V1和V4神经元与纹理空间对齐更好，而PIT神经元与纹理和物体空间都表现出良好的、且程度相当的对齐性。

^{物体空间与PIT神经元的晚期反应对齐更佳}

通过分析神经元反应的时间动力学，研究发现了更精细的对齐模式。尽管在时间平均的反应水平上，PIT神经元对两种优化图像的响应相近，但其反应的时间过程存在差异。在PIT区，纹理（DeePSim）优化主导了神经元早期（约50-90 ms）的反应增强，而物体（BigGAN）优化则在更晚的时期（约110 ms之后）引发了更强的反应。这意味着PIT神经元对物体特征的编码发生在反应时间窗的后期。这种动态对齐在V4神经元中并未观察到。

^{绘制BigGAN潜在空间中的调谐景观}

为了探究神经元在物体空间中的调谐几何形状，研究在BigGAN优化结束后，从其终点出发，沿着潜在空间中正交的轴进行采样，测量神经元的反应，从而绘制局部的一维调谐曲线。结果发现，调谐曲线的形状（钟形bell-shaped或斜坡形ramp-like）高度依赖于前期优化的成功程度。当前期优化成功将神经元驱动到高水平激活时，其调谐曲线多呈现以采样起点为中心的钟形；若优化不成功，则调谐曲线更分散，且斜坡形比例增加。这表明，神经元的调谐形状并非固定不变，而是取决于刺激在图像流形中相对于其偏好峰值的相对位置。

^{讨论与结论}

本研究通过让视觉神经元并行引导纹理和物体两种深度生成模型，系统揭示了腹侧视觉通路中神经元调谐的动态对齐模式。核心结论是：视觉神经元的特征偏好并非静态或单一的，而是随着视觉处理层级的升高和反应时间的推移发生动态演变。早期视觉皮层（V1, V4）的编码更紧密地对齐于纹理样特征空间，而高级视觉皮层（PIT）的神经元则表现出双重能力——它们既能灵活地利用局部纹理特征，又能在反应后期更有效地对齐于物体结构空间。这种对齐性的转变，使得PIT能够整合来自不同特征域的视觉信息。

这项研究具有重要的理论和实践意义。首先，它提出了“对齐性”作为一个因果性的量化框架，用于描述神经编码与生成模型潜在结构之间的匹配程度，超越了传统的表征相似性分析。其次，研究发现PIT神经元能平等地引导纹理和物体生成器，而当前最先进的计算机视觉网络（CNNs）即使在高层也持续偏好纹理，这凸显了生物视觉系统与人工模型之间的关键差距，为构建更接近人脑的视觉计算模型提供了新的评估基准。再者，研究支持了高级视觉皮层采用一种基于共享局部特征（“局部组合码”）的编码策略，而非僵化的整体模板，这解释了为何单个神经元能对多种看似不相关的图像产生反应。最后，对调谐景观几何形状的分析表明，神经元的选择性模式是复杂且依赖于语境的，这为理解视觉编码的效率和灵活性提供了几何学视角。

总之，这项研究不仅深化了我们对视觉信息在皮层中如何逐级演化的理解，也展示了生成模型与闭环神经生理学结合的巨大潜力，为未来探索更复杂的感知和认知编码机制开辟了新道路。