理解和操作CLIP中的颜色表示

生物通首页 > 今日动态 > 正文

理解和操作CLIP中的颜色表示

时间：2026年1月31日

来源：Neurocomputing

编辑推荐：

神经网络组织颜色为低维流形，类似HSL色空间，基于此提出双向颜色对齐（BCA）方法优化变换矩阵，解决显微镜图像颜色不一致性，提升细胞分割模型泛化能力。

周佩琳|王炯毅|戴彦民|杜涵宇|顾玉良|徐永超

中国武汉大学计算机科学学院

摘要

本文展示了神经网络如何在类似于HSL色彩空间的低维流形上组织颜色，其中色调以圆形结构排列。基于这种几何理解，我们证明了可以通过操纵CLIP嵌入空间中的向量表示来实现颜色转换。我们提出了两种方法，这些方法能够优化一个轻量级的变换矩阵，在精确调整颜色的同时保持图像结构，而无需对视觉模型本身进行微调。我们的主要方法“双向颜色对齐（BCA）”直接将源图像对齐到目标颜色风格。我们将这种方法应用于细胞分割中的一个关键挑战，即不同数据集中的颜色不一致性会降低模型性能。与经常扭曲细胞形态的风格转移方法不同，我们的方法在保持结构完整性的同时成功规范了颜色分布。在多个数据集上的实验表明，我们的方法性能与手动颜色校正的效果相当。这些发现加深了对神经颜色表示的理解，同时为规范来自不同染色协议的显微镜图像提供了实用的解决方案。代码可在以下链接公开获取：https://github.com/Nuisal/color_clip。

引言

在哺乳动物大脑中，内嗅皮层的网格细胞通过环形流形结构形成了对物理空间的显著神经表征，从而实现了高效的空间导航[1]、[2]、[3]。这一涌现特性引发了一个有趣的问题：人工神经网络是否也会为感知属性发展出类似的有序表征？我们通过颜色感知的角度研究了这个问题，并找到了令人信服的证据。通过系统分析预训练的视觉网络如何编码纯色图像，我们发现颜色表征形成了结构良好的低维流形。如图1所示，当通过降维（UMAP [5]）可视化CLIP [4]等模型的嵌入时，颜色会组织成类似于HSL色彩空间的圆形结构，相似的颜色在流形上位置接近。

嵌入空间中的这种几何结构为颜色操作提供了强大的原理。我们发现，仅在颜色上不同的图像嵌入之间的向量差异（例如，“蓝色汽车 - 红色汽车”）与纯色嵌入之间的向量方向一致（例如，“蓝色 - 红色”）。这一洞察使我们能够将颜色转换表述为一个简单的优化问题。基于此，我们首先提出了“定向颜色变换（DCT）”，该方法通过将对象的嵌入位移与目标颜色向量对齐来编辑其颜色。

虽然DCT证明了这一原理的有效性，但嵌入空间操作的核心思想特别适用于解决显微镜图像分析中的一个实际问题：细胞分割中的颜色不一致性。大多数预训练的细胞分割模型都是为接受标准化的双通道输入而设计的（一个用于细胞核，一个用于细胞质）[6]、[7]、[8]、[9]、[10]。然而，来自不同实验室和染色协议的真实世界细胞图像通常是RGB图像，其颜色方案变化很大[11]、[12]。当颜色混合时——例如蓝色细胞核与黄色细胞质（其中黄色是红色和绿色通道的混合）——手动通道映射变得模糊或不可能，如图2所示。这种颜色不一致性严重降低了分割模型在不同数据源上的泛化性能[11]。

为了解决这一特定挑战，我们开发了“双向颜色对齐（BCA）”，这是一种更高级的方法，它直接对齐源图像和参考图像的嵌入。通过优化一个简单的矩阵，BCA有效地将来自不同染色协议的样本规范为一致的颜色表示，使预训练模型能够无需修改即可高效处理这些样本。我们的工作在多样化的数据源和专门的分析模型之间架起了桥梁。我们的工作有三个关键贡献：

•

我们发现神经网络将颜色表征组织成类似于HSL色彩空间的圆形流形。拓扑数据分析显示，ImageNet训练的模型形成圆盘状结构，而CLIP模型形成环状结构。

•

我们介绍了两种颜色转换方法：基于参考颜色的DCT用于颜色操作，以及用于与参考图像直接对齐风格的BCA。

•

我们证明了我们的BCA方法有效解决了细胞图像分析中的颜色不一致性问题，使预训练的分割模型能够在未经修改的情况下对来自不同染色协议的样本实现高性能。

实验片段

神经网络中的流形表示

发现神经群体在低维、结构化的流形上编码信息，为神经计算原理提供了深刻的见解。在神经科学中，一个显著的例子是哺乳动物大脑中物理空间的表征[1]、[3]，其中头部方向细胞和网格细胞的集体活动分别形成了环形和环形流形。这些几何结构对于实现高效的空间导航至关重要。

颜色表征的流形

我们的分析表明，神经网络将颜色组织成具有HSL特性的结构化流形，其中色调呈圆形排列。本节详细介绍了我们分析所使用的方法以及这些颜色表征的几何和拓扑特性。

DCT

我们发现CLIP将颜色组织成结构化的、类似HSL的流形，这对颜色操作具有深远的影响。我们称之为“方向一致性”的这一流形的关键特性在图4中得到了可视化。在像CLIP这样的结构良好的色彩空间中（图4a），表示色调变化的向量（例如，从红色到蓝色）在很大程度上独立于饱和度。因此，向量L1（高饱和度）和L2（低饱和度）是平行的。

实验

为了评估我们提出的BCA方法的有效性，我们进行了一系列定性和定量实验。目的是证明BCA可以为显微镜图像进行准确的颜色规范化，从而在保持关键细胞形态的同时提高下游细胞分割性能。我们将BCA与几种风格转移和生成方法进行了基准测试，以确立其在科学图像分析中的优势。

结论

我们研究了神经网络中的颜色表征，并开发了有效的颜色操作方法。我们的发现表明，神经网络将颜色组织成类似于HSL色彩空间的结构化流形，其中CLIP模型形成环状结构，而ImageNet训练的模型形成圆盘状结构。基于这些表征，我们开发了两种互补的颜色转换方法：用于精确颜色编辑的DCT和用于颜色转换的BCA。我们证明了...

CRediT作者贡献声明

周佩琳：撰写 – 审稿与编辑、撰写 – 原始草稿、可视化、验证、软件、资源、方法论、形式分析、数据整理、概念化。王炯毅：撰写 – 审稿与编辑、方法论、概念化。戴彦民：撰写 – 审稿与编辑、方法论、形式分析、概念化。杜涵宇：软件、数据整理。顾玉良：方法论。徐永超：撰写 – 审稿与编辑、监督、项目管理、概念化。