在哺乳动物大脑中,内嗅皮层的网格细胞通过环形流形结构形成了对物理空间的显著神经表征,从而实现了高效的空间导航[1]、[2]、[3]。这一涌现特性引发了一个有趣的问题:人工神经网络是否也会为感知属性发展出类似的有序表征?我们通过颜色感知的角度研究了这个问题,并找到了令人信服的证据。通过系统分析预训练的视觉网络如何编码纯色图像,我们发现颜色表征形成了结构良好的低维流形。如图1所示,当通过降维(UMAP [5])可视化CLIP [4]等模型的嵌入时,颜色会组织成类似于HSL色彩空间的圆形结构,相似的颜色在流形上位置接近。
嵌入空间中的这种几何结构为颜色操作提供了强大的原理。我们发现,仅在颜色上不同的图像嵌入之间的向量差异(例如,“蓝色汽车 - 红色汽车”)与纯色嵌入之间的向量方向一致(例如,“蓝色 - 红色”)。这一洞察使我们能够将颜色转换表述为一个简单的优化问题。基于此,我们首先提出了“定向颜色变换(DCT)”,该方法通过将对象的嵌入位移与目标颜色向量对齐来编辑其颜色。
虽然DCT证明了这一原理的有效性,但嵌入空间操作的核心思想特别适用于解决显微镜图像分析中的一个实际问题:细胞分割中的颜色不一致性。大多数预训练的细胞分割模型都是为接受标准化的双通道输入而设计的(一个用于细胞核,一个用于细胞质)[6]、[7]、[8]、[9]、[10]。然而,来自不同实验室和染色协议的真实世界细胞图像通常是RGB图像,其颜色方案变化很大[11]、[12]。当颜色混合时——例如蓝色细胞核与黄色细胞质(其中黄色是红色和绿色通道的混合)——手动通道映射变得模糊或不可能,如图2所示。这种颜色不一致性严重降低了分割模型在不同数据源上的泛化性能[11]。
为了解决这一特定挑战,我们开发了“双向颜色对齐(BCA)”,这是一种更高级的方法,它直接对齐源图像和参考图像的嵌入。通过优化一个简单的矩阵,BCA有效地将来自不同染色协议的样本规范为一致的颜色表示,使预训练模型能够无需修改即可高效处理这些样本。我们的工作在多样化的数据源和专门的分析模型之间架起了桥梁。我们的工作有三个关键贡献:
•我们发现神经网络将颜色表征组织成类似于HSL色彩空间的圆形流形。拓扑数据分析显示,ImageNet训练的模型形成圆盘状结构,而CLIP模型形成环状结构。
•我们介绍了两种颜色转换方法:基于参考颜色的DCT用于颜色操作,以及用于与参考图像直接对齐风格的BCA。
•我们证明了我们的BCA方法有效解决了细胞图像分析中的颜色不一致性问题,使预训练的分割模型能够在未经修改的情况下对来自不同染色协议的样本实现高性能。