通过特征融合释放并整合预训练视觉变换器（ViTs）的强大能力，以实现开放词汇表对象检测

时间：2025年12月19日

来源：Displays

编辑推荐：

开放词汇目标检测中，现有方法存在过拟合和特征适应性不足的问题。本文提出VMCNet多分支骨干网络，融合CLIP和SAM预训练ViT的特征，通过轻量级CNN分支生成多尺度载波特征进行调制，实现跨模型知识迁移与检测性能提升。实验表明，在OV-COCO和OV-LVIS数据集上，VMCNet分别达到47.5 AP和27.7 mAP，优于SOTA方法。

在开放词汇目标检测（OVOD）领域，如何平衡模型对基础数据集的训练依赖与对未知类别的高效泛化能力始终是技术难点。传统方法多采用单一冻结视觉编码器或完全可优化网络架构，前者在适应新类别时存在特征表达能力受限的问题，后者则容易在基础数据训练中产生过拟合现象。近年来，基于预训练视觉语言模型（如CLIP和SAM）的方案逐渐兴起，这类模型通过大规模图文对预训练，能够实现跨模态的特征对齐，在零样本场景中展现出独特优势。然而，直接迁移这些模型的视觉编码器或检测头，往往难以满足密集预测任务的需求，特别是定位精度与特征表达的平衡问题。

针对上述挑战，研究者提出了一种名为VMCNet的新型多分支骨干网络架构。该设计核心在于构建双通道特征融合机制：一方面保留预训练模型（CLIP和SAM）固化的跨模态知识体系，另一方面通过可训练的轻量级卷积网络学习任务特定的空间特征分布。这种混合架构既规避了完全可优化网络带来的过拟合风险，又突破了单一冻结编码器在特征多样性上的局限。

在技术实现层面，系统性地融合了三个关键模块。首先，构建多分支特征提取体系，其中CLIP ViT和SAM ViT作为冻结分支保留原始预训练特征，新增的可训练CNN分支则专注于空间特征的自适应调整。这种设计使得网络既能继承预训练模型对图文语义关联的深层理解，又能通过局部空间特征的训练优化实现精准定位。

特征融合模块采用调制机制，借鉴通信系统中载波信号与信息信号的协同传输原理。可训练的CNN分支生成多尺度空间特征作为载波信号，而冻结的ViT分支输出经过适配的特征作为调制信号。通过设计特有的特征调制模块（MFG），系统性地将语义信息注入空间特征，这种融合方式突破了传统简单拼接或加权平均的局限，实现了跨模态知识的深度整合。

实验验证部分，在OV-COCO和OV-LVIS两个基准数据集上的测试结果具有显著参考价值。以ViT-B/16为基础的配置，在OV-COCO上达到47.5 AP（novel category），较基线方法提升约8-10个百分点。特别值得关注的是，当升级至ViT-L/14时，性能进一步跃升至52.8 AP，显示出模型容量与特征精度的正向关联。在OV-LVIS数据集上，VMCNet的mAP达到27.7，较现有最优方案提升超过5%，这充分验证了多尺度特征调制策略在复杂场景下的有效性。

该方法的创新性体现在三个维度：架构层面首次实现预训练ViT与可训练CNN的协同工作，技术层面提出特征调制融合机制，应用层面验证了在两个不同规模数据集上的普适性。值得关注的是，其核心突破在于将通信领域的调制理论引入计算机视觉任务，通过建立语义特征与空间特征的动态映射关系，既保留了预训练模型的知识优势，又通过可学习参数实现了对检测任务的空间特征优化。

从技术演进角度看，该研究延续了近年来预训练模型轻量化迁移的探索方向，但突破了传统方案的两个瓶颈：一是通过多分支架构实现不同预训练模型的特征互补，二是通过特征调制机制避免直接融合带来的信息丢失。这种双轨策略既保留了冻结预训练模型的知识稳定性，又通过可训练分支实现任务自适应调整，在OVOD场景中展现出独特的优势。

实际应用场景中，该方案特别适用于需要同时处理大量已知类别和未知类别目标的复杂环境。例如在自动驾驶领域，既需要识别常规交通标志（基础数据集），又要具备识别突发新增的临时路标（新类别）的能力。实验数据显示，在未知类别数量超过200个时，VMCNet的检测精度仍能保持稳定，这得益于其多分支特征融合机制对新增类别的快速适应能力。

性能提升的内在机理可归结为三个协同效应：首先，冻结的ViT分支通过跨模态预训练，建立了细粒度的语义特征空间；其次，可训练的CNN分支通过多尺度特征生成，构建了适应检测任务的局部空间表征；最后，特征调制模块通过动态权重分配，实现了语义信息与空间特征的精准耦合。这种三阶段协同机制有效解决了传统方法中特征对齐不充分、空间适配性不足等问题。

在工程实现方面，系统特别设计了轻量化处理方案。冻结的ViT分支采用特征提取器模式，仅保留前几层可冻结的预训练参数。新增的CNN分支通过合理的层间参数共享，既保证了计算效率又维持了特征表达能力。这种设计使得整体网络在保持较高精度的同时，计算复杂度较传统双分支方案降低约18%，内存占用减少23%，这对实际部署具有显著意义。

值得关注的是，该研究提出的特征调制机制具有很好的扩展性。在后续工作中，研究者计划将这种调制策略推广到更复杂的视觉任务，例如视频目标检测和3D场景理解。通过建立多模态特征动态调制的通用框架，有望进一步突破开放词汇场景中的检测精度瓶颈。

从学术贡献角度看，该研究为开放词汇检测提供了新的方法论参考。其核心思想是通过构建可解释的特征融合通道，实现预训练知识与任务需求的有效衔接。这种思想不仅适用于目标检测领域，还可推广到图像分割、实例检索等需要跨模态知识融合的任务。实验数据显示，在相同配置下，该框架对新增类别的识别速度比传统方法快约35%，误检率降低12-15个百分点，充分体现了特征融合策略的工程价值。

未来技术发展方向可能集中在三个层面：首先，探索更多预训练模型的协同机制，例如结合DeiT和Swin Transformer的优势；其次，开发更高效的动态调制算法，减少计算开销；最后，研究在长尾分布场景下的优化策略，提升模型对新类别检测的鲁棒性。这些方向的研究将进一步提升VMCNet框架在开放词汇检测领域的应用潜力。

总体而言，VMCNet的研究为开放词汇目标检测提供了具有理论深度和实践价值的新方案。其创新性的特征调制机制有效解决了预训练模型迁移中的关键矛盾，在保持模型稳定性的同时显著提升了未知类别的检测性能。该研究不仅为相关领域的技术发展指明了方向，更为实际应用中的多类别检测问题提供了可靠的技术支撑。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部