亚历杭德拉·佩雷斯 | 奇内杜·恩沃耶 | 拉姆廷·拉吉·克梅尔马尼 | 奥米德·莫哈雷里 | 穆罕默德·阿卜杜拉·贾马尔
Intuitive Surgical, Inc., 加利福尼亚州桑尼维尔, 美国
摘要 视觉-语言预训练(VLP)通过将语言与手术视频对齐,为手术领域带来了独特的优势,使得无需依赖专家标注的数据集即可理解工作流程并在不同任务之间进行迁移。然而,手术VLP的进展仍受到现有数据集规模有限、程序多样性不足、语义质量不高以及层次结构欠缺的制约。在这项工作中,我们推出了SurgLaVi,这是迄今为止最大、最多样化的手术视觉-语言数据集,包含来自200多种手术的近24万个视频片段及其对应的字幕对,并具有粗粒度、中等粒度和细粒度的层次结构。SurgLaVi的核心是一个完全自动化的流程,能够系统地生成手术视频的细粒度转录,并将其分割成连贯的程序单元。为了确保注释的质量,该流程采用了双模态过滤技术来去除无关和噪声样本。在这个框架下,生成的字幕不仅语义丰富,而且易于理解。为了便于使用,我们发布了
SurgLaVi-b ,这是一个基于公共数据构建的开源衍生数据集,包含11.3万个视频片段及其字幕对,其规模是现有手术VLP数据集的四倍多。为了展示SurgLaVi数据集的价值,我们引入了SurgCLIP,这是一个基于CLIP框架的视频-文本对比模型,具有双编码器。SurgCLIP在阶段、步骤、动作和工具识别等方面取得了显著的改进,通常远超之前的最先进方法。这些结果证明了大规模、语义丰富且层次结构清晰的数据集能够直接转化为更强大、更具泛化能力的表示模型,从而确立了SurgLaVi作为开发手术基础模型的关键资源。
引言 视觉-语言预训练(VLP)将视觉和文本模态对齐在同一个嵌入空间中,将视觉特征与语言联系起来,从而支持多种下游任务,如开放词汇识别与检索(Radford等人,2021年)、字幕生成(Li等人,2022年)、视觉问答(Lu等人,2019年)和空间定位(Gu等人,2021年)。像CLIP(Radford等人,2021年)和SigLIP(Zhai等人,2023年)这样的开创性工作通过在大规模图像-文本对上进行训练,证明了这种范式的有效性,无需特定任务的监督即可实现强迁移,并减少了对手动标注数据集的依赖。除了自然图像外,这种方法在手术领域尤为重要:将程序语言与手术视频对齐有助于理解工作流程,支持跨阶段、步骤和工具的迁移,并缓解了手术领域专家标注数据集稀缺的瓶颈问题。
最近的研究开始将VLP应用于手术领域,通过将学术手术视频分割成片段并与自动音频转录配对(Yuan等人,2025年;Honarmand等人,2024年),显示出比仅基于自然图像预训练的模型更强的泛化能力。尽管取得了这些进展,但预训练的手术视频-语言模型在下游任务中的表现仍显著落后于特定任务的监督方法。尽管提出了越来越复杂的预训练框架来缩小这一差距(Honarmand等人,2024年;Yuan等人,2024a),我们认为根本问题不在于模型设计,而在于数据集本身,它们在多个维度上存在限制。首先,当前的VLP数据集构建流程依赖于启发式规则将学术手术视频分割成片段,这常常会截断或分割掉连贯的手术概念,导致片段-字幕对缺乏完整的语义意义。虽然一些研究试图通过更广泛的监督(如阶段级注释或视频级摘要)来丰富语义(Yuan等人,2024b;Yuan等人,2024a),但这些标签过于粗糙,无法捕捉到由动作、任务、步骤和阶段组成的手术工作流的细粒度、层次结构(Meireles等人,2021年)。其次,现有数据集中包含大量噪声样本,这意味着文本无法准确描述相应的视觉内容,或者包含与手术工作流无关的信息。这种噪声通常是由于视频和叙述之间的时间不对齐(由于转录工具不准确)、学术演示中包含非手术片段以及叙述与手术场景不符造成的。第三,现有数据集在规模和多样性方面存在不足。例如,SVL(Yuan等人,2025年)提供了2.5万个视频片段及其字幕对,但仅专注于腹腔镜手术;而GenSurgery+(Honarmand等人,2024年)虽然扩展到了机器人辅助手术,但规模仍然较小,只有1.7万个片段对。最后,现有数据集均未公开,进一步限制了该领域的研究可重复性和进展。这些问题表明,要推进手术VLP的发展,不仅需要重新思考模型预训练框架,更需要构建更好地反映手术工作流语义、结构和多样性的数据集。
为了解决这些问题,我们提出了三方面的贡献:(i)收集大量多样化的手术视频;(ii)设计一种全新的、完全自动化的、可扩展的流程,生成高质量的视频片段及其字幕对,这些片段在时间上精确,在不同粒度层面具有丰富的语义,并能真实反映手术工作流;(iii)设计一个简单的轻量级基础模型,并对数据集进行严格而全面的实验研究,验证精心策划的数据能够使简单架构超越在次优设计数据集上训练的复杂模型,突出数据集质量和规模的重要性。我们的数据集流程系统地整合了四个关键组成部分:(i)手术视频的细粒度转录 ;(ii)语义层次分割 ,将视频分割成代表不同粒度层次(粗粒度、中等粒度和细粒度)的程序单元的片段;(iii)双模态过滤 ,用于剔除非手术视觉内容和不完整或描述性差的字幕;(iv)上下文丰富 ,利用之前的叙述和视频元数据提升字幕质量。利用这一流程,我们构建了SurgLaVi数据集,这是迄今为止最大、最多样化的手术视觉-语言数据资源,包含来自200多种不同手术类型的近24万个视频片段及其字幕对,如图1所示。通过层次化数据结构,SurgLaVi在多个时间尺度上捕捉了完整的程序语义,使得在不同层次的手术识别中具有更强的区分能力。利用我们的自动化流程,我们还构建了SurgCLIP,这是一个基于CLIP框架的轻量级模型,它完全基于公共数据构建,包含11.3万个视频片段及其字幕对,其规模是现有手术视觉-语言数据集的4倍多,并已公开发布2
为了评估SurgLaVi在表示学习中的实用性,我们提出了SurgCLIP,这是一个基于CLIP框架的轻量级模型,具有双编码器。我们在SurgLaVi上进行预训练,并测试了它在四个下游任务上的效果:阶段、步骤、动作和工具识别,涵盖了七个公开的腹腔镜和机器人手术数据集。在零样本以及少量样本和全样本线性探针测试中,SurgCLIP的表现均优于现有方法。值得注意的是,即使在仅使用SurgLaVi数据集的较小子集进行预训练的情况下,SurgCLIP在多个阶段识别基准测试中也持续超越了之前的最先进方法,包括Cholec80(+0.3%)、AutoLaparo(+17.54%)、StrasBypass70(+6.41%)和Heichole(+3.62%)以及GraSP(+18.12%)。在完整的SurgLaVi数据集上训练时,模型取得了更强的结果,在不同基准测试中实现了显著的零样本F1分数提升(Cholec80上+10%,AutoLaparo上+28%,StrasBypass70上+11.14%,Heichole上+11.1%,GraSP上+25%)。除了阶段识别外,SurgCLIP还在步骤、动作和工具识别基准测试中取得了进步。这些结果表明,在SurgLaVi的层次结构数据集上进行预训练能够使标准模型有效编码手术工作流,而无需依赖复杂的架构或专门的层次预训练技术。广泛的消融研究进一步验证了我们的设计选择,并证实了我们方法的稳健性。
手术视觉-语言预训练数据集 由于缺乏专家手术注释,人们采用了弱监督方法,将手术视频与叙述配对作为上下文基础。SVL数据集(Yuan等人,2025年)率先采用了这一方法,使用AWS Medical Transcribe(AWS,2023年)和Whisper(Radford等人,2022年)这两种自动语音识别(ASR)系统,从讲座视频中收集了约2.5万个视频片段及其字幕对。虽然这种方法结合了医学术语识别和句子连贯性的优势,
SurgLaVi数据集和处理流程 如图2所示,我们提出了一种全新的、完全自动化且可扩展的四阶段流程,用于从手术视频生成层次化的视频-语言数据集。该流程利用不同的基础模型执行关键操作,包括转录、时间分割和过滤,从而在语言监督的框架下生成描述手术工作流的层次化注释。以下小节将介绍每个阶段的具体内容
SurgCLIP 我们使用一个基于双编码器的视频-语言模型作为数据集的基础模型,该模型采用对称对比目标进行训练。视频编码器采用ViT-B/16架构,具体实现为TimeSFormer模型(Bertasius等人,2021年),该模型具有分离的空间-时间注意力机制,允许同一模型处理从单帧到多帧的各种时间输入
零样本分类 实验设置和基准测试。 我们在腹腔镜和机器人手术模式、多种手术类型以及不同的时间粒度下评估了模型的泛化和迁移能力。这包括与我们预训练相匹配的识别层次,以及更细粒度的识别层次,如动作、三元组和工具识别。通过评估这些额外的层次,我们可以衡量模型处理相关任务的能力
局限性 我们的研究表明,在层次结构清晰且自动策划的手术视频-语言数据上进行的大规模多模态预训练能够显著推进手术领域的泛化表示学习,提高跨手术类型和模态的迁移能力,尽管尚未完全缩小与完全监督和特定任务模型的差距。这些结果展示了视觉-语言方法在广泛手术智能方面的潜力
结论 我们推出了SurgLaVi,这是手术领域最大、层次结构最清晰的视频-语言数据集,它从带有叙述的手术视频中捕捉了粗粒度、中等粒度和细粒度的程序知识。我们完全自动化的流程将原始手术视频集转换为时间精确、语义丰富的多粒度注释,开创了数据集设计的新标杆。在此基础上,我们构建了SurgCLIP,这是一个轻量级的CLIP风格模型
关于写作过程中生成式AI和AI辅助技术的声明 在准备这项工作时,作者使用了Open AI的ChatGPT来提高文本的可读性、语法和词汇表达。使用该工具/服务后,作者根据需要对内容进行了审查和编辑,并对出版物的内容负全责。
CRediT作者声明 亚历杭德拉·佩雷斯: 概念构思、方法论、软件开发、验证、形式分析、数据策划、初稿撰写、审稿与编辑、可视化;奇内杜·恩沃耶: 审稿与编辑、验证、监督;拉姆廷·拉吉·克梅尔马尼: 软件开发、资源收集、数据策划、验证、审稿与编辑;奥米德·莫哈雷里: 资源管理、项目协调、资金获取、审稿与编辑;穆罕默德·阿卜杜拉·贾马尔:
CRediT作者贡献声明 亚历杭德拉·佩雷斯: 审稿与编辑、初稿撰写、可视化、软件开发、方法论、数据策划、概念构思;奇内杜·恩沃耶: 审稿与编辑、验证、监督;拉姆廷·拉吉·克梅尔马尼: 审稿与编辑、软件开发、资源管理;奥米德·莫哈雷里: 审稿与编辑、资源管理;穆罕默德·阿卜杜拉·贾马尔: 审稿
利益冲突声明 作者声明他们没有已知的可能会影响本文工作的财务利益或个人关系。
亚历杭德拉·佩雷斯与Intuitive Surgical Inc.存在关系,包括就业关系;奇内杜·恩沃耶与Intuitive Surgical Inc.存在关系,包括就业关系和股权或股票持有;拉姆廷·拉吉·克梅尔马尼与Intuitive Surgical Inc.存在关系,包括就业关系和股权或股票持有。
打赏