YORU：基于目标检测的实时动物社交行为分析与闭环神经调控新方法

时间：2026年2月13日

来源：SCIENCE ADVANCES

编辑推荐：

本研究提出一种名为YORU的创新动物行为检测系统，它利用基于YOLOv5的目标检测算法，将动物姿态定义为“行为对象”进行识别。该系统成功实现了对果蝇、蚂蚁、斑马鱼和小鼠等多种动物社交行为的高精度实时检测，并展示了其在闭环光学遗传学（Optogenetics）神经调控中的应用潜力，为解析行为与神经活动的因果关系提供了强大工具。

社交行为，如求偶、攻击和群体形成，对包括无脊椎动物和脊椎动物在内的多种动物的生存率和繁殖效率至关重要。理解这些行为的神经基础，需要捕捉个体间发生社交互动时的位置和类型信息。近年来，机器学习的发展催生了多种动物行为检测工具，尤以无标记身体部位追踪（姿态估计）和无监督或有监督的行为分类为代表。这些新兴工具使得实时行为分析成为可能，允许研究者在动物表现出目标行为时精确操纵神经活动。这种闭环方法有望阐明神经活动与行为之间的因果关系，并已在揭示单个个体行为的神经基础方面取得了实质性成功。然而，尽管这些工具已被用于分析涉及多个个体的社交互动，检测此类互动仍然是一个重大挑战。这一困难源于基于每个个体身体部位坐标来定义社交行为的复杂性。特别是，涉及复杂动作（如小鼠梳理身体）或不规则/细微重复运动的动物行为的准确检测，以及身体部位被遮挡的情况，都带来了相当大的挑战。当观察的个体数量增加时，这些问题会加剧，使得检测社交互动变得困难。因此，需要新的方法来检测社交互动，并为神经干预进行实时行为分析。

本研究提出了一种基于动物外观、将每个行为定义为“行为对象”来检测多个个体社交行为的方法。为此，我们聚焦于目标检测算法YOLOv5，这是一种基于卷积神经网络的高速目标检测算法。该算法通过将检测框定为单一回归问题，使用统一架构在一次前向传播中处理整个图像，从而实现快速目标识别。该方法对目标方向、数量、大小和背景噪声的变化具有鲁棒性。因此，这种目标检测方法是检测各种动物社交行为的有前途的方法，它不依赖于身体部位坐标，使其非常适合用于行为分析和研究社交互动的闭环系统。

我们建立了一个名为YORU（Your Optimal Recognition Utility）的行为检测系统，该系统基于目标检测算法。首先，为了验证概念，我们测试了YORU是否可用于检测从脊椎动物到昆虫等多种动物的社交行为。作为我们行为分析的应用，我们将检测结果与小鼠的神经活动成像进行比较，以解释大规模脑活动。其次，我们评估了YORU实时分析中的检测推理速度和系统延迟。最后，作为YORU闭环系统的实际示例，我们在YORU系统下测试了通过应用光学遗传学神经操作来调节果蝇求偶行为。在存在多个果蝇的情况下，我们通过光遗传学刺激表现出目标行为的个体，成功以个体选择性的方式操纵了其神经活动。

YORU是一个用于动物行为识别的框架，它是一个具有图形用户界面（GUI）的动物行为检测系统。在YORU系统中，动物行为，无论是单个动物执行还是多个动物相互互动，都基于其形状通过目标检测算法分类为“行为对象”。这种基于目标检测的方法从单帧图像中识别动物行为，这区别于其他依赖于随时间追踪个体身体部位的行为分类工具。因此，动物行为可以比以往方法更快速地检测，使得YORU适用于实时分析。YORU是一个开源Python软件，由四个包组成：“训练”、“评估”、“视频分析”和“实时处理”。YORU系统设计为既可离线（视频分析）也可在线（实时分析）工作以检测动物行为。在视频分析期间，YORU允许我们根据用户定义的社交行为形状来量化动物行为。对于实时分析，YORU实时分析动物行为，可用于输出触发信号来控制外部设备，例如用于光遗传学控制的发光二极管（LED）。

我们为YORU的工作流程设定了三个约束条件：便于实验者使用、低系统延迟和高可定制性。为了使YORU用户友好，我们设计了该系统，允许无需编程知识即可量化动物行为。为了实现低系统延迟，我们特别关注了在作为闭环系统操作时的行为检测和反馈。在此，即时行为检测通过目标检测方法实现，该方法同时处理生成区域建议和分类主体，从而实现更快检测。即时反馈，例如响应动物行为的光遗传学操作，通过整合基于多处理的定制系统实现：图像采集、目标识别和硬件（Arduino、数据采集系统等）操作不是串行处理，而是同时进行。为了实现高可定制性，即轻松使YORU系统适应各种实验系统，YORU实现了用于硬件操作的触发输出。实验者可以在YORU软件中自定义行为检测的阈值，无需或仅需最少的用户编程。YORU还支持通过串行通信与外部硬件（即DAQ系统和微控制器）及其他软件（例如Bonsai）进行通信，从而实现与现有应用的同步和交互操作。这些特性使实验者能够轻松实现高性能的闭环神经反馈系统。我们在其他行为分析工具使用的基准数据集上评估了YORU：Mouse-Ventral1、Mouse-Ventral2和CalMS21。小鼠的探究、爬跨和梳理等行为被成功检测，证明了YORU准确检测行为的潜力。

在之前的研究中，目标检测方法已成功分类了果蝇的一些社交行为，例如攻击行为和交配。在本研究中，我们扩展了这一思路，并使用YORU分析了多种动物行为。测试了以下社交行为以验证性能：（i）果蝇，雄性在求偶期间向雌性展示的展翅行为；（ii）蚂蚁，工蚁之间的口对口食物传递行为（交哺现象）；（iii）斑马鱼，在隔板后朝向另一个体的定向行为。我们从多个视频中提取了2000张图像，并根据以下定义手动标注了它们的行为对象：1) 果蝇：“wing_extension”，一只果蝇展开其一只翅膀。当果蝇未被标注为“wing_extension”时，它们被标注为“fly”。2) 蚂蚁：“trophallaxis”，两只蚂蚁的头部进行食物交换，口器相互接触；“no”，两只蚂蚁头部靠近但未进行食物交换的情况。当这两种行为类型都未检测到时，不给予标签。3) 斑马鱼：“orientation”，两条斑马鱼表现出如先前研究定义的定向行为；“no_orientation”，一条斑马鱼未表现出定向行为。

我们创建了模型，并使用未用于模型创建过程的多个视频验证了它们的检测准确率。与人类手动标注相比，模型检测果蝇、蚂蚁和斑马鱼行为的准确率得分分别为93.3%、98.3%和90.5%。相应的F1分数（提供了检测性能的平衡度量）分别为81.1%、95.9%和87.9%。为了对这些分数进行基准测试，我们使用广泛使用的实时姿态估计框架SLEAP以及无监督和有监督的行为分类方法（分别为Keypoint-MoSeq和A-SOiD）分析了果蝇和蚂蚁的行为。在SLEAP分析中，一些身体部位未被准确检测，个体动物或其身体方向偶尔被错误识别。在使用SLEAP跟踪数据的Keypoint-MoSeq分析中，结果行为聚类未能充分代表目标动物的实际行为。在A-SOiD分析中，与人类手动标注相比，果蝇和蚂蚁行为的准确率得分分别为69.7%和95.1%；相应的F1分数分别为53.9%和87.6%。在相同的评估协议下，YORU优于A-SOiD，与人类标注相比实现了更高的准确率和F1分数。我们还比较了基于身体部位追踪的先前方法（通过Fish Tracker）和人类标注对斑马鱼定向行为的分析，准确率和F1分数分别为81.2%和78.7%。总之，YORU可以比先前的分析方法更快、更准确地检测果蝇的展翅、蚂蚁的交哺现象和斑马鱼的定向行为。更广泛地说，这些结果表明YORU可以以与人类标注相当的准确率检测广泛的社交行为。

一般来说，基于深度学习的分析在实际应用中需要考虑的两个主要因素是训练数据量（标签数量）和基础网络的选择。为了在我们的数据集中找到最佳条件，我们评估了使用不同数量训练图像和不同YOLOv5网络（按模型大小和复杂度排序：YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x）的模型准确率。本次评估中使用了两个指标：“精确率”，即正确预测的检测结果与所有预测检测结果之比；“召回率”，即正确预测的检测结果与所有真实值（ground truth）之比。所有模型检测目标社交行为的精确率均大于85%，召回率均大于90%，即使在仅使用200张图像创建模型时也是如此。精确率和召回率分数随着训练图像数量的增加而增加，当使用1000张或更多图像进行训练时，最终分别超过90%和95%。然后我们评估了典型的目标检测模型指标：平均精度（AP）和交并比（IoU）。这两个指标可用于比较不同条件下模型的准确率；IoU显示了真实边界框和检测到的边界框之间位置信息的差异，而AP反映了行为类别的准确率，其中包括精确率和召回率值。对于每种行为，使用的训练图像数量和测试的YOLOv5模型都不影响IoU值。另一方面，AP值随着训练图像数量的增加而增加，相同数量的图像在不同YOLOv5基础模型上给出了相似的AP值。这些评估表明，影响准确率的主要因素是训练数据量，而基础网络的选择影响相对较小，至少在这些案例中是如此。因此，我们建议将YOLOv5网络大小与任务复杂度对齐：对实时应用使用较小的模型（YOLOv5n/s），对需要细粒度识别且优先考虑准确率而非速度的任务考虑使用较大的模型（YOLOv5l/x）。

接下来，我们增加了个体数量，以测试YOLOv5模型在多个体条件下的性能。在第一个条件下，分析了一组果蝇（四只雄性和四只雌性），以检测三个对象：wing_extension、“copulation”和被标记为fly的其他行为。在第二个条件下，使用了一组蚂蚁（六只蚂蚁）来检测两个对象：trophallaxis和“no trophallaxis”。在果蝇组中，即使仅使用200张图像进行训练，精确率和召回率分数也超过95%；分数随着训练图像数量的增加而增加。在蚂蚁组中，使用500张或更多训练图像时，精确率和召回率分数超过90%。这些结果表明，YORU对社交行为的检测也适用于多个个体（超过两个个体），且准确率高，突显了其在分析各种类型社交行为方面的有用性。检测准确率不随不同YOLOv5预训练模型而发生显著变化，而是强烈依赖于训练图像的数量。为了探索YORU可检测对象数量的极限，我们分析了包含5到60只果蝇的竞技场视频。结果显示，即使存在60只果蝇，检测到的个体数量仍保持在误差范围内。此外，将行为类型增加到三种对准确率的影响最小。值得注意的是，这些分析是使用仅在与八只果蝇相关的视频上训练的模型进行的。这些发现表明，YORU能够有效地分析大量个体，甚至超出其最初训练的条件。

最后，我们将YORU的准确率与常规图像分类算法和替代目标检测框架进行了比较。虽然图像分类算法缺乏识别哪个个体表现出特定行为以及它在竞技场内何处发生的能力，但它们检测社交行为的准确率与YORU相当。虽然其他目标检测算法能够分析社交行为，但YORU在变化的训练图像数量下表现出更稳定的准确率，特别是在AP@50阈值下。然而，在更严格的AP@75阈值下，一些替代算法实现了更高的性能。这些发现表明，图像分类和目标检测方法对于分析动物社交行为都是可行的。然而，在目标检测方法中，基于YOLO的算法具有明显的优势，包括更低的训练成本和更短的推理延迟。此外，它们提供行为事件空间信息的能力使得基于YOLO的模型特别适合集成到YORU中。

神经生理学的主要问题之一是解释哪些感觉和行为可以解释观察到的神经活动。一种有前途的方法论是通过视频分析将多种行为类型的时间序列分析与神经活动测量相结合。为了测试YORU在此类任务中的性能，我们通过宽场钙成像记录了在虚拟现实（VR）系统中跑步的小鼠的背侧皮层范围的神经活动，该系统提供与其运动耦合的视觉反馈。在VR中跑步的小鼠通常表现出多种行为，例如跑步、“抖动胡子”、“眨眼”和“梳理毛发”。首先，为了验证YORU的行为分类性能，我们通过视频分析估算了八个行为类别的时间序列：“Running”、“Stop”、“Whisker-On”、“Whisker-Off”、“Eye-Open”、“Eye-Closed”、“Grooming-On”和“Grooming-Off”。模型检测这些行为的精确率和召回率得分分别为91.8%和92.7%，验证了该模型检测小鼠行为的准确性与人类手动标注相当。对于该模型检测的所有类别，平均IoU和AP@50分别高于0.60和0.55。先前的研究报告称，啮齿动物在运动期间会主动移动胡须以寻找和识别前方的物体或避开障碍物。与这些报告一致，跑步期间主动胡须运动的时间序列数据呈正相关，而Whisker-Off和Running呈负相关。这些结果进一步证实，YORU的行为标记方法可以有效检测小鼠的典型行为。

接下来，我们研究了YORU读数与皮层中哪些大脑区域相关。跑步时期与内侧运动区、代表前肢和后肢信息的体感区、视觉区和后部关联区域（压后皮层）的神经活动高度相关。与停止期相关的几种胡须运动以及眨眼行为也与体感区和视觉区广泛区域的独特宏观活动模式相关联。正如预期，梳理行为特别与前肢体感和运动区的神经活动相关。来自YORU读数的相关图的空间模式与所有分析行为的真实标签（ground-truth labels）导出的空间模式高度相似。这种强对应性支持了我们的结论，即YORU提供了行为相关的读数，与潜在的神经活动模式可靠相关，可与使用传统真实标签方法获得的结果相媲美。这些结果证明了YORU在精确和定量解释各种动物行为的神经活动方面的适用性和潜力。

依赖动物行为实时反馈的闭环系统需要用于行为检测和反馈输出的低延迟解决方案。为了评估YORU在社交行为分析闭环系统中应用的潜力，我们使用简单的灯光检测任务测量了从帧采集到行为估计所需的总时间。可能影响YORU行为检测速度的主要因素包括网络结构、图像大小和计算硬件，特别是图形处理单元。为了演示它们对分析每帧的影响，我们测量了单帧推理延迟，包括五种YOLOv5架构、两种输入图像大小以及Windows PC中各种NVIDIA GPU。我们发现最小的网络（YOLOv5n）速度最快，而最大的网络（YOLOv5x）推理延迟最大。此外，图像尺寸越小、NVIDIA GPU越强大，推理速度越快。例如，使用NVIDIA RTX 4080 GPU，我们使用YOLOv5s网络实现了低至每帧约5.0毫秒的推理速度。这些结果表明，网络架构、输入图像大小和GPU都会影响YORU的推理速度。

适应神经科学实验的闭环系统设计需要同时控制多个进程，例如相机捕获和硬件操作。此外，其他几个因素，如相机类型和帧率、触发目标类型和PC内存，也会影响系统延迟。因此，我们测试了YORU闭环系统从端到端的性能，包括从相机捕获LED图像到PC检测LED是否亮起并在检测到“ON”状态时发送触发信号给DAQ系统的整个过程。LED亮起到触发信号输出之间的延迟（通过测量它们的电压使用DAQ检测）可低至每个事件30毫秒。这表明在此设置中YORU系统的端到端系统延迟约为30毫秒，在大多数情况下足够低，足以提供响应动物行为的实时反馈。接下来，我们评估了影响端到端系统延迟的因素，如网络、输入图像大小、相机帧率和系统硬件。网络差异的影响几乎可以忽略不计，除了YOLOv5l和v5x显示出比其他网络更大的延迟。另一方面，输入图像大小严重影响延迟；较小图像的平均延迟约为30毫秒，而较大图像的平均延迟约为75毫秒。根据相机fps延迟结果，即使相机帧获取速度与模型的推理速度一样快，由于YORU的多处理系统，系统延迟也不会很大。在多处理系统中，随机存取存储器（RAM）的大小和处理速度影响系统的处理速度。在YORU的实时处理中，RAM的大小对系统延迟的影响较小，表明16 GB RAM足以运行YORU的实时处理。由于硬件差异（相机和触发设备）对系统延迟的影响很小。这些结果表明，推理速度和输入图像大小是影响端到端系统延迟的主要因素。

此外，我们将YORU与SLEAP进行了基准测试。为了评估闭环响应速度，我们在相同的实验条件下测量了起始延迟。YORU的平均延迟为31.3 ± 8.0毫秒，比SLEAP的延迟46.5 ± 10.0毫秒低约30%。这些结果表明YORU为实时分析提供了更快的处理速度。

接下来，为了评估YORU闭环系统的实际适用性，我们将其应用于事件触发光遗传学操作。在求偶期间，雄性果蝇展开翅膀，用独特的声音（称为求偶歌）向雌性求爱。听到后，雌性果蝇逐渐增加对交配的接受性。我们假设，如果雄性在尝试展翅时其展翅行为被抑制，交配率就会降低。我们使用在pIP10神经元中特异性驱动基因表达的分裂GAL4品系，pIP10是调节求偶歌产生的下行神经元，在雄性pIP10神经元中表达绿光门控阴离子通道GtACR1。然后，我们将单个突变雄性与野生型雌性在培养室中配对，并允许YORU检测果蝇的单侧展翅。在此系统中，当YORU检测到标记为wing_extension的对象时，YORU将绿光光刺激引入整个培养室。作为光刺激的对照，我们使用具有1秒延迟的事件触发光来照亮整个培养室。在pIP10神经元中表达绿色荧光蛋白（GFP）的雄性果蝇也被用作遗传对照组。然后，我们分析了求偶期间的展翅比例和30分钟观察期内的交配率。在实验组中，雄性在求偶期间减少了展翅量，验证了pIP10诱导行为的光遗传学抑制。与此一致，实验组的累积交配率显著低于对照组。这些结果证实了先前报道中雄性pIP10神经元对诱导展翅行为的重要性，这随后导致雄性交配成功。它们也验证了YORU在检测特定行为时操作神经活动实时操纵的性能。

我们应用YORU对多个个体之间的社交行为进行个体选择性神经操作。我们在YORU的闭环系统中加入了一个投影仪，以控制光遗传学刺激的光照模式。当YORU检测到目标行为时，它发送位置信息以聚焦投影仪的光。我们使用果蝇求偶实验来测试该系统的可用性，通过仅在雄性唱求偶歌时抑制雌性听力。我们假设，在雄性求偶歌产生期间破坏雌性听力会抑制雌性交配接受性，导致交配率降低。我们使用选择性标记听觉感觉神经元的JO15-2-Gal4品系，在雌性听觉感觉神经元中表达GtACR1。然后，我们将这些雌性各与一只野生型雄性在培养室中配对，并利用YORU的在线能力。在此系统中，当YORU检测到标记为单侧展翅的对象时，YORU操作的投影仪会照亮标记为fly的对象，这通常是被雄性求偶的雌性。YORU操作的个体聚焦光刺激成功在总刺激期的89.5%期间将光照引导到目标果蝇的胸部。作为个体聚焦光刺激的对照，我们使用模式光（开3秒，关4秒）照亮整个培养室。在实验组中，交配率显著低于对照组。这一结果证实了听觉感觉神经元对雌性检测雄性求偶歌以增强交配接受性的重要性。YORU能够通过个体聚焦照明来光遗传学操纵神经活动，即使多个个体同时在一个培养室中移动。这些实验验证了YORU系统的有用性，它可以通过触发输出来操纵各种设备，如投影仪以及DAQ和Arduino。这些概念验证实验证明了YORU在在线检测社交行为以及通过光遗传学操作个体聚焦神经活动方面的有用性。

我们在此提出了YORU，一个使用目标检测算法的动物行为检测系统。YORU允许检测社交行为以及单动物行为。此外，通过引入实时分析，YORU可以以低延迟和高用户可扩展性操作闭环系统。我们还通过果蝇求偶行为演示了实时神经操作的实际适用性。特别是，我们创建了一个个体聚焦照明系统，以响应特定行为来操作选定个体的神经活动。因此，YORU的闭环系统是社交行为研究的有力方法。在用户方面，YORU可以完全通过其GUI使用，无需任何编程。就像姿态估计分析工具（如DeepLabCut）已经彻底改变了神经科学研究一样，YORU将满足许多生物学家的需求，并刺激产生新的、可检验的假设。

特定行为的分类在生物学中至关重要。在基于姿态估计的方法中，行为通常由身体部位的位置定义。使用身体部位坐标数据的有监督和无监督分类方法都可用于识别已知行为，并通过分析时间序列坐标信息来发现以前未识别的行为模式。然而，实时高准确率分类已知行为仍然是一个挑战。例如，识别果蝇展翅等行为的姿态估计方法需要准确检测翅膀和身体轴，以及基于它们相对角度定义行为。如果任何身体部位跟踪不准确，行为可能无法正确识别。此外，跟踪多个个体的行为需要区分哪些身体部位属于哪个动物。尽管已经提出了各种算法来应对这些挑战，但多个个体的实时行为跟踪仍然很困难。在我们尝试使用身体部位跟踪方法对“果蝇-展翅”和“蚂蚁-交哺现象”数据集进行行为分类时，我们观察到了几个限制，包括身体部位检测的频繁失败、个体错误识别和方向错误分配。这些失败的一个可能原因是，果蝇-展翅数据集最初记录用于验证YORU捕捉翅膀运动，其图像质量有限。因此，包括翅膀在内的某些身体部位难以解析，降低了SLEAP分析的准确率。身体部位跟踪中的这些限制可能是在Keypoint-MoSeq和A-SOiD分析中观察到的行为检测准确率降低的主要因素。相比之下，YORU中使用的目标检测算法（YOLOv5）提供了一种鲁棒的替代方案，尽管目标方向、数量、大小和背景噪声存在变化，仍能保持可靠的性能。因此，它有效补偿了基于姿态估计的行为分类的局限性，即使在涉及多个动物的情况下也是如此。值得注意的是，YORU从每帧中单步检测动物行为，即使是在足以进行动物行为量化的相机分辨率下，也能实现适合实时处理的快速推理。然而，YORU的一个关键限制在于其无法检测无法从单视频帧中可靠区分的行为。在这种情况下，由于能够跨多帧整合时间动态，姿态估计方法通常优于目标检测方法。因此，目标检测方法（如YOLO）和姿态估计方法在根本上是不同但互补的，相互补偿缺点而不是竞争。研究人员可以选择最合适的工具或结合两种方法以满足其特定需求，从而加速跨学科行为分析的进步。

在这项研究中，我们证明了YORU适用于检测头固定小鼠的典型行为模式。虽然图像分类方法（如ResNet50和DensNet121）对头固定动物也有效，但YORU的一个关键优势是它能够同时提供行为分类和空间定位。空间信息对于实现需要低假阳性率的闭环干预很有价值。例如，在需要监测肢体或手指运动的头固定实验中，位置检测仍然至关重要。此外，当在解剖学上不可能或空间上不适当的位置检测到特定行为时，空间信息可以作为独立于分类置信度的补充指标。这使得能够从后续分析或闭环干预中排除假阳性检

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部