传统生物声学分析与机器学习方法揭示四种塞拉多蚁鸫科鸟类声音二态性微弱

时间：2026年5月28日

来源：Journal of Ornithology

编辑推荐：

鸟类中的性别二态性常通过羽毛性状表达，然而，雄雌在声学特征上差异的程度在许多新热带雀形目鸟类中仍不清楚。在蚁鸫科（Thamnophilidae）中，多个物种表现出显著的羽毛二态性，但这些视觉差异是否伴随着一致的声学分化仍不明确。这一知识空白限制了研究人员对信号

鸟类中的性别二态性常通过羽毛性状表达，然而，雄雌在声学特征上差异的程度在许多新热带雀形目鸟类中仍不清楚。在蚁鸫科（Thamnophilidae）中，多个物种表现出显著的羽毛二态性，但这些视觉差异是否伴随着一致的声学分化仍不明确。这一知识空白限制了研究人员对信号模态在亚鸣禽（suboscine birds）中如何受性选择和社会选择驱动的理解。本研究评估了四种塞拉多蚁鸫科鸟类（条纹蚁鸫 Thamnophilus doliatus，黑顶蚁鸫 T. pelzelni，黑冠蚁鸫 Herpsilochmus atricapillus，和长嘴蚁鸫 H. longirostris）在发声行为上的性别差异。研究人员采用了一个比较框架，结合了传统生物声学测量、梅尔频率倒谱系数（mel-frequency cepstral coefficients, MFCCs）以及基于深度学习的BirdNET嵌入特征。通过多元分析（multivariate analyses）、线性混合效应模型（linear mixed effects models）和监督分类（supervised classification）方法评估了性别差异。跨物种和分析方法，雄性和雌性的鸣叫声表现出广泛的重叠，分类性能总体较低，仅略高于随机水平。然而，分化的强度因物种而异，其中黑顶蚁鸫显示出最清晰的细微性别相关分化证据。总体而言，研究表明这些塞拉多蚁鸫科鸟类的声音性别二态性普遍微弱且不一致，这与同一类群中观察到的显著羽毛二态性形成对比。这些发现表明，性别分化可能在不同的通讯模态中不均匀地表达，视觉特征的分化强于声学特征。更广泛地说，本研究强调了整合传统方法和基于机器学习的方法对于探究动物通讯中细微变异的重要性，并为研究亚鸣禽的多模态性别二态性提供了一个框架。

本研究旨在探讨四种塞拉多蚁鸫科鸟类中的声音性别二态性。鸟类中的性别二态性（sexual dimorphism）是一种普遍现象，通常体现在羽毛和形态上，但雄雌在声音通讯上是否同样存在显著差异，特别是在双性鸣叫的物种中，仍是许多生态学和进化生物学研究中的一个空白。新热带地区的亚鸣禽（suboscine birds）因其独特的发声学习机制（或缺乏该机制）和复杂的社会行为（如二重唱 duetting），成为了研究信号模态演化的理想对象。蚁鸫科鸟类是该地区的食虫性代表类群，常作为生境质量的生物指示物种。许多蚁鸫科物种表现出强烈的羽毛二态性，这暗示着雄雌可能在视觉信号传递中扮演不同角色，但这种差异是否也延伸到声学通讯领域尚缺乏实证支持。因此，阐明这些物种中声音性别二态性的存在与否、强度及其生态驱动因素，对于理解信号模态如何在性选择和社会选择下独立或协同演化至关重要。此外，从监测角度看，能否通过声音区分性别，也决定了自动分类器能否支持诸如自然种群性别比例评估等研究。

为了填补这一知识空白，研究人员选取了四种在巴西塞拉多（Cerrado）生物群落中生活的蚁鸫科鸟类——条纹蚁鸫（Thamnophilus doliatus）、黑顶蚁鸫（T. pelzelni）、黑冠蚁鸫（Herpsilochmus atricapillus）和长嘴蚁鸫（H. longirostris）作为研究对象。尽管这些物种在羽毛上具有显著的雌雄异型，但先前的比较研究表明，视觉特征和声学特征的演化路径可能并不一致。研究旨在检验两个核心问题：(1) 这些物种鸣唱的声学结构特征是否在两性间存在一致的差异；(2) 任何潜在的性别差异是否依赖于行为情境（例如，二重唱与自发鸣叫）。

**研究方法与技术**
本研究的核心方法学在于多层次、多角度地分析声学数据，以全面评估细微的性别差异。研究人员在巴西圣保罗和戈亚斯州的三个森林-稀树草原区域，于2022年8月至2023年2月期间，对76个个体（共681段鸣声）进行了野外录音。分析框架整合了三个递进复杂度的特征提取层面：首先，采用传统生物声学方法，通过专业软件Raven Pro手动测量并提取了25个与频率、时长和熵相关的声学参数，并进行了主成分分析（PCA）以降低维度。其次，提取了梅尔频率倒谱系数（MFCCs），这是一种广泛应用于语音和生物声学领域的特征，能够概括感知频率尺度上的频谱包络形状。最后，利用预训练的深度卷积神经网络BirdNET的倒数第二层输出，提取了1024维的“音频嵌入向量”（audio embeddings），作为高维声学特征的代表。在数据分析阶段，研究人员结合了线性混合效应模型（LMMs）和贝叶斯多层模型，以主成分作为响应变量，检验性别、行为情境（二重唱或自发）及其交互效应的影响。此外，为了检验机器学习方法能否有效识别性别，研究人员采用了一个监督分类框架，比较了包括支持向量机（SVM）、随机森林、神经网络在内的十种算法在三种特征集上的性能，并通过基于个体身份的重复分组子采样验证（repeated grouped sub-sampling validation）来避免伪重复，确保分类器学习的是性别特征而非个体特征。样本队列来源于对四种目标蚁鸫科鸟类的野外定点录音。

**研究结果**
在传统生物声学分析与多元统计层面，主成分分析（PCA）显示，声学变异分布于多个维度，且物种间的差异远大于性别间的差异。通过多元方差分析（MANOVA），性别对声学结构有显著影响，但其效应量远小于物种身份的效应。具体到物种内部，线性混合效应模型（LMMs）的分析结果显示出不一致的性别效应：在黑顶蚁鸫（T. pelzelni）中，性别在特定主成分（PC2和PC3）上表现出显著差异；而在黑冠蚁鸫（H. atricapillus）中，则观察到性别与行为情境（如二重唱）存在显著交互作用。条纹蚁鸫（T. doliatus）和长嘴蚁鸫（H. longirostris）则未检测到一致的性别效应。贝叶斯模型的分析结果与频率学派模型基本一致。这些结果表明，尽管存在可检测的性别相关差异，但声音二态性普遍较弱，且未在物种间沿单一轴线保持一致。

在监督分类与模型性能评估方面，研究人员发现，无论使用传统特征、MFCCs还是BirdNET嵌入特征，不同分类算法的性能模式都相似，没有一种特征集能显著优于其他。以支持向量机（SVM）作为基准分类器，其性能总体略高于随机分类器。传统特征在黑冠蚁鸫（H. atricapillus）上获得了最高的测试准确率（0.77）。然而，BirdNET嵌入特征虽然在训练集上能达到完美准确率（1.00），但在测试集上表现不佳（0.49-0.64），表明模型存在过拟合现象，未能很好地泛化。精确率（precision）和召回率（recall）的分布分析（图4）进一步证实，传统特征包含了适度但可检测的性别信息，而BirdNET嵌入则泛化能力不足。总体而言，分类性能仅略高于随机水平，再次印证了这些物种鸣声中性别信号较为微弱。

**讨论与结论**
综合传统生物声学分析和机器学习方法的研究结果，本论文得出结论：所研究的四种塞拉多蚁鸫科鸟类，其声音性别二态性普遍存在且表现微弱或不一致，这与这些物种显著的羽毛二态性形成了鲜明对比。这一发现提示，性别分化可能在不同通讯模态（视觉与听觉）中不均匀地表达，视觉特征的分化可能更为强烈。研究结果还强调了方法整合的重要性：结合可解释的传统特征与能捕捉高维细微结构的机器学习特征（如MFCCs和嵌入），为全面评估动物通讯中的微妙变异提供了有力框架。

尽管整体二态性微弱，但在某些物种（如黑顶蚁鸫）中检测到的、与特定行为情境（如二重唱）相关的细微差异，可能具有重要的功能意义。在双性参与领地防御的物种中，即使细微的时间或乐句结构差异也可能反映了雄雌在协调发声信号中的不同角色或响应策略。未来研究应进一步量化二重唱中的精细时间模式和响应规则，并结合更广泛的跨物种比较，以深入探究蚁鸫科鸟类中视觉与声学性状演化的协同或独立关系。

最终，本研究明确指出，对于这四种塞拉多蚁鸫科鸟类，其鸣声的性别差异总体上是微弱且不稳定的。研究人员强调，理解这种弱信号对于全面认识多模态信号系统的演化至关重要，并指出未来的工作方向应聚焦于识别驱动这些微弱可分离性的具体声学成分，并通过播放实验或二重唱分析来检验其功能相关性。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部