音乐自动标注是指自动为音乐音频分配诸如流派(Ba等人,2025年)、情绪或风格等语义标签的任务,已成为现代音乐信息检索(MIR)系统的基本组成部分(Moysis等人,2023年;Pons等人,2017年)。随着数字音乐库和流媒体平台的指数级增长,自动标注系统实现了高效的音乐组织、基于内容的检索和大规模个性化推荐(Pons等人,2017年;Pourmoazemi和Maleki,2024年;Song等人,2018年)。深度学习方法在这一领域取得了显著成功,卷积神经网络(CNN)在旋律频谱图上的应用(Won等人,2019年)和循环架构(Song等人,2018年)为西方音乐语料库建立了强大的基线。
最近,像MERT(Yizhi等人,2023年)这样的大规模预训练模型展示了自监督学习在捕捉音乐理解任务的通用声学表示方面的潜力。然而,绝大多数自动标注研究、数据集和模型架构都是针对西方音调音乐开发和评估的,这在我们自动标注世界上丰富多样的音乐传统方面造成了显著差距(Papaioannou等人,2023年)。
微分音音乐传统,包括波斯达斯特加、土耳其马卡姆和阿拉伯马卡姆,由于它们依赖于与西方平均律截然不同的标量和旋律结构,给现有的自动标注系统带来了根本性挑战。这些音乐系统使用比西方半音更小的音程,如四分音和其他微分音划分,这对于传达流派、调式身份和情感内容至关重要(Ahmed等人,2024年;Elshaarawy等人,2024年;Papaioannou等人,2023年)。在12平均律量化或为西方和声内容优化的频谱图上训练的模型无法充分捕捉定义“Shur”、“Hicaz”或“Rast”等标签的旋律轮廓、特征音高转换和标量模式(Hazim & Okkalioglu,2024年)。
因此,当标准自动标注架构应用于微分音曲目时,它们的性能会显著下降,因为它们缺乏建模这些传统中语义上至关重要的细粒度音高关系和序列模式的显式机制。这一限制揭示了一个更深层次的问题:当前的自动标注模型从根本上“听不见”非西方音乐中携带最具区分性的旋律结构。
当前的先进自动标注架构主要依赖于两种范式:使用CNN从频谱图进行端到端学习(Farajzadeh等人,2023年;Lee和Nam,2017年;Pons等人,2017年;Won等人,2020年),或利用预训练的音频模型作为固定特征提取器[30]。虽然这些方法在捕捉音色纹理和和声内容方面表现出色,但它们将旋律信息视为频谱图分析的隐含副产品,而不是一个明确的、一级的建模目标。
在旋律频谱图上操作的CNN本质上优先考虑与音色和和声相关的局部时频模式,但难以编码定义微分音模式的长期序列依赖性和标量结构(Song等人,2020年;Song等人,2018年)。同样,尽管像MERT这样的预训练模型在西方音乐基准测试中表现强劲,但它们是在以平均律内容为主的语料库上训练的,缺乏设计用于捕捉微分音音高转换或调式特征的架构组件(Yizhi等人,2023年)。
基于注意力的架构已被用于自动标注(Lee和Nam,2017年;Song等人,2020年),但现有设计在特征之间均匀应用自注意力,而没有区分音色和旋律信息流。之前没有工作明确设计了一种自动标注架构,能够分离并智能融合这两种互补的模态——音色和旋律,并以旋律上下文作为指导音色解释的信号。
我们提出了HOMAYON,一种专门为微分音音乐自动标注设计的混合融合变换器架构,通过旋律感知的音色表示来实现这一点。HOMAYON通过将音色和旋律信息作为两个独立但互补的流来建模,并通过交叉注意力机制融合它们,允许旋律上下文指导相关音色特征的选择和加权,从而解决了现有方法的局限性。
音色流使用固定的预训练MERT模型提取丰富的声学表示,而旋律流处理一种称为动态过渡矩阵(DTM)的新特征表示——这是一种高分辨率(每八度48个bin)的音高转换频率编码,源自细粒度的音高跟踪。关键创新在于融合机制:HOMAYON使用交叉注意力,其中旋律嵌入作为查询来查询音色嵌入(键和值),根据它们与给定旋律模式的相关性有效地加权音色特征。这种设计反映了音乐现实,在微分音传统中,旋律和标量结构是语义信息的主要载体,音色特征必须在这个旋律上下文中进行解释。
这项工作的主要贡献包括一个新的基准数据集、一种新颖的架构以及一组针对微分音音乐自动标注的关键实验发现。首先,我们介绍了Chakavak数据集,这是一个针对波斯达斯特加分类的新多方面、专家注释的基准数据集,解决了该领域公共数据严重缺乏的问题。其次,我们提出了HOMAYON架构,这是一种专门为微分音音乐设计的新型混合融合变换器,它并行建模音色特征(通过固定的MERT)和高分辨率旋律模式(通过动态过渡矩阵)。第三,我们进行了全面实验来验证这一架构,不仅证明了其在不同微分音数据集(波斯、土耳其和阿拉伯)上的先进性能,还为该领域提供了两个关键见解:(a)所提出的旋律感知交叉注意力融合是一个必不可少的机制,而不仅仅是渐进式改进;(b)固定预训练的骨干网络是最佳策略,因为针对任务的微调会持续降低性能。
通过全面的实验和消融研究,我们展示了明确的旋律建模和旋律感知融合对于实现微分音自动标注任务的稳健性能至关重要,确立了HOMAYON作为跨文化音乐理解的新范式。
本文的其余部分组织如下。第2节回顾了音乐自动标注、微分音音乐分析和基于注意力的融合架构的相关工作。第3节介绍了我们的方法论,包括HOMAYON架构的设计和Chakavak数据集的构建。第4节详细介绍了我们的实验设置,包括数据集描述、基线方法和实现细节。第5节展示了我们的结果,并提供了将HOMAYON与所有评估方法进行比较的详细分析。最后,第6节总结了我们的发现,讨论了局限性,并概述了未来研究的方向。