HOMAYON:一种用于微分音音乐自动标注的混合式融合变压器,该变压器采用基于旋律的音色表示方法

时间:2026年1月19日
来源:Expert Systems with Applications

编辑推荐:

音乐自动打标签模型因长期依赖西方调性数据而难以处理波斯达斯特加赫等微音阶音乐。本文提出Chakavak数据集与HOMAYON混合架构,前者通过专家标注构建多维度波斯音乐基准,后者创新性地采用动态过渡矩阵编码高精度旋律特征,并与冻结预训练MERT模型结合,通过跨模态注意力机制实现旋律引导的音色解析。实验表明该架构在波斯、土耳其及阿拉伯音乐数据集上均显著优于传统CNN和MERT模型,验证了旋律优先融合机制的有效性。

广告
   X   

Mehdi Kiani|Reza Ramezani|MohamadHadi Ayanbod
伊朗伊斯法罕大学计算机工程学院软件工程系

摘要

音乐自动标注是现代音乐信息检索(MIR)的基石,通过深度学习取得了显著进展。然而,现有的模型几乎都是针对西方音调音乐开发的,在应用于波斯达斯特加(Dastgah)、土耳其马卡姆(Makam)和阿拉伯马卡姆(Maqam)等微分音音乐传统时效果不佳。这些模型在结构上“听不见”这些音乐中承载语义信息的主要细粒度旋律和标量结构。本文提出了两项关键贡献来弥补这一差距:1)Chakavak数据集,这是一个针对波斯音乐的新多方面基准数据集,由专家进行了达斯特加、乐器和其他音乐特征的注释;2)HOMAYON,一种新颖的混合融合变换器架构。HOMAYON并行建模音色和旋律流,使用固定的MERT模型进行音色表示,并采用新颖的动态过渡矩阵(DTM)编码高分辨率(每八度48个bin)的微分音音高模式。关键在于,它使用非对称交叉注意力机制融合这些流,其中旋律嵌入“查询”音色特征,使旋律上下文能够指导音色解释。我们在涵盖波斯、阿拉伯、土耳其和西方音乐的五个数据集上进行了全面实验。结果表明,HOMAYON在所有四个微分音数据集上的表现均显著优于所有基线模型,包括标准的CNN和仅使用MERT的模型。消融研究证实,我们的交叉注意力融合远优于简单的串联方法,并且固定预训练的骨干网络是最佳策略,因为微调会持续降低性能。

引言

音乐自动标注是指自动为音乐音频分配诸如流派(Ba等人,2025年)、情绪或风格等语义标签的任务,已成为现代音乐信息检索(MIR)系统的基本组成部分(Moysis等人,2023年;Pons等人,2017年)。随着数字音乐库和流媒体平台的指数级增长,自动标注系统实现了高效的音乐组织、基于内容的检索和大规模个性化推荐(Pons等人,2017年;Pourmoazemi和Maleki,2024年;Song等人,2018年)。深度学习方法在这一领域取得了显著成功,卷积神经网络(CNN)在旋律频谱图上的应用(Won等人,2019年)和循环架构(Song等人,2018年)为西方音乐语料库建立了强大的基线。
最近,像MERT(Yizhi等人,2023年)这样的大规模预训练模型展示了自监督学习在捕捉音乐理解任务的通用声学表示方面的潜力。然而,绝大多数自动标注研究、数据集和模型架构都是针对西方音调音乐开发和评估的,这在我们自动标注世界上丰富多样的音乐传统方面造成了显著差距(Papaioannou等人,2023年)。
微分音音乐传统,包括波斯达斯特加、土耳其马卡姆和阿拉伯马卡姆,由于它们依赖于与西方平均律截然不同的标量和旋律结构,给现有的自动标注系统带来了根本性挑战。这些音乐系统使用比西方半音更小的音程,如四分音和其他微分音划分,这对于传达流派、调式身份和情感内容至关重要(Ahmed等人,2024年;Elshaarawy等人,2024年;Papaioannou等人,2023年)。在12平均律量化或为西方和声内容优化的频谱图上训练的模型无法充分捕捉定义“Shur”、“Hicaz”或“Rast”等标签的旋律轮廓、特征音高转换和标量模式(Hazim & Okkalioglu,2024年)。
因此,当标准自动标注架构应用于微分音曲目时,它们的性能会显著下降,因为它们缺乏建模这些传统中语义上至关重要的细粒度音高关系和序列模式的显式机制。这一限制揭示了一个更深层次的问题:当前的自动标注模型从根本上“听不见”非西方音乐中携带最具区分性的旋律结构。
当前的先进自动标注架构主要依赖于两种范式:使用CNN从频谱图进行端到端学习(Farajzadeh等人,2023年;Lee和Nam,2017年;Pons等人,2017年;Won等人,2020年),或利用预训练的音频模型作为固定特征提取器[30]。虽然这些方法在捕捉音色纹理和和声内容方面表现出色,但它们将旋律信息视为频谱图分析的隐含副产品,而不是一个明确的、一级的建模目标。
在旋律频谱图上操作的CNN本质上优先考虑与音色和和声相关的局部时频模式,但难以编码定义微分音模式的长期序列依赖性和标量结构(Song等人,2020年;Song等人,2018年)。同样,尽管像MERT这样的预训练模型在西方音乐基准测试中表现强劲,但它们是在以平均律内容为主的语料库上训练的,缺乏设计用于捕捉微分音音高转换或调式特征的架构组件(Yizhi等人,2023年)。
基于注意力的架构已被用于自动标注(Lee和Nam,2017年;Song等人,2020年),但现有设计在特征之间均匀应用自注意力,而没有区分音色和旋律信息流。之前没有工作明确设计了一种自动标注架构,能够分离并智能融合这两种互补的模态——音色和旋律,并以旋律上下文作为指导音色解释的信号。
我们提出了HOMAYON,一种专门为微分音音乐自动标注设计的混合融合变换器架构,通过旋律感知的音色表示来实现这一点。HOMAYON通过将音色和旋律信息作为两个独立但互补的流来建模,并通过交叉注意力机制融合它们,允许旋律上下文指导相关音色特征的选择和加权,从而解决了现有方法的局限性。
音色流使用固定的预训练MERT模型提取丰富的声学表示,而旋律流处理一种称为动态过渡矩阵(DTM)的新特征表示——这是一种高分辨率(每八度48个bin)的音高转换频率编码,源自细粒度的音高跟踪。关键创新在于融合机制:HOMAYON使用交叉注意力,其中旋律嵌入作为查询来查询音色嵌入(键和值),根据它们与给定旋律模式的相关性有效地加权音色特征。这种设计反映了音乐现实,在微分音传统中,旋律和标量结构是语义信息的主要载体,音色特征必须在这个旋律上下文中进行解释。
这项工作的主要贡献包括一个新的基准数据集、一种新颖的架构以及一组针对微分音音乐自动标注的关键实验发现。首先,我们介绍了Chakavak数据集,这是一个针对波斯达斯特加分类的新多方面、专家注释的基准数据集,解决了该领域公共数据严重缺乏的问题。其次,我们提出了HOMAYON架构,这是一种专门为微分音音乐设计的新型混合融合变换器,它并行建模音色特征(通过固定的MERT)和高分辨率旋律模式(通过动态过渡矩阵)。第三,我们进行了全面实验来验证这一架构,不仅证明了其在不同微分音数据集(波斯、土耳其和阿拉伯)上的先进性能,还为该领域提供了两个关键见解:(a)所提出的旋律感知交叉注意力融合是一个必不可少的机制,而不仅仅是渐进式改进;(b)固定预训练的骨干网络是最佳策略,因为针对任务的微调会持续降低性能。
通过全面的实验和消融研究,我们展示了明确的旋律建模和旋律感知融合对于实现微分音自动标注任务的稳健性能至关重要,确立了HOMAYON作为跨文化音乐理解的新范式。
本文的其余部分组织如下。第2节回顾了音乐自动标注、微分音音乐分析和基于注意力的融合架构的相关工作。第3节介绍了我们的方法论,包括HOMAYON架构的设计和Chakavak数据集的构建。第4节详细介绍了我们的实验设置,包括数据集描述、基线方法和实现细节。第5节展示了我们的结果,并提供了将HOMAYON与所有评估方法进行比较的详细分析。最后,第6节总结了我们的发现,讨论了局限性,并概述了未来研究的方向。

相关工作

尽管在音乐自动标注方面进行了大量研究,但针对微分音和非西方音乐的计算方法仍然严重不足,这揭示了该领域范围和适用性的关键差距。Papaioannou等人(2023年)在他们的研究“从西方到东方:谁更能理解他人的音乐?”中通过实证展示了这种差异,表明在西方音乐上训练的模型在评估东方音乐时表现显著下降

方法

在本节中,我们介绍了所提出系统的方法论框架。首先提供了HOMAYON架构的概述,然后详细描述了其核心组件:带有新颖动态过渡矩阵的旋律流、利用预训练MERT骨干的音色流,以及用于整合这些模态的非对称融合模块。

实验设置

本节详细介绍了用于评估所提出架构的实验框架。我们通过在代表不同音乐传统的多个数据集上进行全面实验来验证HOMAYON的有效性。以下小节描述了本研究中策划和使用的数据集、数据分割策略、选定的基线方法以及具体的实现和训练配置。

结果

在本节中,我们对代表不同音乐传统的五个数据集上的HOMAYON架构进行了全面评估。分析从多个角度评估了模型的有效性。我们首先将HOMAYON与已建立的基线进行比较,以证明其在微分音环境中的优越性能(第5.1节)。随后,我们进行了消融研究,以量化交叉注意力融合机制的具体贡献(第

结论

本研究通过引入HOMAYON(一种混合融合架构)和Chakavak(一个针对波斯音乐的基准数据集)解决了以西方为中心的音乐自动标注的局限性。我们在波斯、土耳其和阿拉伯数据集上的实验表明:(1)双流建模至关重要:通过DTM显式建模旋律转换与预训练的音色特征相结合,其性能显著优于单流基线(p < 0.001)。(2)融合很重要:所提出的非对称

局限性

尽管有这些贡献,但仍需承认几个局限性。首先,Chakavak数据集的音频质量(64 kbps MP3压缩)引入了显著的伪影,可能会降低CREPE音高跟踪的准确性和MERT的音色表示,尤其是在包含四分音区分和乐器谐波的高频内容方面。
虽然这反映了波斯音乐录音的真实世界状况,但它混淆了我们区分

未来工作

这项工作提出了几个有前景的研究方向。首先,将旋律表示扩展到一阶转换矩阵之外,以捕捉更高阶的依赖性,可以改善对密切相关的模式的区分:n-gram模型(三元组、四元组)可以编码特征旋律动机和短语结构,而基于循环或变换器的序列模型可以捕捉定义调式的长期依赖性和终止模式

CRediT作者贡献声明

Mehdi Kiani:概念化、方法论、软件、验证、形式分析、调查、数据策划、初稿撰写、审阅与编辑、可视化。Reza Ramezani:概念化、方法论、资源、审阅与编辑、监督、项目管理。MohamadHadi Ayanbod:资源、数据策划、审阅与编辑。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。
在准备这项工作期间,作者使用了ChatGPT和Grammarly来改进语言写作,协助翻译成英语,并提高文本的清晰度和语法。使用这些工具后,作者根据需要审阅和编辑了内容,并对其承担全部责任

生物通微信公众号
微信
新浪微博


生物通 版权所有