人类元音的拓扑数据分析:不同表示空间中的持久同调性

时间:2026年2月6日
来源:Speech Communication

编辑推荐:

vowels分类任务中拓扑数据分析(TDA)的贡献,比较了MFCC频谱、声谱图及频谱相位三种表示空间对 vowel识别、性别区分和说话人识别任务的影响。实验表明TDA增强的随机森林模型在vowel和说话人分类中Out-of-Bag误差优于传统MFCC,不同表示空间提取的拓扑信息互补。

广告
   X   

吉列姆·博纳福斯(Guillem Bonafos)|皮埃尔·普德洛(Pierre Pudlo)|让-马克·弗雷尔穆特(Jean-Marc Freyermuth)|萨缪尔·特龙松(Samuel Tronçon)|阿诺德·雷(Arnaud Rey)
法国马赛大学(Aix Marseille Univ)、法国国家科学研究中心(CNRS)、I2M研究所,马赛

摘要

拓扑数据分析(Topological Data Analysis,TDA)已成功应用于信号/图像处理的多种任务,从可视化到监督/无监督分类。在这里,我们研究了TDA在人类元音分类任务中的贡献。我们比较了三种表示空间的拓扑特征对三种分类任务的贡献:i) 元音识别;ii) 性别识别;iii) 说话者识别。我们发现,结合拓扑特征的随机森林模型在元音和说话者识别任务中的“袋外误差”(Out-of-Bag Error,OOB)表现优于仅使用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)的模型。我们的结果还表明,从不同信号表示中提取的拓扑信息对于解决这些分类问题是互补的。因此,这些数据表明TDA为提高人类语音处理的性能提供了新的信息来源。

引言

拓扑数据分析(TDA)是一个快速发展的研究领域,它基于深厚的数学基础(Carlsson, 2009, Wasserman, 2018, Chazal and Michel, 2021)。它为数字音频信号处理提供了新颖且潜在有用的工具,并带来了新的分析视角。这种创新的数据科学方法侧重于从数据的形状中提取信息。
TDA已经应用于多种信号处理问题(Barbarossa and Sardellitti, 2020a, Barbarossa and Sardellitti, 2020b, Tulchinskii et al., 2023)。该方法基于数据具有形状的假设(Ferri, 2018),并计算其持久同调(persistent homologies),从而提供其拓扑特征的紧凑表示。这些拓扑表示对输入数据的扰动具有稳定性,并且不依赖于维度或坐标系。然而,这种形状很大程度上取决于信号的表示方式(表示空间)。本研究的目的是探讨持久同调的计算如何依赖于所选的表示空间,特别是针对人类语言中的元音分类任务。我们研究了表示空间对提取的拓扑信息的影响,并确定访问更高维度的持久同调是否能够获得更具区分性的信息。我们还讨论了如何最好地总结持久图(persistence diagram)中包含的信息,以适应我们的具体分类任务。
本文的结构如下:首先介绍问题及其背景;其次简要介绍TDA的理论和处理流程;第三阐述解决问题的策略、数据集的性质以及我们的分类目标;最后在最后一节详细讨论主要结果。

章节摘要

TDA的动机

拓扑学是数学的一个分支,它研究空间的定性几何信息(Carlsson, 2009)。代数拓扑提供的工具使我们能够捕捉数据的形状(Zomorodian, 2005)。拓扑方法通过研究空间的连通性来摆脱度量和坐标的问题。由于其强大的可视化潜力,它具有有趣的解释能力,而且拓扑特征具有

拓扑数据分析概述

本节简要介绍了TDA的理论和数据分析流程。更多细节请参考两本重要的教科书,它们对TDA及其理论基础进行了较为全面的介绍(Edelsbrunner and Harer, 2009, Dey and Wang, 2022),同时也为数据科学家提供了优秀的入门资料(Chazal and Michel, 2021)。

实验

在本节中,我们研究了数字音频信号的表示空间选择如何影响拓扑信息。这些信息通过“袋外误差”(Out Of Bag,OOB)来量化,该误差是在受元音分类问题启发的监督分类任务中测量的(Korkmaz et al., 2019, Georgiou, 2023)。这项任务在情感分类(Deb and Dandapat, 2019)、评估发育障碍(Vavrina et al., 2012)或区分不同情况等方面具有应用价值

监督任务

所有监督分类任务的结果见表1。所有模型都是随机森林,且树木数量相同。对于使用持久变量或同时使用持久变量和MFCC作为协变量的模型,报告的结果是表现最好的模型的结果(遵循逐步程序、显示最低误差的模型)。从这些数据中得出了三个主要结论。

讨论

本研究的主要结论有四点:首先,我们确定了在收集的数据集上改善说话者识别和元音分类任务结果的顶级拓扑描述符;其次,信号表示空间的选择会影响提取的拓扑信息;第三,使用持久图进行分类任务的最佳方式因任务而异;最后,低持久性特征具有重要的意义

结论

我们通过研究根据信号表示空间进行的分类性能,讨论了拓扑方法在声音信号处理中的潜在附加值。我们在三个分类任务上测试了这种方法:预测说话者的性别、发音的元音以及说话者的身份。对于其中两个任务(元音和身份预测),拓扑特征改善了结果。尽管很难区分

CRediT作者贡献声明

吉列姆·博纳福斯(Guillem Bonafos):撰写 – 审稿与编辑、初稿撰写、可视化、方法论设计、调查实施、形式分析、数据整理、概念构建。皮埃尔·普德洛(Pierre Pudlo):撰写 – 审稿与编辑、监督指导。让-马克·弗雷尔穆特(Jean-Marc Freyermuth):撰写 – 审稿与编辑、监督指导。萨缪尔·特龙松(Samuel Tronçon):撰写 – 审稿与编辑、监督指导。阿诺德·雷(Arnaud Rey):撰写 – 审稿与编辑、监督指导。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:让-马克·弗雷尔穆特表示得到了阿卜杜拉国王科技大学的财务支持。如果还有其他作者,他们声明没有已知的可能会影响本文所述工作的财务利益或个人关系。

生物通微信公众号
微信
新浪微博


生物通 版权所有