通过多级特征的组合得分进行检测,以识别在司法自动语音识别中假冒的语音

时间:2026年5月15日
来源:Speech Communication

编辑推荐:

斯里哈里·V.R. | 莉娜·玛丽 印度喀拉拉邦特里凡得琅工程学院电子与通信工程系 **摘要** 法医自动语音识别(FASR)旨在确定被怀疑的语音记录是否属于特定的说话者。在模仿/伪装语音的背景下,任务是验证该语音是由原始说话者(真实说话者)还是模仿者(冒名顶替者)

广告
   X   

斯里哈里·V.R. | 莉娜·玛丽
印度喀拉拉邦特里凡得琅工程学院电子与通信工程系

**摘要**
法医自动语音识别(FASR)旨在确定被怀疑的语音记录是否属于特定的说话者。在模仿/伪装语音的背景下,任务是验证该语音是由原始说话者(真实说话者)还是模仿者(冒名顶替者)发出的。本文提出了一种方法,通过结合从多个语音层次提取的源特征、频谱特征和韵律特征来完成任务。这里使用平稳小波变换(SWT)系数来表示从小于一个音高的窗口宽度中提取的源特征。频谱特征使用梅尔频率倒谱系数(MFCC)在帧级别(宽度为20毫秒)进行解释。韵律特征通过音高、能量和音节级别的持续时间来表示(宽度约为几百毫秒)。对于每个说话者,使用这些特征独立创建三个模型。SWT和MFCC特征使用i-vector/概率线性判别分析(PLDA)进行建模,而韵律特征使用具有长短期记忆(LSTM)的循环神经网络(RNN)进行建模。使用得分级融合来结合所有三个模型的得分以优化性能。实验使用了两类收集的数据集,包括选定名人的原始语音以及专业艺术家模仿/伪装的名人的语音。所提出的方法的整体准确率为92.61%,错误接受率(EER)为3.5%。

**引言**
语音是人类最自然和首选的交流方式。说话者在生理和行为特征上存在差异。由于生理差异,发声源和声道也有所不同。说话者在语调、持续时间和响度上也有所不同,这些都统称为韵律特征。将语音作为生物特征用于身份验证在法医学和访问控制系统中非常重要(Eriksson和Wretling, 1997)。

**模仿**是一种语音伪装形式,说话者通过改变自己的语音来伪装成另一个说话者。模仿被定义为为了娱乐或嘲笑而故意模仿某人或某物(牛津词典,0000)。在模仿中,艺术家会模仿目标人物的声音以及举止和手势。在模仿熟悉的声音时,听众可能对目标人物的某些特征有所假设。为了说服听众,模仿者必须具备这些特征(Mary等人,2012)。模仿者控制发声器官以产生接近目标说话者的声音。模仿者需要捕捉目标说话者的音调、重音模式、说话速度、方言和发音变化,以便进行模仿。由于每个说话者的发音系统特征都是独特的,因此很难精确模仿另一个人的声音。但有时听众很难区分原始语音和模仿版本。

法医自动语音识别(FASR)旨在确定被怀疑的语音记录是否属于特定的说话者。在模仿/伪装语音的背景下,任务是验证该语音是由原始说话者(真实说话者)还是模仿者(冒名顶替者)发出的。说话者验证过程通常在没有任何物理接触的远程场景中进行,因此欺骗攻击非常常见。欺骗是通过以下手段操纵说话者验证系统的尝试:
(1)模仿
(2)重放
(3)语音合成
(4)语音转换

在这四种欺骗攻击类型中,由于技术的进步,重放、语音合成(De Leon等人,2010,De Leon等人,2012)和语音转换(Bonastre等人,2007,Kinnunen等人,2012,Wu等人,2012b,Kons和Aronowitz,2013,Wu和Li,0000)对FASR系统构成了重大挑战(Z. Wu等人,2015)。然而,模仿是最常见的欺骗技术,对文本依赖型和文本独立型FASR系统都构成风险(Villalba和Lleida,2011,Wu等人,2014a,Wu和Li,2015)。但与其他欺骗方法(如重放和合成)相比,生成相同内容的话语是不切实际的。因此,关于模仿的研究不如其他欺骗方法多。实际上,有许多开源软件可用于语音合成和语音转换,例如festival3和festvox4,这使得这些方法更容易用于对自动语音验证(ASV)系统进行欺骗攻击(Z. Wu等人,2015)。ASVspoof挑战通过收集包含多种不同欺骗攻击的标准数据集,并进行一系列竞争性评估,以鼓励进一步的发展(Zhizheng Wu等人,2015)。2013年的Interspeech会议上举行了关于欺骗和自动语音验证对策的特殊会议(Evans等人,2013)。首届ASVspoof挑战在2015年的Interspeech会议上举行(Wu等人,2014b)。该挑战旨在对欺骗攻击的脆弱性和对策性能进行独立评估。这样的举措有助于使用标准协议和指标在共同的数据集上比较不同的欺骗对策(Wu等人,2014b)。有两种通用策略可以保护ASV系统免受欺骗:第一种是采用更强大的ASV技术,第二种是开发新的欺骗对策。在模仿的情况下,需要模仿者来制作伪装语音,但到目前为止这些挑战中尚未包括模仿者。在这项研究中,我们关注模仿(Lau等人,2004,Hautamaki等人,2013,Hautamäki等人,2015)对文本独立说话者验证的影响。模仿者擅长模仿其他人的声音和举止,通常是名人。由于准确模仿另一个人需要大量的专业知识和专注力,因此对他们来说长时间维持对名人的模仿是具有挑战性的(Wu等人,2012b)。此外,如果模仿持续时间过长,听众可能会失去兴趣或感到厌烦。通常,模仿者在表演中切换多种形象比长时间专注于一种形象更有益(Kons和Aronowitz,2013)。由于复制语音的持续时间可变,必须从多个语音层次(多级别)恢复不同的特征(源特征、频谱特征和韵律特征)(Kons和Aronowitz,2013)。由于从每个帧或音节提取的特征向量数量不同,需要使用不同的方法来建模不同的特征(源特征、频谱特征和韵律特征)。这也取决于每个帧或音节中的特征是否彼此连续(Wu和Li,0000)。

在这项工作中,通过结合使用三种类型特征训练的三个独立说话者模型的得分,将给定的测试语音分类为真实/模仿。测试语音附带一个声明,可能是真实的,有时也可能是由专业艺术家创建的模仿版本。为此使用了Mary等人(2012)收集的数据库,其中包含选定名人的语音以及擅长模仿这些名人语音特征的专业模仿艺术家的作品。

本文的其余部分组织如下:第2节详细介绍了FASR系统中使用的现有方法文献综述。第3节介绍了所提出方法的框图。第4节和第5节分别介绍了基于频谱特征的FASR系统和基于韵律特征的FASR系统。第6节介绍了基于源特征、频谱特征和韵律特征的FASR系统。第7节讨论了实验和结果。第8节对观察结果进行了讨论,第9节总结了本文。

**相关工作**
已有研究者展示了不同特征对传统语音识别应用的有效性。使用MFCC及其其他表示(如i-vector、x-vector等)表示的声道特征在准确性方面优于其他特征。但在信道/环境不匹配和噪声存在的情况下,表示源特征和韵律特征的特征变得重要。源特征如声门流导数和LP残差对此类应用至关重要。

**提出的FASR系统**
可以在语音信号的不同层次表现出的说话者特征使用各种特征来表示。在这种提出的方法中,通过对基于韵律特征、频谱特征和源特征的模型进行得分级融合,来应对训练/测试语音中的短持续时间、噪声存在和信道不匹配问题。当训练/测试语音的持续时间较长时,韵律特征可以获得更好的结果。图1显示了基于源特征的提出的FASR系统的框图。

在提出的FASR系统中,使用LP残差作为最低层次的特征来表示说话者的发声源特征。这里使用了Talken算法,这是用于分离语音信号浊音部分的最佳方法之一(Talkin,1995)。使用平稳小波变换(SWT)框架从LP残差的浊音部分获取特征参数。

**基于频谱特征的FASR系统**
频谱特征在检测模仿者方面表现得很好。但在信道不匹配和噪声存在的情况下,频谱特征的表现并不令人满意。尽管如此,频谱特征仍然是表示说话者特征的主要特征。频谱特征在FASR中广泛使用,因为它包含了有关说话者声道共振特征的信息。LPCC和MFCC是基于短时特征的两种特征提取方法。

**基于韵律特征的FASR系统**
韵律特征在连接语音中声音单位组合时在超音段层次提取(Singh和Khan,2014,Mary和Yegnanarayana,2008)。在这里,我们考虑了音节级别的韵律特征,如语调、重音和节奏,以表示特定于说话者的韵律特征(Adami等人,2003)。这些长期特征被称为超音段特征。研究表明,韵律特征可以为说话者验证提供更大的鲁棒性。

**数据库**
该系统使用Mary等人(2012)收集的数据集进行评估。由于原始出版物中没有特定的名称,我们在本文中将其称为“L.Mary等人模仿语音数据集”以方便引用。数据样本来自20位专业模仿艺术家,他们在实验室环境中模仿了目标人物,而目标人物的声音(主要是政治家和电影演员)是从互联网和电视节目中收集的。

**讨论**
如今,在语音识别中检测模仿非常重要,因为它有助于确保说话者的真实性。这在安全敏感的应用中尤为关键,例如金融交易的语音认证或访问受限信息。模仿检测系统可以检测到有人试图模仿另一个人的声音,并可以标记或拒绝该认证尝试。这有助于防止未经授权的访问。

**结论**
本文展示了使用三种不同特征集检测模仿语音的方法。所提出的方法利用LP残差的SWT系数来表示说话者的源特征。频谱特征使用MFCC及其派生形式表示。韵律特征使用从音节级别持续时间、F0轮廓和能量导出的参数表示。使用这些特征为每位名人训练了三个独立模型。

**作者贡献声明**
斯里哈里·V.R.:撰写——原始草稿、可视化、验证、监督、软件、资源、项目管理、方法论、调查、形式分析、数据整理、概念化。莉娜·玛丽:监督。

**伦理和同意**
本研究不涉及人类参与者、动物或需要伦理批准的任何个人数据。

**资金声明**
本研究获得了KSCSTE(喀拉拉邦科学技术与环境委员会)的特定资助。

**未引用参考文献**
Bonastre等人(2005)
**利益冲突声明**
作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:Leena Mary博士报告称获得了印度喀拉拉邦科学技术与环境委员会(KSCSTE)的财务支持。莉娜·玛丽(Leena Mary)表示与印度喀拉拉邦科学技术与环境委员会(Kerala State Council for Science Technology and Environment, KSCSTE)存在合作关系,这种合作关系包括提供资金资助。如果有其他作者参与,他们声明自己不存在任何已知的利益冲突。

致谢:作者们想要感谢印度喀拉拉邦科学技术与环境委员会(KSCSTE)为这项研究提供了数据集收集所需的财务支持。

生物通微信公众号
微信
新浪微博


生物通 版权所有