诺埃·修|文梅·李|袁王|贝亚特丽斯·瓦克塞莱尔|鲁道夫·索克|法布里斯·马萨克|凌振华
中国科学技术大学语言科学跨学科研究中心,合肥,23000
**摘要**
随着科学技术的不断进步,情感分析在许多场景中变得越来越重要。特别是在心理健康和客户服务等领域,人们越来越需要能够准确识别和分析人类情感。在这种背景下,分层语音分析(LVA)技术应运而生,该技术声称可以通过语音分析说话者的情感状态。这项技术不仅有助于情感检测和欺骗检测,还能帮助组织提升客户服务的用户体验。在本文中,我们回顾了LVA技术的工作原理及其研究进展,并详细讨论了该技术在多个领域的实际应用,包括但不限于司法领域、金融领域和人力资源管理领域。在此基础上,我们进一步分析了LVA在实际应用中面临的挑战及其前景。随着技术的持续进步和算法的优化,语音分析情感工具在未来可能在更多领域展现出其独特的价值和广泛的应用潜力。
**引言**
语音分析是一种超越简单转录和语音搜索的语音数据挖掘形式,旨在从多次对话中合成可操作、有指导性的信息(Melamed & Gilbert, 2011)。作为融合声学、信号处理、人工智能等学科的跨学科技术,语音分析技术在客户服务、医疗诊断等多个领域展现了强大的应用价值和发展潜力,并成为法医学研究中一个重要且被广泛探索的方向(Campbell et al., 2009; Eriksson & Lacerda, 2007)。
在法医学领域,语音分析的关键在于挖掘语音中超越文字的深层线索。人类语音本身是一个极其丰富的信息宝库,除了传达语义内容外,还包含大量副语言信息。一方面,这些信息可以反映说话者的生理特征,如年龄、性别、健康状况和体型;另一方面,它还包含情感状态,包括快乐、兴奋、激动等积极情绪,以及恐惧、紧张、焦虑等消极情绪(Giddens et al., 2013; Gobl & Chasaide, 2003)。根据情感评估理论,人类情感状态是对事件或刺激的评估或评价的反应(Arnold, 1960; Lazarus, 1991; Roseman, 1984)。例如,当个体获得荣誉或奖励时,会引发积极的情感状态;而当个体遭遇挫折时,则会引发消极的情感状态。此外,触发情感的事件可以是外部的(如突然的巨响),也可以是内部的(如生理变化)。语音情感检测的核心在于从语音中提取与情感相关的特征进行分析(Sudhakar & Anil, 2015)。一些研究人员研究了不同情感状态下中文语音的声学特征,他们的研究结果表明,愤怒、喜悦和悲伤三种情绪状态下的语音特征与平静状态相比有不同程度的变化。在喜悦状态下,说话者的第一共振峰F1频率较高;同时伴有呼吸声,语音长度缩短,语速加快,基频上升;而在愤怒状态下,语音持续时间最短,语速最快。愤怒状态下说话者的语音持续时间最短,语速最快,音调变化最大。相反,悲伤状态下说话者的语音持续时间较长,语速较慢,发音带有鼻音(Gao et al., 2005)。其他研究者还发现,闪烁效应和F0的标准差(F0 SD)是男性和女性紧张和抑郁的指标(Park et al., 2011)。尽管一些研究揭示了情感状态与语音声学特征之间的潜在关联,但尚未确定任何一种或一组声学特征能够一致且可靠地区分不同情感。
情感过程可以影响认知过程,而认知过程也可以调节或改变我们的情感;这两种相互作用可以通过改变心理状态变量来实现(Salzman & Fusi, 2010)。因此,解码可能嵌入在语音中的情感信息为我们理解语音与内部心理状态之间的联系提供了一些基础。然而,在许多实际应用领域,尤其是在司法和安全领域,我们的目标通常更进一步,希望通过语音判断陈述的真实性,即进行欺骗检测。欺骗检测比情感识别更为复杂,因为它不仅涉及感受到的情绪,还受到唤醒水平、控制尝试和认知难度等多种因素的影响(Greene et al., 1985)。语音行为涉及多种感官模式、高级认知功能、复杂的皮层处理以及大量的运动行为,是高级整合神经系统输出的表现(Hickok et al., 2011; Murphy et al., 1997)。因此,研究人员认为可以从语音中探索更微妙的执行操作,如识别欺骗或真相(Gombos, 2006)。大量文献探讨了副语言线索在检测欺骗中的相关性和可靠性。Anolli和Ciceri分析了说谎者使用的声音线索和策略,他们的研究发现欺骗会激活情感唤醒,导致基频(F0)升高、停顿增多、词汇量增加(Anolli & Ciceri, 1997)。Zhang等人研究了社交推理游戏中玩家的自然语音,发现说谎者的停顿时间更长、更频繁,这是由于认知需求增加所致。然而,说谎与声音音高并无可靠关联(Z. Zhang et al., 2022)。Xiu等人通过测量由欺骗引起的心理唤醒(即恐惧/压力)所导致的声音变化来检测欺骗,发现声音起始时间(VOT)和其他一些声学特征的均值会随之变化,并强调欺骗的声学判断应相对于个体自身的变化模式(Xiu et al., 2024)。不过,也有一些研究指出声学特征与说谎之间没有显著相关性。例如,2011年,英国约克大学电子系音频实验室的Kirchhübel和Howard研究了人们说谎时语音信号的变化。他们在访谈环境中收集了10位说话者的真实、欺骗性和对照语音样本,并分析了基频、强度和元音共振峰频率等参数,结果发现没有任何声学特征与说谎有显著关联(Kirchhübel & Howard, 2011)。尽管如此,通过分析副语言特征来识别欺骗已成为法医语音分析中的一个关键应用。
面对欺骗检测中复杂的认知和情感因素交织的问题,研究界开始寻求一种更综合的分析方法,能够同时解码和分析多种语音线索。正是在这种背景下,出现了智能语音情感分析技术——分层语音分析(LVA)。LVA技术基于一组与人类情感相关的声音参数(这些参数是从不同语言和多种场景(包括警察审讯、呼叫中心和控制实验)收集的音频记录中识别出来的)。这些参数可用于检测说话者语音中的情感线索,反映其压力水平、认知过程和情感反应。该技术甚至可以在“现实生活”场景中识别欺骗意图。2014年,该技术的最新版本(LVA7 CORE)比之前的版本更注重探索和理解不同情感状态和人格特征的能力(Nemesysco, 2024年11月29日)。此前,LVA由两个基本公式组成,每个公式包含一个独特的信号处理算法,能够从每个语音片段中提取超过120个参数。2014年发布的最新版本包含三个基本公式(每个公式包含独特的信号处理算法),可以从每个语音片段中提取151个参数。上述参数能够识别16种不同的情感状态。
基于LVA技术开发了多种产品,如LVA-i、InTone、QA7、LVA6.5和InTone.ai(Nemesysco, 2024年11月29日)。其中,LVA-i将语音分析技术与定制问卷结合,帮助组织在招聘阶段对潜在员工进行预筛选,并定期评估现有员工。这些评估可用于评估个人的性格特征和情绪稳定性(Nemesysco, 2024年11月29日)。InTone则是为呼叫中心行业开发的,使操作员能够在服务通话或销售过程中辨别客户的真实情感状态(Nemesysco, 2024年11月29日)。QA7是一种用于分析客户情绪的工具,鉴于客户在业务运营中的重要性,该工具旨在满足客户需求并关注客户满意度(Nemesysco, 2024年11月29日)。LVA6.50则是一种专门的调查工具,声称能够检测嫌疑人的心理生理反应,协助揭示真相(Nemesysco, 2024年11月29日)。InTone.ai Risk是一种风险评估系统,声称能够检测保险理赔电话中的独特语音特征,这些特征可能表明欺诈风险增加或信息隐瞒(Nemesysco, 2024年11月29日)。这些产品的基本原理大体相似,它们都建立在LVA技术的基础上,主要用于辨别说话者的情感倾向以及心理生理反应等。目前,LVA技术已在包括中国、日本和印度在内的多个国家得到应用。
为了深入研究LVA的工作原理、研究进展、应用案例等相关内容,我们使用“分层语音分析”和“LVA”作为主题关键词,在Google Scholar、Web of Science、Scopus和PubMed数据库以及在线公共资源中进行了搜索。纳入的研究必须包含分层语音分析的测试或应用。截至2025年底,在搜索的57篇研究论文、评论、期刊、专利和其他材料中,有49篇符合纳入标准,其中25篇是研究论文,重点内容见第3节。数据由两位作者独立提取并交叉验证。
**工作原理**
为了提供一个输入语音样本的例子,LVA语音系统执行分段过程,即将连续语音分割成多个离散的语音片段。这些片段以其逻辑连贯性、有意义的内容和无背景噪声为特征。通常,LVA系统会选择录音中的初始语音片段或最合适的语音片段,作为评估个体当前情感状态的基准。
**LVA研究现状**
自从LVA技术提出以来,世界各地的许多国家都对其进行了关注和研究。例如,中国、美国、瑞典、印度和许多其他国家都对该技术的有效性进行了深入研究。以下部分将分别介绍LVA在情感检测和谎言检测领域的当前研究进展,附有表3。
**LVA的应用领域**
LVA现在被众多商业实体所采用,应用范围包括司法部门、呼叫中心的服务保障、人力资源招聘流程、市场研究,甚至各种需求的医疗评估协议。在这些领域中,LVA技术的应用为获取大量信息提供了新的途径,有助于测量和分析各种情绪状态(Nemesysco,2024年11月29日)。
**成功案例**
在法医调查领域,印度是最早在多个地区采用LVA技术进行案件调查的国家之一。自2012年该技术引入以来,它已被反复用于刑事审讯,包括涉及高价值目标的案件。通过分析受访者回答时的语调、音调和频率变化,该技术帮助警方揭示了关于其训练背景、犯罪意图等关键线索。
**LVA面临的挑战**
尽管LVA技术的公司在其官方网站上提供了其分析过程的一般概述,但其大部分内部程序仍未公开。因此,我们无法对该技术做出明确的判断。对于公开可获取的信息,一些语言学家对其科学有效性和合理性仍持怀疑态度。2007年,两位研究人员对LVA进行了深入分析,包括其专利内容。
**LVA的未来**
LVA的一个显著优势是它同时支持在线和离线模式,其中在线模式几乎是自动化的,对操作者的要求较低。然而,研究表明,其在线模式的敏感度低于离线模式(KS等人,2024年)。此外,LVA有望在多个领域作为情绪检测工具发挥重要作用。例如,LVA可以用于呼叫中心,帮助工作人员实时理解客户表达的情绪。
**结论**
LVA技术声称通过语音信号中的心理声学和生理特征来检测情绪状态、压力水平及潜在的欺骗行为。该技术的重点不在于词语本身,而在于隐藏在词语背后的状态信息。LVA利用独特的数学方法来识别和量化语音中表现出的各种形式的压力、认知和情绪(Sean Mitchell,2022年5月31日)。
**资金支持**
本研究得到了中央高校基本科研业务费(项目编号WK2110250034)和中国科学技术大学新文科基金项目(项目编号FSSF-A-250106)的支持。
**作者贡献声明**
Noé XIU:撰写——审稿与编辑、撰写——初稿、调查、形式分析、概念化。
Wenmei LI:撰写——审稿与编辑、撰写——初稿、调查、形式分析、概念化。
Yuan WANG:撰写——初稿、调查。
Béatrice VAXELAIRE:撰写——审稿与编辑。
Rudolph SOCK:撰写——审稿与编辑。
Fabrice MARSAC:撰写——审稿与编辑。
Zhenhua LING:撰写——审稿与编辑。
**利益冲突声明**
所有作者均声明不存在任何实际或潜在的利益冲突,包括与其他组织或公司的财务、个人或其他关系,这些关系可能不当影响研究结果的解释。
**致谢**
特别感谢中国科学技术大学人文与社会科学学院的李雅清女士和史云丽教授。
打赏