中国语音学报·第13辑
上QQ阅读APP看书,第一时间看更新

1.引言

“情感”和“情绪”在日常生活中的区分并不严格,但在心理学概念中,二者既相互联系,又相互区分。一般来说,情绪通常与机体的生理需要相联系,为人和动物所共有,如高兴、悲伤等情绪。而情感常与个体的社会需要相联系,如爱国主义、集体主义等较为稳定的、深刻的、具有社会意义的情感[27]。在语言学界,由于学者大都使用“情感”一词来表示“情绪”的含义[18—20,25,26],因此本文所指的情感语音实际上是指说话人表达高兴、悲伤等情绪时依靠的媒介,即心理学概念中情绪的言语表达。

关于如何对情感进行研究,Scherer等人[12,13]曾多次建议使用Brunswik提出的透镜模型(Brunswikian Lens Model)来研究情感编码、传递和解码的三个阶段。说话人带有情感地进行表达,从而产生某些语音特征,这些声学变化可被称为远端线索,属于编码阶段;含有情感特点的语音信号被听话人解读,这些感知线索被称为近端线索,属于解码阶段;传递阶段的研究主要考虑语音信号会受到客观环境的影响,传输过程可能会系统地改变远端线索的性质(例如,声学参数受到距离或噪声的影响)。

情感语音领域的大多数研究集中在Brunswikian透镜模型的解码部分[13]。这一领域的研究大致可分为两个方面,一方面主要考察听者是否可以从语音中获得情感信息,另一方面探索听者如何从声学线索的变化中解读情感信息[20]。Scherer[11]认为听者根据语音样本识别情感的正确率很高,他通过对以往45项研究的回顾和总结发现,语音情感听辨的平均正确率大约为55%。近年来学者对汉语普通话的研究也证实了这一点[21,22]。王婷、丁红卫[22]在调查20位普通话母语者对五种情感语调的听辨情况时发现,情感语调听辨的平均正确率为70.4%。不同情感语调的听辨优劣性(即不同情感语调的正确听辨率)有较大差异,听辨优劣性的排序为难过(89.5%)>高兴(82.5%)>生气(64.5%)>害怕(59.5%)>厌恶(56%)。害怕与难过、厌恶与生气这两对情感最容易相互混淆,作者分别设计了这两组情感语调的连续统并进行了听辨实验,结果发现两组情感语调之间存在感知边界。此外,为了研究听者如何利用声学线索感知情感信息,西方也有一些学者在使用屏蔽手段消除某种声学线索后,考察不同线索对情感语音感知的影响[1,5,9]。例如,Scherer[9]使用正常语音和三种屏蔽方法(低通滤波、随机拼接、倒放)合成的语音对德语进行情感听辨研究。结果表明,被试在屏蔽的语音中仍能较好地判断情感,保留音质特征的语音(随机拼接和倒放语音)与正常语音的听辨结果在各情感上有较强的关联性,但低通滤波语音的听辨结果只在客气(polite)情感上与正常语音存在显著关联,作者认为这与先前认为基频对情感感知有重要作用的结论相悖。

学界对情感语音也进行了大量关于编码的研究,试图确定说话人不同的情感状态是否会产生相应的声学变化。Johnstone、Scherer[4],Murray、Arnott[7]等学者对现有的声学研究进行了总结,大致梳理出了表达基本情感的声学模式,其中既包括音高、音长、音强这些超音段特征,也包括音段特征。一些学者在研究汉语普通话情感语音的声学特点时指出,不同情感在共振峰模式、基频、平均时长和平均音强上都具有不同表现[6,8,16,17,26]。例如,Zhang等人[17]在对普通话的研究中发现不同情感基频平均值的排序为:愤怒>高兴=恐惧>悲伤;平均时长的排序为:悲伤>高兴>恐惧>愤怒;平均音强的排序为:愤怒>恐惧>高兴>悲伤。Yuan等人[16]发现生气和高兴的基频较高且有较大波动,恐惧的基频较高但波动较小,悲伤的基频较低且波动小。张立华、杨莹春[26]发现,与中性情感相比,普通话中高兴、惊慌、愤怒的F1(第一共振峰)较高,悲伤的F1略低;高兴、惊慌的F2(第二共振峰)较高,而悲伤和愤怒的F2略低。但由于生活中的情感丰富多样,学界对情感语音类别的声学关联物仍存在不少争议[20]。张立华、杨莹春[26]认为情感语音的变化并没有一致规律,甚至是因人而异的。因此也有学者从个体差异的角度对不同情感的声学表征进行过研究[27]。除声学线索外,国内外学者也对情感语音的发声态进行过研究[2,14,28],但由于该领域的研究数量不多,得到的实验结果仍需进一步验证。

汉语是声调语言。与非声调语言不同的是,声调语言中音高的变化不仅可以用来表示语调,也可以用来区别词汇意义。赵元任[23,24]曾指出字调和句调并不是语言学上的同一类现象,他曾用“橡皮带”等比喻来讲解字调与句调的叠加关系。他也谈到[24],表情语调比字调和中性语调复杂得多,“里头除掉严格的语调只讲声音的高低之外,轻重快慢还有喉音的音程也都是表情法的成素。”因此,汉语普通话的情感语音研究对探索人类在情感语音编码、传递和解码过程中的普遍性和语言特异性两个方面都具有一定意义。

基于前人的研究成果,本文拟采用Brunswik提出的透镜模型,从情感解码的角度出发,以普通话中性(中性为没有情感的语音状态)、高兴、恐惧、愤怒、悲伤、惊讶六种基本情感为研究对象进行情感听辨研究。前人的研究结果表明,普通话中不同情感在音质、基频、平均时长和平均音强等声学参数上存在差异。为了探索这些声学线索对于情感感知的影响,本文设计了三种实验刺激:第一种实验刺激是自然语音(保留所有声学线索);第二种实验刺激是运用低通滤波的方法对自然语音进行处理(过滤音质特征,也就是过滤了绝大部分的词汇信息,只保留基频曲拱信息);第三种实验刺激是在第二种刺激的基础上进行平均时长和平均音强的归一化处理。本文将对比这三种情感语音刺激的听辨正确率,以考察六种情感语音在改变音质、音高、平均时长和平均音强等声学线索下的感知情况,在听辨结果的基础上得到情感的听辨优劣性排序和混淆模式。