
(一)“统一平台”的作用和意义
第一,推动科学保护弱势语言、抢救濒危语言的进程。保护弱势语言、抢救濒危语言是世界各国共同面临的紧迫任务。2003年3月,联合国教科文组织在巴黎总部举行的“关于濒危语言问题的专家会议”上提出,保护世界语言多样性一直在联合国教科文组织众多工作中占有重要的地位。这和“维护人类的多样性”是同一性质的工作。在我国少数民族语言中,有的语言正处于濒临失传的境地,有些语言的特色语音现象正在消失或被同化。为了保护人类共同的文化遗产——语言的多样性,进行抢救性的保护已到了刻不容缓的地步。“统一平台”将致力于开发一个基于互联网技术的中国少数民族语言资源和技术在线服务平台,以适应国家语言资源战略发展之需要,进而达到依靠现代科学技术搜集和保护我国语言资源的目标,有力推动保护弱势语言、抢救濒危语言的进程。
第二,有效促进科研资源的共享和科学研究的延续性。“统一平台”能够确保数据资源的共享性和科学研究的延续性,推动语音声学参数库研制和语音声学实验研究工作的规范化和标准化进程,与同行共享数据资源,提高数据库、语料库、信息和技术平台的使用价值,加快我国少数民族语言语音研究从“经验科学”转变为“精密科学”的进程,提升语音学研究水平。如,以往的语音实验研究多以研究某种语言语音现象为目标,选取少量的语料,以提取相关语音参数为目的,很少以研究特定语言的语音系统为出发点。因而,对语音声学和生理特征的选择和把握缺乏全面性和系统性,所采集的语音声学和生理参数数据仅满足于写出论著,不注重数据的积累和整合,缺乏共享性和延续性。“统一平台”将摒弃这种传统小作坊式的方法,运用现代化的技术,系统全面地采集和分析数据。这种研究成果将对后人具有很高的参考价值,并提供后续研究的可能。
第三,推进语音学重大基础理论研究,促进语音学与相关学科的发展。“统一平台”不但能够推进语音学重大基础理论研究,为历史比较语言学和语音学研究提供新的理论和方法,还能促进语音学与相关学科的发展,引导语音学研究更加深入地走进社会,解决语言交际中存在的实际问题。语音特征是个性和共性的统一体,不但同一个语系或语族语言的音位系统之间存在共性,而且不同语系或语族语言之间也存在一定的共性。了解这个共性,有利于推动个体语言语音特征的描写和语言之间的比较研究,促进语音学基础研究,推动语音学基础理论的建立和发展。利用“统一平台”,不仅可以对单语种的音段和超音段特征参数进行全面、系统的统计分析(相关分析、因子分析、聚类分析等),探讨并总结出其特征和变化规律,而且还可以对跨语系、跨语族语言的音段和超音段特征进行比较研究,积极推动历史比较语言学(如语言同源、演化等)和普通语音学(如人类语言语音的共性问题)的发展。
第四,能够为民族语言言语声学工程研究和研发提供语音学基础数据资源,推动我国多语种人机智能交互平台技术的发展。众所周知,进入21世纪后,加速推进少数民族语言(文字)的标准化、规范化和信息化进程,保护弱势语言、抢救濒危语言的工作显得尤为重要。我们既要加速推进其标准化、规范化、信息化进程,同时还要抢救性地保护它们的多样性。这是我国民族语言文字工作目前所面临的两大挑战。一方面,需要投入大量的人力和财力,去填补汉语和少数民族语言信息化之间的数字鸿沟。另一方面,也要下大力气保护少数民族语言这一人类宝贵的非物质文化遗产。我们虽然可以直接引进世界最先进的语言和语音处理技术和方法来解决少数民族语言语音研究的技术性问题,但再先进的技术也只能是客观的物质支持,真正对于少数民族语言本质与规律的研究还要靠我们自己。现代计算机技术虽然通过云数据的统计,能够建立比较准确的语言模型,但实践证明好的统计模型需要语言知识库支撑。“统一平台”能够提供真实有效的数据依据。
第五,保护我国民族文化的多样性,促进我国语言生活的健康和谐发展,捍卫国家边疆文化安全,完善我国多语种人机智能交互平台,使言语声学工程研究更好地为国家“一带一路”建设服务。语言(文字)的规范化和信息化是一个民族走上信息化道路的重要标志,而中国语言(文字)的全面发展离不开少数民族语言(文字)的进一步发展。只有实现各民族语言(文字)的规范化和信息化,才能保障我国政治、经济、文化和社会的和谐稳定发展。我国许多少数民族语言是跨境语言,如蒙古语、维吾尔语、哈萨克语、傣语、壮语和苗语等。据我们所知,上述跨境语言所处国家和地区关于语音技术的整体研究相对滞后,仍有较大研究和开发空间。
“统一平台”中所提出的各项标准和原则必将成为国际国内语言声学实验研究依据和标准,推动语言声学实验研究工作的规范化和标准化进程。目前国际上虽然有一个包括世界大多数语言的语音样品库(UCLA),但尚未包容多语种的语音声学参数库,更没有大家所公认和遵循的标准和方法,我们所提出的各项标准和原则必将成为国际国内语言语音声学参数库的研制依据和标准,推动语音声学参数库研制和语音声学实验研究工作的规范化和标准化进程。
“统一平台”不仅是语音本体基础研究领域的一个突破,而且将会成为国家信息资源的重要组成部分,弥补国家少数民族语言信息资源的阙如。到目前为止,在国内外还没有类似关于特定语言的完整的语音声学参数库(包括元音、辅音、韵律及各种特殊音质)。
总之,“统一平台”将我国传统的优势学科同新的前沿领域相结合,无论从现代社会语言资料和文化遗产流失的严峻现实,还是从科学技术和语言研究相结合的发展方向来看,都有着广阔的发展空间和远大前景。该平台将为我国同类语言数据库、档案库提供范例,为语言本体描写研究和比较研究,以及民族学与人类学等其他学科的研究提供真实、客观的数据资源,将会有力促进我国民族语言学学科的发展。
1.语料设计与“索引库”的建立
1.1 语料规模和范围
建立多语种统一的、完备的语音声学参数库,首要的工作是语音材料(简称语料)的设计与编写。这是整个工作的基石,必须制定统一的语料设计原则并严格把关,充分反映每种语言语音和韵律(单词层面上)系统的全貌及特点。各种语言以双音节为主,但应包含一定数量的单音节词,并顾及各语言的多音节词,特别要注意4~5音节词的出现概率。除此之外,还要顾及元音和辅音的和谐问题、音段和超音段的协同发音问题,以及音段序列,如辅音串等问题。考虑到语料的完整性,选择一定数量的能够覆盖目标语言语音和语法特点的词组和各类简单句,以便观察、分析语音变化和句子韵律特征。本项研究不涉及词组和语句声学参数,但搜集濒危语言的话语语料,以起到“语言保存”的作用。以下是语料设计原则和方法。
首先,字母表的设计。遵循目标语言传统字母表,字母表包括所有的元音和辅音。
其次,单词语料的设计。
(1)单音节词。每种语言选择150~500个常用的单音节词。要求:一般都是独立出现的,覆盖所有的音节类型,覆盖各种音节类型中的所有元音和辅音以及它们的各类组合(搭配)等(能够组合的都要考虑到)。
(2)双音节及多音节词。每种语言选择1500~2000个常用的双音节和多音节词。要求:双音节词和多音节词的比例不宜太悬殊,控制在1/2左右;尽可能选择词干性的(未加黏着成分)或派生词;确保每个音位在不同位置上的(多次)出现次数,如,音节内的不同位置和词的不同位置(首、腰、末位置)等;除个别音段外,音段的出现频率不应相差太悬殊;所有的词,应尽可能反映目标语言的语音变化,包括元音和辅音的和谐、协同发音以及重音等问题。
(3)数词及量词。基数词(尽可能穷尽)、序数词、约数词和集合数词的读音,并兼顾量词。除基本词外,结合目标语言的特点,结合多位数字,读音发生变化的现象也应收入其中。
(4)形态变化的典型词。选择一批常用的、有变化词类,如名词、代词、形容词和动词等(总数不超过50个,以名词和动词为主适当考虑其他词),并在其后依次附加上可能的成分:名词后加数、格、概称和领属等,形容词后加比较范畴。包括所有的形态变化,如包括词尾变化中的式动词、副动词和形动词以及词干变化中的态、体等范畴。
再次,词组语料的设计。选择100~200个目标语言的固定词组(如谚语、成语和惯用语)和由不同句法结构(如形态变化、虚词、词序和语调等)构成的一般词组。原则是以固定词组为主,兼顾一般词组。
复次,句子语料的设计。能够反映目标语言语调特征的、经典的日常用语,包含各类简单句(陈述、疑问、祈使和感叹)和复合句(100~300个)。
最后,篇章语料的设计。《北风与太阳》(汉文稿由笔者提供),在本民族中广泛流传的、家喻户晓的短故事(5~10篇)。但不控制濒危语言民间故事语料的量。
1.2 语料编写原则
1.2.1 单音节词编写原则
图2为音节类型和单词结构模式示意图。覆盖该语言所有音节类型(口语、书面语)。对于黏着型语言来说,音节类型与单音节词的结构模式相同。因此,所有音节类型指图2[1]上的①~⑥类单音节词(音节类型数目由每种语言本身音节类型而定,但至少覆盖这六种)。
图2 音节类型和单词结构模式
每一个音节类型必须覆盖在该类型中能够出现的所有音位及其变体(所有音段),即覆盖能够构成该音节类型的所有音位及其变体(所有音段)。如:①V指能够单独构成词的所有元音(短长及复合元音);②VC指所有元+辅组合的词,其中V为所有元音(短长及复合元音),C为所有非词首辅音;③VCC指所有元音和(包括二合元音和三合元音)复辅音组合的词,其中V为所有元音(短长及复合元音),CC为所有复辅音;④CV指所有辅+元组合的词,C为所有词首辅音,V为所有元音(短长及复合元音);⑤C1VC2指所有辅+元+辅组合的词,C1为所有词首辅音,V为所有元音(短长及复合元音),C2为能够在词末出现的所有辅音;⑥C1VC2C3指所有辅+元+辅+辅组合的词,C1为所有词首辅音,V为所有元音(短长及复合元音),C2C3为能够组合并在词尾出现的所有复辅音。
在上述6类单音节词(音节类型)中,每类都有能够在该类型中出现的若干个词。如对CV来说,C能够与若干个元音组合,即nɑː、nəː、niː、nː、noː、nuː等。V也能够与若干个辅音组合,即nɑː、pɑː、xɑː、kɑː、lɑː、mɑː、sɑː、ʃɑː、thɑː等。单音节词必须如实地反映上述特点,尽量控制在150~200个词。
1.2.2 多音节词编写原则
多音节词的选词比单音节词的选词复杂。多音节词的选择除考虑上述(单音节词)因素外,还要考虑音节之间音段的搭配和前后音节的开闭问题(语境问题)。图3为多音节词音节之间音段的搭配和前后音节的开闭问题示意图。编写多音节词时,注意如下三个问题:必须充分反映元音和谐律问题;考虑好前后音节之间的音段搭配问题,除CVC+CVC和CV+CVC外,还要考虑非词首音节的开、闭问题(如图3所示);覆盖能够组合的所有单词结构。
图3 多音节之间音段的搭配和前后音节的开闭问题示意图
在黏着型阿尔泰语系诸语言中,没有类似CCV、CCVC、CCVCC等以复辅音开头的音节(书面语中有些以复辅音开头的词不是阿尔泰语系语言的固有词)。在非词首音节中没有类似V、VC、VCC等以元音开头的音节。因此,图2上没有列出类似CVC+CCV和CVC+VC等结构的双或三音节词。类似CVCC+CV或CVCC+CVC等含有三个辅音串的词也较少。图2中用方块标记的部分是在阿尔泰语系诸语言中没有或比较少见的词。图4是索引库样本示意。
图4 蒙古语索引库样本示意
2.语音信号采集与“声样库”的建立
录音设备采用配置高性能外置声卡、调音台和定向性话筒的手提电脑、电声门仪(EGG)以及DV摄影机等。采样率为22kHz、16bits,双通道记录,S/N不低于45dB。在低噪音环境中按照事先准备好的词句表进行语音信号和视频采集。当然,这些只是我们以往采用的方法,目前市场上有多种录音设备供选择。保证音质、选好发音人是本项工作的关键,必须认真对待。录制好的声音文件可以用audacity软件进行切音和命名。图5为声样库实例。
图5 声样库实例
3.语音标注与“语音标注库”的建立
语音标注分三层(如图6所示),其中,第一层为音段标注,采用音素标记法,即怎么读怎么标记,呈现语音音变状况和音段时长;第二、第三层为音节和词标注,采用音位标记法,即根据目标语言的音位系统标记,呈现目标语言的音位系统或书面语面貌。从事语音标注的研究人员不但应具备扎实的语言功底和语言学、语音学知识,而且必须掌握声学语音学的理论知识和声学分析方法。
图6 蒙古语语音标注库实例
“语音标注库”是“语言声学参数库”研制工作的重要环节。该库能够呈现给读者或使用者每个音段的三维语图及其界限、音标,包括每个词的超音段特征,是图、声音和音标有机结合的语音基础研究的必备库。
4.声学参数标注、采集与“声学参数标注库”的建立
4.1 功能性字段集的设计
功能字段担负着查找和统计每一种语言、每一个词、每一个音节中每一个音段的声学参数的重任,因此它必须包含足够的信息量。为满足查找和统计统一平台中不同语言、处于不同位置和不同条件音段的信息和参数,需要设计统一的功能字段。通过二十几年的努力,我们已探索出以下15个功能字段。这些特征集,具有确定性、唯一性、全面性和权威性等特点,能够涵盖所有民族语言的特征。功能性字段分词层、音节层、音段层、发声类型层和声调类型层等5层15个字段(请见表1)。
表1 功能性字段及其说明
表1 功能性字段及其说明-续表
4.2 声学特征参数集的设计
声学特征参数负载着音段所有的声学特征信息,是观察了解音段特征及其变化的密钥,是语音描写研究的基石。为了对不同语言音段或超音段特征之间进行比较研究,需要设计一套统一的声学特征参数。经过二十几年的努力,我们已探索出以下39个声学特征参数。其中,除音节时长SD(单位:毫秒)和词长WD(单位:毫秒)外,元音和辅音各设计14个参数,包括时长,音强,共振峰频率及其前后过渡,清、浊辅音的强频集中区和共振峰频率(为统计分析上的方便采用该名称);韵律特征设计6个参数,包括韵母总时长,调长,调型的起点、折点和终点频率,调型起点至折点的时间长度等;另外,还有辅音谱重心、相对于谱重心的谱偏移量和偏离度(低于谱重心的谱与高于谱重心的谱之比)等3个参数(请见表2~4)。
表2 辅音声学特征及定义
表3 元音声学特征及定义
表3 元音声学特征及定义-续表
表4 韵律特征及定义
4.3 声学参数采集方法和原则
根据以往对汉语普通话和少数民族语言的生理和声学研究经验,经过多次讨论、反复修改,我们团队制定了下列统一的测量、采集方法和标准(请见表5~6)。
表5 声学特征参数及其测量采集方法和原则(辅音部分)
表5 声学特征参数及其测量采集方法和原则(辅音部分)-续表
表6 声学特征参数及其测量采集方法和原则(元音和韵律部分)
表6 声学特征参数及其测量采集方法和原则(元音和韵律部分)-续表
4.4 标注原则与方法
自2012年2月我们课题组开始着手编写PRAAT脚本程序,到目前为止已投入使用的工具(程序)有以下几种。(1)自动添加8层标注层工具。该工具能够自动生成八层标注文件,分别为:P(音素)、S(音节)、W(词)、PI(音高)、IN(音强)、FO(共振峰)、BS(嗓音横杠和冲直条)、CS(辅音谱重心、偏移量、偏移度)等。其中,第1~3层为语音标注层,第4~8层为参数标注层。(2)自动增加5层标注层工具。该工具在原1~3层语音标注层的基础上能够自动增加第4~8层标注层和词边界。(3)自动转换标注文件工具。该工具能够将同一种语言或方言一位发言人的标注文件转化成另一位发言人的标注文件,节约语音标注时间。(4)自动反转前三层并加五层工具。该工具能够自动反转前三层并增加五层。(5)参数自动标注工具(3.1版)。该工具目前能够自动标注除第4层(PI)和第7层(BS)以外的参数。(6)参数自动提取工具(3.9版)。该工具目前能够自动提取1~8层的参数并自动转化成TXT文件。
4.4.1 标注层
以下为1~8层标注层的内容和标记、标注方法。
第一层P(Phone)为音素(音段segment)层。该层以音段为单元进行标注。要标注目标词每一个音段的准确界限并按照“音位变体标记原则”[2](发音人怎么说就怎么记,即完全按照声学特征标音)进行标音。
第二层S(Syllable)为音节层。该层以音节为单元进行标注。在第一层的基础上,要标注目标词每一个音节的界限并按照“音位标记原则”(按照目标语言音位系统)进行标音。
第三层W(Word)为词层。该层以词为单元进行标注。在第一、第二层的基础上,标注目标词界限并按照“音位标记原则”进行标音。
第四层PI(Pitch)为音高曲线标注层。该层以音节为单元进行标注。要采集每个音节音高曲线的起始点、折点和结束点等三个点的音高参数,避开音高曲线的“弯头降尾”。音高曲线如果出现“断线”现象,可以人为地延伸。该层尚未自动化。
第五层IN(Intensity)为音段音强标注层。该层以音段为单元进行标注,只采集每个音段最强点的参数。如果是多音节词,一定要采集每个音节的最强点。该层已实现自动化。
第六层FO(Formant)为音段共振峰标注层。该层以音段为单元进行标注,要采集每个音段包括元音、浊辅音和清辅音的共振峰和强频集中区频率,统称共振峰频率。其中,元音共振峰要采集三个点,即前、后过渡和目标点频率;清、浊辅音只采集一个点,即目标点共振峰频率。缺少的共振峰用“,”号(必须是英文逗号)替代。如,200,,3200,,4600,表示没有F2和F4。该层虽然已实现自动化,但对清辅音共振峰提取错误率较高,提取完参数后必须严格检查。目的:一要检验数据的准确性,二要检查没有显示共振峰的“,”号,特别是清辅音的F1一般都不显示。这时一定要手动修改,如:,1200,3200,3800,4600……标记所提取的共振峰位置时,特别注意要避开盲点。
第七层BS(Voice Bar & Spike)为塞音,包括塞音、塞擦音浊音横杠或冲直条标注层,是音长参数标注层。(1)清塞音和塞擦音,要分词首和非词首。其中,要标记非词首的冲直条位置,不标记词首的,用词界限代替。(2)浊塞音和塞擦音,要标记所有浊塞音和塞擦音的冲直条位置。其中,非词首的有两种情况。第一种为如果嗓音横条(Voice Bar)之前有GAP,要标记嗓音横杠起始点位置和冲直条位置。第二种为如果嗓音横杠之前没有GAP,即嗓音横杠直接与前音节元音的F1连接时,只标记冲直条位置。这种情况下,只有嗓音横杠长度和VOT长度。该层尚未自动化。
第八层CS(Consonant Spectrum)为除塞音(塞音和塞擦音)以外其他辅音的谱重心、偏移量和偏移度标注层。该层已实现自动化,只标记词的界限即可(参见图7)。
图7 声学参数标注实例
提示:(1)“参数自动标注”程序的用法:一定要用PRAAT的Open PRAAT script打开;先标注完后,run改程序。注意:run之前要检查光标是否在TextGrid上(不能在Sound上);要检查PI、IN、FO等是否显示;PRAAT的run完之后,要检查数据。其中,特别注意检查清辅音共振峰数据。如果有修改部分,不能再run,一定要保存。(2)关于PRAAT有些参数的设定问题。Formant Settings:分析男性发音人语料时,设定为5000Hz;女性为5500Hz。Pitch Settings:分析男性发音人语料时,设定为75~300Hz;女性为100~500Hz。这些设定,对参数的影响不会很大。上述设定是开发PRAAT软件的工程师们的建议,我们应该遵循。
4.4.2 辅音的声学表现
辅音在语图(spectrogram)上的声学表现可以分解为以下基本模式。
冲直条(Spike):塞音破裂产生的脉冲频谱,表现为一直条,时程很短,10~20ms,意味在所有的频率成分上都有能量分布。
无声空间(Gap):在塞音和塞擦音破裂之前有一段空白,这是辅音成阻、持阻时段的表现,造成清塞音的效果;这一段虽是空白,但对塞音感知来说是不可缺少的。
嗓音横杠(Voice bar):这是声带振动的浊音流经鼻腔辐射到空气中在语图上的表现,冲直条之前若有一条500Hz以下较宽的嗓音横条,说明这是浊塞音。
乱纹(Fills):这是气流流经口腔某部位狭窄通道造成的湍流,所有的擦音在语图上都表现为乱纹。
共振峰(Formant):其定义与元音相同,鼻音、边音都有共振峰。
CS(Consonant Spectrum):代表辅音的谱重心、偏移量、偏移度。
4.4.3 清辅音共振峰标注原则与方法
元音和辅音在词中的每个共振峰都是围绕各自的一条线上下移动。这些线就像一条橡皮带,随着共振峰的变化而上下摆动。因此,就像图8~10(为读者展示我们“语音标注库”原始面貌保留SAMPA码标注方式,下同)中所显示的那样,词中元音和辅音的每一个共振峰都会绘制一条完美的波浪线。原因:每个人的共鸣腔是固定的,决定上下移动幅度的是舌位(高低前后)。这完全符合发音机理。图8~10中几种语言词的共振峰波浪线对于元音和辅音共振峰的理解和采集,特别是对于清塞音、塞擦音和擦音共振峰的准确采集具有非常重要的意义。我们采用“顺藤摸瓜”的方法,可以比较容易地找到清塞音、塞擦音和擦音的几个共振峰。词中元音和辅音的共振峰对应规律为:
其中,CF1不稳定,有时比较明显,有时不明显,根据具体表现确定是否采集该参数。有关清辅音共振峰模式,请见图8~10。
4.4.4 鼻音对其前后音段共振峰的影响问题
如果一个词中有鼻音[m,n,ŋ],可能会中断或打乱共振峰连接。这是因共鸣腔的改变或转换而发生的变化,主要表现在元音的F2和F3之间会出现“多余”的共振峰,即传统语音学中所说的“鼻化”。在这种情况下,忽略鼻音的影响而找到元音共振峰的准确位置是非常必要的(参见图11)。
图8 土族语[xʊrmiː]“裙子”一词的CF“波浪线”
图9 蒙古语[xussəŋ]“所希望的”一词的CF“波浪线”
图10 蒙古语[xɐstʃɛː]“减了”一词的CF“波浪线”
图11 锡伯语[uvuvəm]“卸(货)”一词的CF“波浪线”
4.4.5 闪音声学表现及其标注原则与方法
在蒙古、土、东部裕固、鄂温克、鄂伦春和哈萨克等族语言中都有/r/~/ɾ/辅音音位。在这些语言中,该音位的出现频率也相当高。目前,我们发现了以下四种变体[ɾ,r,ʒ~ʐ,ɹ]。其中,我们对闪音[ɾ][3]语图的认识是随着分析语言的增多而逐渐深入的。典型闪音语图是“浊音横杠+无声段+浊音横杠”。在以往的研究(呼和,2009)中,我们把无声段之后的浊音横杠处理成弱短元音。通过比较上述阿尔泰语系诸多语言闪音之后,我们觉得处理成弱短元音不妥,因为该部分正是把闪音归为浊音的主要依据。通过分析发现,不管出现在什么样的语境下,如元音之间(-VɾV-)、音节首(-ɾV-)和音节末(-CVɾ-)等,闪音都能够保持其“浊音横杠+无声段+浊音横杠”模式。目前我们区分闪音与颤音的标准只限定在所颤的数量上,即颤一次为闪,两次或两次以上为颤音,即r=ɾ+ɾ+……。
图12~17是不同语言和不同位置、不同语境中出现的闪音实例。标注时,以其前元音结束段为起始点(包括暂短的无声短)一直到后面的浊音横杠的结束点作为其音长。
图12 鄂伦春语[moːɾoːɾon]“呻吟”一词的波形图、三维语图和标注实例
图13 蒙古语[xɛɾʊːʧhɨl3Ɣ]“责任”一词的波形图、三维语图和标注实例
图14 蒙古语[thɛːɸʃɾŋkʊɛ]“安详的”一词的波形图、三维语图和标注实例
图15 蒙古语[ɐŋxɐːɾl]“注意力”一词的波形图、三维语图和标注实例
图16 东部裕固语[tɐɾlɐː-]“兴盛”一词的波形图、三维语图和标注实例
图17 东部裕固语[ʧɐɹtʃhɐ]“雇工”一词的波形图、三维语图和标注实例
闪音在清辅音之前(-Vɾ/C清-)有时会清化为[ɹ]音。这种变体在蒙古语中较多,蒙古语族其他语言中也会出现(请见图16)。
4.4.6 音高曲线三点的标记原则与方法
为了准确无误地采集每一个音节音高曲线,我们制定了以下标记方法。因为阿尔泰语系语言没有声调,为此研究描写词重音时我们只需采集三点即可。图18为音高曲线采集原则和方法。
图18 音节音高曲线模式及其测量方法示意图
5.声学参数自动标注与提取系统
尽管通过二十多年的语音实验研究和描写研究实践,我们团队对语音声学特征有了新的认识,积累了测量和采集声学特征参数的丰富经验,但是声学参数采集工作仍然非常艰难。这是因为仅仅依靠手工标注和采集,一方面,工作量大,错误率高,效率低,无法保证实验方法和实验数据的可重复性,更无法实现语音声学研究工作的规范化和标准化;另一方面,由于声学特征定义及其提取方法和标准难以统一等原因,导致了语言之间难以相互比较、研究成果无法相互借鉴的后果。为了避免上述弊端,必须解决语音声学参数库研制工作的自动化问题,语音声学参数自动标注和提取是首先要解决的问题。
为推动语音声学实验研究工作的规范化和标准化进程,自2013年年初开始,根据多年积累的语音声学参数库研制经验,在呼和研究员的倡导下,由周学文副研究员编写完成并投入使用了“语音声学参数自动标注/提取系统”(周学文、呼和,2014)。该系统具有标准统一、数据完整、简单高效、可校对、能容错的特点。与手动采集声学参数相比,该系统能够减少大量的填写数据的工作量,减少人工标注的随意性,既减少工作量,又降低错误率,能够有效提高语音声学参数库研制效率,确保实验方法和实验数据的准确性和可重复性。
声学参数自动标注和自动提取两个工具共有源代码大约1500行,自动标注实现了除冲直条外所有声学参数的自动标注,自动提取软件增加了谱重心、偏移量、韵律参数等新的参数的自动计算和提取,两款软件经过了多个用户、大量数据的运行实践和改进,证明了其稳定和高效,极大提高了参数标注和提取的工作效率。
表7 八层标注文件结构实例
为了对声学参数进行标准化标注和自动提取以及减少人工标注的随意性,在提出八层标注文件结构(请见表7)的同时,制订了归一化的标注标准和标注点。该结构涵盖了音段和超音段主要声学特征。标注方法如下:在PRAAT环境下将标注文件与语音文件同时打开后,用户按照统一的标注标准和方法,选定标注位置(音高、音强、共振峰和浊音杠与冲直条),执行自动标注软件,系统把具体值自动标注到所选位置上,用户只需校对、修改和确认即可。有了该系统,语音实验人员可以把主要精力集中到对语音特征的分析和比较上,不再为手工填写大量数据而发愁。这样既减少工作量,又降低错误率。
图19为自动提取软件运行界面。自动提取软件是一款高效而稳定的软件,它主要完成如下工作。(1)根据SAMPA-C码定义,判断音素的元音/辅音属性。如果是辅音,还要判断其清/浊、塞音塞擦音/非塞音塞擦音属性。(2)根据音节内音素的组合,判断音节类型并得到类型号、音节位置和数量、词/音节/音素长度,将音高值赋予音素,将共振峰值串(可能有逗号分隔的缺省值)分解得到F1~F5,并根据元音/辅音属性,分别赋予各自的共振峰,将音高赋予音节的属性。(3)根据第七层的冲直条和浊音杠标记,与第一层的音素进行匹配,根据词首/非词首、清/浊属性,将各个标记解释为冲直条或浊音杠,计算得到GAP、VOT和音长,再赋值给音素。(4)第八层将计算得到的辅音谱特征值赋予辅音等。
图19 自动提取软件运行界面
语音声学参数自动标注/提取是我们整个工作的关键。语音声学参数的准确而高效提取能够有效提高语音声学参数库研制效率,确保实验方法和实验数据的准确性和可重复性。声学参数提取技术上的改进为逐步实现语音声学参数库研制工作的全面自动化,推动语音声学参数库研制和语音声学实验研究工作的规范化和标准化进程。类似资源库创建中计算机技术的运用,将需要计算机技术人员和语言学者互相结合、协同作战、进行攻关。