● 摘要
语音是人类最常用的交换信息的形式,承担着传递感情、交流思想的重要作用。但是对于许多喉切除患者(如晚期喉癌)或因意外事故而不得不切除声带的人来说,语音功能的丧失会严重影响其交流能力。目前,帮助喉切除患者恢复语音功能的方式主要有三种,分别为食管语音、食管-气管语音和人工喉语音。由于食管语音方式与食管-气管语音方式存在发声困难、需二次手术、维护困难等诸多缺陷,很多患者选择了人工喉来产生语音。
尽管电子人工喉具有使用简单,不受瘘口限制、发声连续等优点。但与正常语音相比,电子人工喉语音仍然存在音调单一、机械味足、辐射噪声大等许多缺陷,严重影响使用者的日常交流。特别是在使用其进行汉语普通话发声时表现的尤为突出,由于声调在普通话的语意理解中具有重要作用,因此基频恒定的电子人工喉语音的理解与识别就更加困难。
为了改善电子人工喉语音的发声效果,提高语音可懂度和可接受度,本论文在总结和比较语音转换技术不同模型和转换方法的基础上,选择了基于混合高斯模型(GMM)和STRAIGHT模型的语音转换方法,结合电子人工喉语音的特点,对汉语普通话电子人工喉语音进行转换,并对转换后语音进行了主客观评价。
从转换后语音波形及语谱图可以看出,语音转换技术有效降低了电子人工喉语音的辐射噪声,特别是该技术可以改变电子喉语音的单一频率,使其具有声调变化,对于汉语普通话四种声调的正确转换率达到61.5%。主观评价结果显示,与原始电子喉语音相比,转换后语音的可懂度和可接受度都有一定程度的提高(可懂度平均值由1.71提高到2.70,可接受度平均值由1.86提高到2.82)。
结果显示语音转换技术可以有效增强汉语普通话电子喉语音的发音质量,该研究对于语音康复技术与相关发声辅具的研发具有参考价值。
相关内容
相关标签