● 摘要
随着人工智能和信息技术的飞速发展,人们越来越渴望计算机具有智能化的人机交互能力。语音是人类最常用、最有效、最方便的交流方式。人们通过声带发声除了表达基本的语意信息以外,还表达了说话人的情感以及情绪等信息。有效的识别语音中的情感信息对于提高计算机的人性化与智能化水平有着重要意义。当前,语音情感识别技术在教育、信息、医学、刑侦以及生活娱乐等领域都得到了极大的应用。
本论文的主要工作内容如下:
最小方差无失真响应(MVDR)提取语音情感特征参数。针对线性预测(LP)模型不能很好地表征语音情感谱包络,使得语音情感识别率较低的不足,本论文引入MVDR谱方法进行语音情感特征参数的提取。首先利用Levinson-Durbin算法求取出M阶线性预测系数,然后计算MVDR谱系数,再将其通过Mel三角滤波器进行滤波处理并得到每个滤波器输出的对数能量,最后通过离散余弦变换得到MVDR特征。
人工蜂群算法(ABC)对语音情感特征参数进行选择。针对用最小方差无失真响应算法提取语音情感特征时存在特征冗余信息过多和系统运行时间过长的缺点,本论文采用ABC算法对语音特征参数进行特征选择,选出最优语音情感特征子集作为识别时所用特征参数。
融合脉冲耦合神经网络(PCNN)和径向基函数(RBF)神经网络进行语音情感分类识别。针对单一分类器PCNN和RBF神经网络对语音情感识别率不高的缺点,本论文提出了融合PCNN与RBF的语音情感识别方法。首先利用语谱图算法得到语音情感的语谱图,再将语谱图送入PCNN中获得特征时间序列并作为语言情感识别的特征参数,最后采取RBF对语音情感进行识别。
对于上述方法所使用的训练样本与测试样本都采用CASIA汉语情感语料库中的生气、平静、高兴、害怕4种情感语音,运用MATLAB进行仿真实验,由实验结果可见,所用方法对提高语音情感的识别率有效。
相关内容
相关标签