当前位置:问答库>论文摘要

题目:基于支持向量机的MFCC特征参量研究和核函数选择分析

关键词:说话人识别;语音预处理;Mel频率倒谱系数;支持向量机;平均影响值

  摘要


说话人识别是人与生俱来的一种生理或行为特征,与其它生物识别,如:指纹、人脸、虹膜等相比,更加简单、经济、方便快捷。说话人识别从信号检测与处理、模式识别、人工智能、机器学习等理论与技术的发展中形成,是一个涉及生理学、心理学、声学、语音学等多领域的综合课程。

说话人识别受到下面因素的影响:一是特征参数,能够表征说话人个性的特征参数有很多种,其中,当输入一个信号时,Mel频率倒谱系数(MFCC)对其没有任何猜想,也不做任何限制,对信号的性质也没有依赖性,又利用了听觉模型的研究成果,符合实际的听音效果。在用于替代人耳来分析语音时,有很好的性能和鲁棒性,所以本文选取的特征参数为MFCC参数。二是识别模型,说话人识别模型也有很多种,其中,支持向量机(SVM)在小样本、非线性、局部极小值和高维模式识别中优势明显,具有很强的对新鲜样本适应的能力,所以本文选取的识别模型为SVM。

本文从对MFCC特征参数的处理和SVM的核函数优化两方面进行了研究,主要是下面四方面的研究内容:

(1)本文对语音预处理中语音分帧、预加重系数、采样频率、Mel滤波器个数,这四个量的选取对语音分类率的影响作了分析,依次设定其中一个为变量其它全为定量的方法进行研究。实验表明:可以对语音进行帧长N=512、帧移M=170的分帧;预加重系数a=0.91;采样频率f=16KHz;Mel滤波器的个数m=24的预处理,经过这样的预处理后,得到的MFCC参数更加稳健。

(2)很多实验已经证明MFCC参数最前面的几维对语音的分类性能影响较大,但是没有考虑过最前面的几组对语音分类率的影响,本文对MFCC特征参数的前面几组(分析了前面两组)的重要性也作了分析。实验表明:应该保留全部200组MFCC特征参数。

(3)本文对SVM的核函数类型以及核参数选取对SVM分类能力的影响作了分析。实验表明:在SVM中采用RBF核这个核函数,能得到最高的分类准确率;用网格搜索和K折交叉验证法选择出的参数优于人为(凭经验)选定的核参数。

(4)MFCC参数各维数之间存在大量冗余信息,引用平均影响值法对每维MFCC参数进行排序,可以剔除相对重要性低的MFCC。本文研究与以往不同的是,往常在MFCC参数原值的基础上加/减10%,本文新增加浮动量到30%、50%、70%、90%。实验表明:在原始特征的基础上加/减90%,这样筛选出的MFCC参数训练SVM,得到的最高语音分类率优于其他浮动量下得到的最高语音分类率。而且降维后,在选取最高10维时,得到的语音分类率和运行效率优于保留全部维数得到的语音分类率和运行效率。

通过本文的研究,对MFCC参数进行一系列的预处理和用平均影响值方法对MFCC参数进行降维后,得到MFCC特征参数更稳健、鲁棒性能更强。而且只有核函数选择准确、参数选择合适,SVM的分类能力才会最优。