● 摘要
说话人识别又称作“声纹”识别,它属于生物特征识别,同指纹、虹膜和人脸一样被当作人们的个性特征去进行身份的识别鉴定。生物识别因为其通用性、独特性、稳定性、精确性和可采集性等优点成为人体的显著生物特征。语音不仅包含了这些性质,而且相对其它生物特征更具有代表性,可以随时方便的产生,训练和识别时不需要特殊的输入设备,利用麦克风便可采集,因此成为人们普遍接受的一种生物识别特征。
说话人识别可分类为说话人辨别与说话人确认,说话人辨别是进行“多对一”的分析,是把一段语音从已记录的有限说话人集合中辨别出这个说话人身份的过程。说话人辨别系统的性能受到两个主要因素的影响:一是说话人特征向量参数,二是说话人的辨别系统。随着测试者规模的增大,说话人辨别系统的性能会随之降低,语音识别系统的性能直接受到说话人特征参数选取的影响。运用支持向量机算法进行说话人辨别已被证实有良好的分类效果,支持向量机的参数选取能对识别系统性能的发挥起到关键性的作用。因此提取代表性好、鉴别能力强以及维数小的特征参数,选取合理的支持向量机参数,能对识别系统的性能起到决定性的作用。本文主要进行了以下几个方面的研究:
(1)对于支持向量机的分类方法,比较了线性倒谱参数LPCC、美尔频率倒谱系数MFCC以及一阶差分组合美尔频率倒谱系数的识别率。结果说明:选取16阶美尔频率倒谱系数为说话人辨别的特征向量参数时系统分类正确率较高,一阶差分组合MFCC特征参数虽然能提升辨别率,但是会影响辨别系统的效率。
(2)对于Mel频率倒谱系数支持向量机算法的辨别归类,讨论了Mel频率倒谱系数前两维对于识别性能的影响。结果表明:只去掉第一维特征参数(能量系数)有助于系统识别率的提升。
(3)把MFCC特征向量参数进行了归一化处理,对比了主成分分析法和平均影响值法的降维效果和辨别性能。结果表明:本文提出的平均影响值法能有效选取Mel频率倒谱系数中有用的特征参数,可以起到降维和提升语音识别率的效果。
(4)利用K分类交叉验证法与网格搜索法、遗传算法和粒子群优化算法结合对支持向量机的核函数参数和惩罚因子进行参数寻优,并实现了多个说话人的辨别。结果发现:在进行支持向量机的参数寻优时,使用K分类交叉验证与网格搜索法结合后识别系统对于维数高、样本大的语音数据处理较为合理。