当前位置:问答库>论文摘要

题目:话者识别中特征模型的补偿及复杂度选择方法研究与实现

关键词:话者识别;模型补偿;模型复杂度

  摘要

论文研究噪音环境下提高话者识别性能的技术。话者识别是指利用语音特征识别话者的身份,包括训练过程和识别过程。训练是根据话者语音建立特征模型,识别是根据待识别语音和特征模型识别话者身份。训练环境和识别环境的不一致是影响识别性能的重要因素,而模型补偿可以通过修正话者特征模型来减小这种不一致导致的模型失真程度。模型复杂度是特征模型的重要属性,复杂度的选择与特征模型的识别性能密切相关。目前对话者识别方法的研究未将声学层次、特征层次和模型层次中提高话者识别性能的方法融合应用于话者模型补偿方法;未根据训练语音的复杂度自动为不同话者模型选择不同的模型复杂度。论文针对上述问题展开以下研究工作。论文设计基于模型补偿的话者识别方法。该方法根据当前测试环境和测试语音对话者模型进行动态补偿来减小训练环境和识别环境不一致导致的模型失真程度。该方法评估时频域中频率分量的可靠性和特征域中特征分量有效性,通过模糊推理将上述评估结果结合来确定噪音环境下的话者模型补偿,从而提高噪音环境下的话者识别性能。论文设计话者模型复杂度选择方法,具体包括基于贝叶斯信息准则的高斯混合模型分量数选择方法和基于残差的矢量量化模型码本数选择方法。前者通过计算高斯混合模型在贝叶斯信息准则下的评价值选择最优高斯分量数,后者根据训练矢量量化模型的残差减小幅度为矢量量化模型选择合适的码本数,从而提高模型的识别性能。论文在上述工作的基础上,设计实现基于DSP的话者识别系统。将基于模型补偿的话者识别方法和话者模型复杂度选择方法分别应用于话者识别的识别过程和训练过程。话者识别系统可以工作在训练话者模型和识别话者两种状态下,且其状态可控。实验结果表明在两种噪音环境下基于模型补偿的话者识别方法相对于丢失数据处理和特征选择结合方法的识别率提高7%。文中方法选择高斯分量数比固定高斯分量数的识别率提高2.5%。基于DSP的话者识别系统在信噪比40dB的测试环境中话者识别率达到95%,训练耗时为0.53秒,测试耗时为0.36秒,满足基于DSP话者识别系统的识别性能和时间性能要求。