当前位置:问答库>论文摘要

题目:基于N元统计模型的语言识别技术的研究

关键词:自动识别;软件测试;N元统计模型;语言识别模型;特征项降维;哈希表

  摘要

语言识别技术在信息日益国际化的今天,越来越广泛地应用到各个自然语言处理系统中。针对多语言软件测试中大容量测试数据语言识别的需要,本文分析设计了一个基于N元统计模型的自动语言识别系统。系统以实现多语种语言识别为目的,分别生成N=2和N=3的统计模型。在语言识别过程中根据读入数据的书写方式不同自动进行统计模型的切换,实现对印欧语种语言和汉语的不同gram处理。系统主要分析和改进了N-gram排序算法和CFA算法两种模式识别算法,将文本分类中特征项权重降维方法应用于算法的特征项处理中。根据选用的模式识别算法并结合测试数据的特点,在程序设计中选用哈希函数和哈希表来存储特征项及其信息。文中给出了系统详细的模块流程图,并提出了四种不同的结构设计方案。系统的实验数据是某一搜索工具从互联网上直接下载得到的,应用这些数据对系统的语言模型大小、降维效果以及四种不同方案分别从语言识别正确率和所耗时间两方面进行了比较和分析。实验结果显示,系统对于大容量测试数据的语言识别是有效的。语言模型的大小对于识别结果的正确率和时间都会产生一定的影响。特征项的权重降维计算在保证语言识别正确率的基础上,大大减小了语言识别的时间。从四种方案的比较结果来看,测试数据的标准化过程,对于识别正确率有一定的影响,但所占用的时间并不多。应用N-gram排序算法和CFA算法的方案识别的正确率都很高,达到99%以上,但是应用CFA算法的系统有更好的语言识别效率。