当前位置:问答库>论文摘要

题目:公安交通信息管理系统中中文分词技术的研究与实现

关键词:中文分词;中文信息检索;N元文法;交叉熵;未登录词识别

  摘要

北京市智能交通管理系统(ITMS)经过多年的建设与发展,积累了丰富的信息资源,北京市公安交通管理局决定建立智能交通管理信息检索系统来加速交通管理的信息化程度,形成闭环管理、科学管理的工作机制以及对交通的宏观预测能力。此信息检索系统包含中文分词、信息抽取、索引建立、信息检索四大模块,本文所研究的中文分词技术正是实现此系统的关键支撑技术之一。本文综合分析了分词系统对信息检索系统性能的影响,以及ITMS领域对分词系统的特定需求,在此基础上总结出智能交通管理信息检索系统中的分词系统有以下特点:切分文本中ITMS领域内词汇较多、含有大量地名和人名、文本内容涉及30余类信息和未登录词识别的准确率比召回率重要。针对中文分词中的歧义消解作了详细的研究,讨论了N元文法模型在中文分词中的使用以及解决数据稀疏问题的数据平滑方法,提出了基于一阶马尔可夫模型的最小交叉熵算法进行歧义消解,针对分词中的词典结构和知识库结构问题设计了基于Trie树的改进词典结构和基于双Hash结构的知识库结构。针对ITMS领域内的语料包含大量地名和人名这一特点,分别采用利用专业地名词库辅助识别的地名识别方法和基于统计和语料库的中文人名识别方法来进行地名和人名的识别。对1998年人民日报语料库中抽取的58634个汉字进行实验,对地名的识别达到89.4%的召回率和95.19%的准确率,对中文姓名的识别达到75.9%的召回率和89.1%的准确率。整个分词系统在北京大学提供的测试集下测试的结果为65.74千字/秒的分词速度,91.7%的召回率和92.8%的准确率;在ITMS领域内测试集下的测试结果为67.13千字/秒的分词速度,92.9%的召回率和93.7%的准确率;在对智能交通管理信息检索系统性能影响测试中,文档数分别10、20、30的情况下Precision分别达到了0.5941、0.5689、0.5143,R-Precision在R=10的情况下达到了0.3857。