当前位置:问答库>论文摘要

题目:Python环境下中文分词系统的设计与实现

关键词:中文分词,动态规划,隐马尔科夫模型

  摘要



     中文分词是将中文自然语言的字符串切割为正确的词语。它是自然语言处理过程的基础技术环节,是汉语语言理解、信息检索、机器学习系统中最基础的组成部分,其重要性不言而喻。本文的中文分词系统既可作为一个独立的系统完成对中文文本的分词处理,又可作为医学领域智能搜索系统的子系统,为其进行后续的搜索提供关键词。

    本文在研究前人工作的基础上设计实现了一个中文分词系统。系统是基于B/S架构的,运用Django框架,以Python为主要开发语言。通过浏览器输入中文文本,访问服务器返回分词结果。论文选用基于词典匹配的分词方法,采用基于Trie树的词典机制。论文的难点在于切分歧义消解和未登录词的识别技术,本文针对这两个难点进行深入的研究和讨论后采用动态规划的切分方法,在一定程度上消解了切分歧义,通过求解隐马尔可夫模型实现了未登录词的识别。

    论文详细介绍了系统的总体架构及各模块的功能及实现。经过测试,系统的召回率、准确率和速度等指标均能满足企业生产环境中的实际需求,可以很好地服务于医学领域搜索引擎。