当前位置:问答库>论文摘要

题目:公安资源检索系统中自动分词及词库的设计与实现

关键词:资源检索;自动分词;词库

  摘要

随着“金盾工程”的展开,公安网上信息资源以及公安数据库发展迅速,建设网站并提供服务的各级公安部门越来越多,同时数据库的信息量也在不停的增大,这些对公安信息的检索造成了一定的困难。为解决这个问题,建立了“公安信息应用资源管理系统”,简称公安资源检索系统。本文主要研究公安资源检索系统中的自动分词及词库的实现问题。即对待分词文档进行自动分词,以及生成公安专业词库。本文首先研究了自动分词的国内外发展现状,简单介绍了自动分词定义和几种常用的自动分词方法及其算法,以及汉语自动分词的困难和难点。在对比了各种分词方法的优缺点之后,结合公安资源的特点,选择了采用基于字符串匹配与基于统计相结合的分词方法,具体即为,以双向扫描法为基础,以基于统计的分词方法和以基于语义的分词方法相结合的自动分词方法,来对待分词的文本进行自动分词。同时研究了该自动分词方法的设计与实现。在词库方面,则主要采用最大概率算法和规则优化来对公安资源语料进行处理,生成公安专业词库。本文以阐述自动分词及词库系统为主线,先比较了各种自动分词方法的优缺点,然后给出了自动分词及词库子系统的设计方案,以及各子系统和模块的设计方案。最终给出了分词结果展示,并说明了下一步的工作重点。