● 摘要
随着Internet的迅速发展,网络资源日趋丰富,人们越来越多地关注如何快速有效地从海量的网络信息中抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。全文检索应运而生,它能够帮助用户找到他们想要的信息,解决了检索网络信息的困难。如Google,BaiDu等综合型搜索引擎。但是对于检索某些特定专业或者方向的信息时,综合型搜索引擎系统就有些力不从心。例如,现在很多企业中采用的OA系统大多都需要包含知识搜索等功能,这些知识信息是属于公司内部资料或者是公司业务方向的信息,具有很强专业领域性,我们有必要研究和开发能够针对特定专业的信息检索系统。 本文通过对全文检索中的倒排表原理以及当前较为流行的分词算法的研究与实践,深入了解全文检索的基本原理,提出了基于字典树的结合了词尾扫描的正向匹配分词算法,接下来介绍了一种全文检索引擎工具包-Lucene,并对其源码进行了深入剖析,得出了Lucene的系统组织结构、基本数据类型、索引内存结构以及索引数据库的文件结构及其索引过程以及索引方式,掌握了索引权重的控制和索引优化等方法。 在应用方面,本文主要工作是在线网站全文检索的快速设计与实现。整个系统基于lucene软件开发包,自己重新设计了基于字典树的分词算法,另外在全文检索的索引和检索两方面,以lucene为例进行了研究,最终实现了系统对中英文文件的全文检索服务功能。就检索的效率和效果而言,基本达到了最初的设计目的。
相关内容
相关标签