当前位置:问答库>论文摘要

题目:基于全文搜索 DotLucene 的企业信息搜索框架的设计与实现

关键词:搜索;框架;分词;文本抽取

  摘要

现代企业所在的行业越来越专业化,对行业信息也越来越渴求。目前广泛使用的通用搜索引擎,搜索到的相关信息不足45%,不能满足企业的需求。本框架旨在从另外一个方面探索获得企业所在的行业信息的途径——从企业内部进行深层挖掘。本搜索框架主要解决存在于企业内部的散布到各个用户终端的信息共享问题。在企业内部的用户终端上通常都保留着大量的行业信息,如果这些信息在企业内部能够充分流动起来,对于企业将是一大笔的财富。首先,该框架对用户终端的文档进行文本抽取,然后将抽取到的文本进行基于行业词库的分词,最后将分词结果使用DotLucene索引API进行索引并存储为索引文件。这样一来,终端用户就可以基于行业词库通过DotLucene的搜索API搜索出本地的行业信息。其次,该框架维护了一个在线用户列表。单个客户端不仅可以搜索本地的行业信息,还可以使用.NET框架下的Remoting技术通过在线用户列表搜索到框架中其它用户终端的行业信息,并可以将搜索到的文档下载到本地,以备使用。这样就达到整个框架用户互相搜索行业信息的目的,使得行业信息在企业内部流动起来。该框架扩展性较强,主要体现在以下几个方面:1) 行业词库的可扩展性 2)分词模块的可扩展性 3)抽取特定文档文本信息模块的可扩展性 4) 对外的搜索服务的扩展性