当前位置:问答库>论文摘要

题目:基于Solr的企业级搜索引擎的设计与实现

关键词:企业级搜索引擎;Solr;网页特征爬虫;网页排序

  摘要


在互联网技术快速发展的今天,很多企事业单位建立了信息化系统和网站,由于这些系统的信息检索和组织方式大都依赖于数据库管理系统,日积月累,信息量随着业务发展爆炸式的增长,数据库已经不能满足日常的信息检索的需求。Baidu、Google等通用搜索引擎的出现只是满足了一般用户的检索需求,但是难以满足企业环境业务复杂,个性化程度高的特点。商用搜索引擎软件购置费用高昂,核心技术保密使得中小企业望而却步。Solr就是在企业普遍的信息检索需求中脱颖而出的开源搜索引擎的代表,在其基础上开发人员可以方便的开发出具有个性化特点的企业级搜索引擎系统。

本文通过分析企事业单位在信息检索、信息采集等方面所存在问题,综合对比国内外在企业级搜索引擎方面的优秀技术经验和不足,自主设计并实现了一套功能灵活、全面的,基于Solr的企业级搜索引擎系统。

首先,本文对搜索引擎相关核心技术进行研究和介绍,并且对Apache下的开源搜索引擎Solr进行了深入的分析,剖析Solr的核心机制,总结出Solr作为一款优秀的企业级搜索引擎服务的优势。其次,根据企事业单位在信息检索方面的实际需求,进行系统架构设计、功能设计以及核心模块详细实现方式的介绍。主要解决基于网页特征的信息采集、索引增量更新方式、中文分词、多种文本格式数据的解析方式以及在企业环境下如何进行检索结果排序的优化等实际问题。最后经过一系列功能测试、性能测试、系统的易用性测试,形成了一套比较完整的企业级信息检索解决方案。