● 摘要
互联网的出现使人们的信息获取方式发生了翻天覆地的变化,人们不再需要为了查询某些信息而到处奔波,互联网上几乎包含了日常所需要的所有信息。通过搜索引擎,用户可以很方便地查询到自己需要的信息,但是随着互联网信息量的快速增长用户查询信息的难度也随之提高。通用搜索引擎很难为用户带来准确、详细、深层以及有价值的信息,因此垂直搜索引擎的概念应运而生。
垂直搜索引擎仅对一定的相关领域进行搜索。相对于通用搜索引擎,它的搜索范围小,搜索深度深,更新的速度快。当用户需要特定领域的信息时使用垂直搜索引擎得到信息往往更加专业,更加有价值。
本文的工作内容主要有:(1)分析了垂直搜索引擎的基本原理和组成结构,并研究了网络爬虫Heritrix和全文检索引擎Lucene;(2)根据需求设计了一个符合系统需求的网络爬虫;(3)设计了系统的索引模块、数据库;(4)结合用户兴趣模型设计并实现了系统的个性化检索模块;(5)设计了用户行为日志分析模块用来从用户的日常行为中收集用户的喜好。
该个性化垂直搜索引擎基于Heritrix和Lucene这两个核心技术,提出了一种适合垂直搜索引擎的专业爬虫解决方案来提高爬虫的爬取效率,同时还设计了用户兴趣模型以提高检索的精确度。
相关内容
相关标签