● 摘要
随着Web上的信息越来越多,传统的通用搜索引擎技术出现了覆盖率低,资源占用多,更新时间长,用户对搜索结果的满意度低等一系列问题。为了克服通用搜索引擎的不足,满足特定用户针对特定领域的查询需求,建立面向特定领域的主题搜索引擎,以提供分类更细致精确、数据更全面深入、更新更及时的因特网搜索服务已经成为搜索引擎新的发展方向。
主题爬虫是在传统的通用爬虫爬行整个Web所有网页的基础上,综合使用机器学习中智能学习方法,控制爬虫爬行过程的抓取方向,使爬行程序尽可能多的抓取与指定主题有关的Web网页。
目前对于主题爬行的研究,主要集中在两个热点:一是Web文本自动分类,就是对于一个网页,如何判断是否是主题相关的;二是采用什么样的爬行策略,能够尽可能多地下载相关网页,避免与主题无关的网页,提高主题资源的覆盖度。
本文对主题爬行的关键技术——网络爬虫的搜索策略进行了详细的分析,在深入分析主题页面在Web上的分布特征与主题相关性判别算法的基础上,提出了一个面向主题的网络爬虫架构,对架构的主要模块进行了详细介绍。在开源WebLech的基础上进行改进,实现了一个主题爬虫,基本思想是由语料训练得到一个朴素贝叶斯分类器,将爬虫抓取到的网页在保存到本地之前进行主题相关性分析,若抓取的网页属于本主题,则保留本网页为后面建立索引做准备;若不是主题相关的则抛弃,避免占用更多空间。该方法计算简单,提高了爬行的速度和召回率。
本文讨论了基于Weblech和朴素贝叶斯分类器的主题爬虫实现过程中用到的各项技术,主要内容包括:
(1) 提出了一种新的搜索策略,主要是将网页分为Hub型网页和内容型网页,如果网页是Hub类型的网页则不进行主题相关性计算,使爬虫的抓取过程更高效,并且能有效解决主题爬虫的隧道现象,提高了主题爬虫的搜集覆盖率和相关度;
(2) 研究了朴素贝叶斯分类算法和向量空间模型原理,通过LDA主题模型进行特征加权,提高了朴素贝叶斯对网页进行分类的精度和效率;
(3) 提出了一个主题爬行体系架构,介绍了体系架构的各个功能模块和具体实现技术。设计和实现了一个主题爬虫系统,利用该系统对本文提出的主题爬虫体系架构进行了验证,数据显示该架构效果良好。
相关内容
相关标签