当前位置：问答库＞论文摘要

题目：面向主题的爬行搜索策略研究与实现

关键词：主题爬虫，Weblech，朴素贝叶斯分类，文本分类，LDA主题模型

● 摘要

随着Web上的信息越来越多，传统的通用搜索引擎技术出现了覆盖率低，资源占用多，更新时间长，用户对搜索结果的满意度低等一系列问题。为了克服通用搜索引擎的不足，满足特定用户针对特定领域的查询需求，建立面向特定领域的主题搜索引擎，以提供分类更细致精确、数据更全面深入、更新更及时的因特网搜索服务已经成为搜索引擎新的发展方向。
主题爬虫是在传统的通用爬虫爬行整个Web所有网页的基础上，综合使用机器学习中智能学习方法，控制爬虫爬行过程的抓取方向，使爬行程序尽可能多的抓取与指定主题有关的Web网页。

目前对于主题爬行的研究，主要集中在两个热点：一是Web文本自动分类，就是对于一个网页，如何判断是否是主题相关的；二是采用什么样的爬行策略，能够尽可能多地下载相关网页，避免与主题无关的网页，提高主题资源的覆盖度。
本文对主题爬行的关键技术——网络爬虫的搜索策略进行了详细的分析，在深入分析主题页面在Web上的分布特征与主题相关性判别算法的基础上，提出了一个面向主题的网络爬虫架构，对架构的主要模块进行了详细介绍。在开源WebLech的基础上进行改进，实现了一个主题爬虫，基本思想是由语料训练得到一个朴素贝叶斯分类器，将爬虫抓取到的网页在保存到本地之前进行主题相关性分析，若抓取的网页属于本主题，则保留本网页为后面建立索引做准备；若不是主题相关的则抛弃，避免占用更多空间。该方法计算简单，提高了爬行的速度和召回率。
本文讨论了基于Weblech和朴素贝叶斯分类器的主题爬虫实现过程中用到的各项技术，主要内容包括：
(1) 提出了一种新的搜索策略，主要是将网页分为Hub型网页和内容型网页，如果网页是Hub类型的网页则不进行主题相关性计算，使爬虫的抓取过程更高效，并且能有效解决主题爬虫的隧道现象，提高了主题爬虫的搜集覆盖率和相关度；
(2) 研究了朴素贝叶斯分类算法和向量空间模型原理，通过LDA主题模型进行特征加权，提高了朴素贝叶斯对网页进行分类的精度和效率；
(3) 提出了一个主题爬行体系架构，介绍了体系架构的各个功能模块和具体实现技术。设计和实现了一个主题爬虫系统，利用该系统对本文提出的主题爬虫体系架构进行了验证，数据显示该架构效果良好。

当前位置：问答库＞论文摘要

题目：面向主题的爬行搜索策略研究与实现

相关题目: