当前位置:问答库>论文摘要

题目:面向垂直搜索引擎的网页抓取器及其辅助生成平台的研究与实现

关键词:面向垂直搜索引擎网页抓取器;动态网页抓取;IE内核;Web信息提取;DOM

  摘要

随着internet及其技术的发展,网络信息急剧膨胀,搜索引擎对网络信息的覆盖率在整体上呈下降趋势,同时对搜索引擎搜索到的信息质量的要求却越来越高,人们对搜索引擎的首要关注点从搜索信息的量上向搜索信息的质上转变。在此背景下,如何能在呈几何级数增长的网络海量信息中快速地找到更准确更有价值的信息成为当前搜索引擎研究领域内的一个具有挑战性的热点问题。相对于面向所有领域和专题、追求较大而全面的网络信息覆盖率的综合搜索引擎,垂直搜索引擎只专注于某一特定学科或领域的信息,以满足特定领域、特定学科或特定需求的检索为目标,对网络信息进行更加专注、深入和准确的提取与加工,使搜索更有针对性、目标更明确、查全率查准率更高。垂直搜索引擎在缩小搜索范围的前提下,可以快速地搜索出更准确更有价值的信息,但同时对垂直搜索引擎网页抓取的深度和网页元数据提取的精度较之综合搜索引擎也提出了更高的要求。 本文根据构建面向垂直搜索引擎网页抓取器这一课题需求,结合当前网页制作技术和WEB浏览器技术的特点制定了抓取器系统的总体结构以及系统各模块的设计方案。为了在网页结构变化多端、异构信息源层出不穷的网络环境中构建通用性好、实现代价小、维护成本低同时又能满足垂直搜索引擎某些特定需求的网页抓取器,对网页抓取技术和网页元数据提取技术进行了深入的研究,提出了若干关键技术并用于系统的设计和实现。 在网页抓取方面,提出了基于IE内核的动态网页抓取技术。基于IE内核的事件模型和激发机制,通过在IE浏览器上机器填表和模拟手动点击,实现了自动浏览功能,进而抓取动态网页和网站的后台数据库的Hidden Web信息。实验表明,基于IE内核的动态网页抓取技术,将网页抓取器辅助生成平台生成的配置信息作为原始输入,可以很好的在浏览器上自动执行网页的脚本代码,自动填表,模拟用户的鼠标点击,从而实现网站的自动浏览和搜索,抓取网站动态生成的网页。 在Web信息提取方面,提出了基于DOM和IE内核的Web信息提取技术。基于IE的DOM树模型和通过对HTML文件的分析构建网页的结构树,在此基础上将树结点内容的特征信息和HTML的标签特征作为输入自动生成正则表达式,通过结合已生成的正则表达式和树结点在整个网页树结构中的序号来查找含需要提取的主题信息的网页树结点,并准确提取出符合要求的那部分内容作为提取的主题信息。 通过应用以上技术,实现了网页抓取器的辅助生成平台,在该平台上可以很方便的生成构建网页抓取器所需要的初始配置信息,并最终实现了不依赖具体网站结构、支持多种异构信息源,通用性好、实现代价小、维护成本低的面向垂直搜索引擎的网页抓取器系统。