● 摘要
互联网的信息量呈爆炸趋势增长,增强了人们对搜索技术的依赖性。搜索引擎是开启网络知识殿堂的钥匙,获取知识信息的工具。但随着网络技术的飞速发展,获取更加准确、更加详细、更加深层的专业信息,成为对搜索引擎提出的新要求。而垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,它通过对网页库中的某类专门的信息进行的一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎对大量行业网站信息和网页进行结构化分析,梳理出其中的关键字段,建立索引,提供的主要内容不仅包括普通的网页索引,而且包括对商业信息深加工后提取的结构化信息。本文结合当前搜索引擎技术的发展现状和理论基础,按照软件工程的方法,实现了面向特定网页垂直搜索引擎的创建,包括系统的总体结构、功能框架等的实现。论文通过对以下几点的阐述,描述了垂直搜索引擎系统的开发:(1)搜索引擎技术的国内外发展现状、关键技术和基本原理。重点论述搜索引擎的基本工作过程,各个过程中所采用的关键技术和信息处理方法。(2)垂直搜索引擎的关键算法研究,重点论述垂直搜索引擎网页抓取和网页内容解析部分的设计与实现的解决方案。(3)结合房产市场中对房源信息的结构化检索需求,描述了一个具有垂直搜索引擎功能的房源信息服务网的实现过程。由于开发所用的工具,操作系统全部为开放源码,在网络上有大量的资源和资料可以借鉴和参考。在明确了本系统的需求之后,基于对现有爬行工具框架和索引工具的利用,很大程度上节省了技术调研时间和开发时间。在项目开发中,本人负责URL抓取模块和网页解析模块的设计和开发工作。随着对既存系统所暴露的不足和缺点的认识,相信在以后的二次开发中会进一步改进,完善系统。