● 摘要
随着互联网的蓬勃发展,网络上的各种电子信息资源也在飞速膨胀,在为人们提供海量信息的同时,用户获取信息的难度也在不断加大。为了解决这一问题,搜索引擎技术应运而生,它的出现大大地方便用户对资源进行定位与查找。搜索引擎的信息来源是互联网上的网页信息资源,互联网上的网络信息资源包括surface web和deep web两种,surface web指的是以静态html形式存在互联网上的网页信息;而deep web是通过动态页面的形式存在于网络中的数据库中。据估算,deep web信息占互联网上所有信息的99%。传统搜索引擎只能索引静态网页,而对数量巨大,质量高,增长速度迅速的深度资源信息却力有不逮。因此,本文设计了一种新的针对深度网络资源的搜索引擎系统,它能够获取深度资源信息,并且利用这些信息抽取出可供计算机识别的结构化数据,从而可以为用户或者其他应用系统提供服务。 本文设计了一个用于抽取Deep web信息的深度搜索系统框架,并详细论述了其中的两个关键点:基于站点的多级键树的页面爬行策略和基于本体的结构化数据抽取技术。最后结合课题依托项目国家科技基础条件平台门户应用系统的特定需求,实现了该深度搜索系统,并在项目应用中取得了预期的效果。