● 摘要
Internet的飞速发展使其成为全球信息传播与共享的重要渠道。随着Internet的发展,Internet上的数据呈级数增长,而从Web上获取一条有用信息却越来越困难。Web 信息抽取是将Web页面作为信息源的一类信息抽取,就是从半结构化的Web文档中抽取用户感兴趣的数据,并形成结构化的数据供用户使用,属于Web 内容挖掘的范畴。 本文研究并提出了一种基于页面分块和信息熵的Web主题抽取算法,该算法的创新点是将信息熵理论应用到DOM树剪枝中,为剪枝算法提供了理论依据。该算法首先将Web页面进行过滤和分块,分块粒度为table和div,然后结合信息熵理论对DOM树节点进行剪枝,最后对算法进行了试验验证。试验表明该算法不仅在国家科技资源Web页面提取中取得较好的效果,而且对于普通Web页面的处理效果也很好。 本文研究并提出一种元数据自动生成算法,该算法借鉴TOP-DOWN树匹配算法实现了Web页面中元数据信息的提取。算法利用相同节点获取元数据的属性,然后利用树匹配算法得到元数据的值,该算法保护了元数据的完整性,并在实际的元数据抽取中取得较高的准确率和召回率。 本文将Web信息抽取的若干关键技术引入到“国家科技基础条件平台门户应用系统”的“科技资源导航与检索”中,结合课题所依托项目国家科技基础条件平台门户应用系统的特定需求,设计实现了一套基于元数据的信息资源搜索系统,方便用户和广大科技工作者查询科技资源。该系统的研究目标是通过抽取各类资源子平台站点的主题Web页面,将半结构化的信息资源转化为结构化的资源,并实现元数据的自动生成和基于元数据的信息资源搜索系统。