● 摘要
应用于垂直搜索引擎的Web对象抽取技术可以提高搜索服务质量,其中针对多类别Web对象的抽取是目前的难点问题。当多类别Web对象来自于结构化和非结构化两种不同的Web页面时,难以找到一种同时适合结构化和非结构化Web页面的多类别Web对象块抽取方法。特别地,当面对数百类别的Web对象时,难以预定义多类别Web对象的属性模板,从而缺乏有效的多类别Web对象属性抽取方法。针对上述问题,本论文研究并提出了一种多类别Web对象抽取方法,该方法主要包括:首先,该方法利用维基百科数据构造多类别Web对象关系库,其中包括Web对象类别、Web对象、Web对象间关系、以及相关继承层次关系,并且构建Web对象类别之间的关系;在此基础上,本论文提出了Web对象类别间关系权值计算和迭代算法,利用该算法提取Web对象类别之间的核心关系模板。其次,该方法将Web页面转换为HTML标签树,以标签树结点的文本数量作为结点尺寸,滤除结点尺寸较小或文本支持度较低的标签树结点,以兄弟结点之间的尺寸相似度和结点的文本支持度,分别提取出结构化结点和非结构化结点,选取出尺寸最大的结点作为Web对象记录块。然后,该方法利用模板匹配对Web对象记录块进行分类,获得Web对象所属的类别,通过Web对象类别的核心关系模板,采用投票策略抽取出Web对象记录块的核心Web对象及其相关Web对象。最后,可视化Web对象的各种关系,使用户能够直观地浏览Web对象之间的关系、Web对象类别之间的关系、以及Web对象和类别之间的从属关系。基于上述研究工作,本论文设计实现了多类别Web对象抽取方法,将Web对象分为400项类别,能够从结构化和非结构化页面中快速抽取Web对象块。并且以计算机、艺术、医药三个类别的Web对象抽取为例,示范了该方法的可用性,能够以较高的准确率、召回率和F值抽取多类别Web对象。
相关内容
相关标签