当前位置：问答库＞论文摘要

题目：多类别Web对象抽取方法研究与实现

关键词：多类别Web对象;信息抽取;信息分类;信息可视化

● 摘要

应用于垂直搜索引擎的Web对象抽取技术可以提高搜索服务质量，其中针对多类别Web对象的抽取是目前的难点问题。当多类别Web对象来自于结构化和非结构化两种不同的Web页面时，难以找到一种同时适合结构化和非结构化Web页面的多类别Web对象块抽取方法。特别地，当面对数百类别的Web对象时，难以预定义多类别Web对象的属性模板，从而缺乏有效的多类别Web对象属性抽取方法。针对上述问题，本论文研究并提出了一种多类别Web对象抽取方法，该方法主要包括：首先，该方法利用维基百科数据构造多类别Web对象关系库，其中包括Web对象类别、Web对象、Web对象间关系、以及相关继承层次关系，并且构建Web对象类别之间的关系；在此基础上，本论文提出了Web对象类别间关系权值计算和迭代算法，利用该算法提取Web对象类别之间的核心关系模板。其次，该方法将Web页面转换为HTML标签树，以标签树结点的文本数量作为结点尺寸，滤除结点尺寸较小或文本支持度较低的标签树结点，以兄弟结点之间的尺寸相似度和结点的文本支持度，分别提取出结构化结点和非结构化结点，选取出尺寸最大的结点作为Web对象记录块。然后，该方法利用模板匹配对Web对象记录块进行分类，获得Web对象所属的类别，通过Web对象类别的核心关系模板，采用投票策略抽取出Web对象记录块的核心Web对象及其相关Web对象。最后，可视化Web对象的各种关系，使用户能够直观地浏览Web对象之间的关系、Web对象类别之间的关系、以及Web对象和类别之间的从属关系。基于上述研究工作，本论文设计实现了多类别Web对象抽取方法，将Web对象分为400项类别，能够从结构化和非结构化页面中快速抽取Web对象块。并且以计算机、艺术、医药三个类别的Web对象抽取为例，示范了该方法的可用性，能够以较高的准确率、召回率和F值抽取多类别Web对象。

当前位置：问答库＞论文摘要

题目：多类别Web对象抽取方法研究与实现

相关题目: