● 摘要
网格环境下Web信息集成技术是网格技术及其应用的研究热点。中国教育科研网格计划(ChinaGrid)的大学数字博物馆网格(University Digital Museum Grid,简称UDMGrid)是一个典型的信息网格应用系统,能够将部署在8个城市、隶属于多个领域、分布在13个大学数字博物馆的标本信息资源整合起来,以网格门户形式向用户提供标本信息服务。其中,为了有机整合各个大学数字博物馆的Web信息资源,UDMGrid利用领域专家提供的本体信息,研究和实现多个领域的Web标本信息集成技术,有利于向用户提供准确的标本信息检索服务。本论文关于信息网格中面向多领域信息的Web标注机制的研究开发工作,是多领域Web标本信息集成的主要组成部分。本论文分析了UDMGrid涉及的多领域Web信息资源特点,研究并提出了一种信息网格中面向多领域信息的Web标注机制,该机制主要包括信息抽取的层次化规则构建、基于本体信息的多级分类、基于模式匹配的信息标注三个方面。首先,根据基于包装器的信息抽取原则,研究并给出了一种Web信息抽取的层次化规则构建方法,该方法能够在一定程度上降低规则构建的复杂度,并可以过滤冗余Web信息。然后,针对多领域Web信息分类的效率问题,利用领域专家提供的相关本体信息,研究实现了基于本体的Web信息多级分类模式,并通过该分类模式确定Web信息的隶属领域。最后,在分析Web结构信息的基础上,研究和确定Web标注对象和本体属性之间的关联关系,利用该关联关系给出了基于模式匹配的Web信息标注方法,该方法能够提高Web信息标注的准确率。根据UDMGrid的系统设计和实验环境,本论文设计实现了信息网格中面向多领域信息的Web标注机制,其中主要包括信息抽取模块、文本分类模块和信息标注模块,完成了UDMGrid中多领域Web标本信息集成的主要开发任务。实验比较表明,本论文提出并实现的信息网格中面向多领域信息的Web标注机制具有可用性,并且在略微增加时间开销的条件下提高了标注精度。
相关内容
相关标签