当前位置:问答库>论文摘要

题目:面向用户的网页信息即时整合系统的研究与实现

关键词:Mashup,信息整合,网页信息抽取,决策树

  摘要



随着互联网技术的快速发展,Web服务不再仅仅限于传统的具有严格标准的服务,互联网中开放的数据和第三方应用程序接口开始大量涌现,并以服务的形式提供给开发者进行复用。由于传统的面向服务的体系架构(Service Oriented Architecture,SOA) 要求开发人员具备一定的专业知识,普通用户的准入门槛较高,而Mashup技术作为一种新兴的互联网应用开发模式,将不同数据源和数据操作进行组合,从而构建出一种具有新型功能的网络应用。它可以提供友好的应用开发环境保证服务的快速构建,同时为普通用户屏蔽了底层技术实现,降低应用开发的准入门槛。然而,已有Mashup平台的数据源多为第三方开放的数据或API(Application Programming Interfaces)接口,对网页信息抽取与整合能力不足,并不能很好的满足非专业人员开发网页信息整合应用的需求,本文将Mashup和网页信息抽取两种技术相结合,为普通用户提供能够满足个性化需求的网页信息整合系统。

网页信息整合系统为普通用户提供了网页信息整合的应用开发环境,而网页结构化信息抽取是网页信息整合的基础和前提。本文首先提出了基于动态优化决策树的网页结构化信息抽取的方法,该方法利用网页布局特征,通过分裂的层次聚类选择候选节点;利用节点特征,基于半监督学习的方法构建并动态优化决策树,实现了对网页结构化信息的准确抽取。该方法不依赖于过多的先验知识和人力参与,不仅仅针对某些领域,具有较好的通用性和灵活性。然后,本文通过深入分析普通用户应用场景,提出了任务创建、流程调用、引擎执行、结果展现的网页信息整合交互流程。针对网页数据源的获取问题,本文研究了使用用户自主灵活配置网页数据源的方法。同时,根据用户终端与引擎的数据交互过程,定义了内部数据规范和流程模型。

在上述研究的基础上,本文设计实现了面向用户的网页信息即时信息整合系统WebMashStudio,并通过一个新闻类网页整合应用的开发-使用实际案例,验证了WebMashStudio的可用性和高效性。