当前位置:问答库>论文摘要

题目:基于Web挖掘的网络文本资源评估系统设计与实现

关键词:Web结构挖掘;PageRank算法;Web宏观结构;科技资源站点;链接结构分析

  摘要

随着Internet迅速发展,网络经济、注意力经济等新概念的出现,Web挖掘以其巨大的社会效益和极富挑战与机遇的内涵,成为信息科学最引人注目的研究课题。Web网站积累的大量数据蕴涵丰富的信息,利用数据挖掘技术来发现规律,提供个性化服务,将提高商业网站的竞争力,有很大实用意义。Web上页面之间的链接关系为Web挖掘提供了极其丰富的潜在信息。Web结构挖掘是以超链接分析为基础,从链接结构中获取有用的知识,利用这些知识,重新组织结构,使内容逻辑结构更加合理。通过发现超链接的层次属性去探索Web站点的设计,提高搜索质量。 国家科技基础条件平台门户搜索引擎目前索引了40万网页。为了帮助用户在使用时能够高效定位高质量的页面,需要设计一种网页评价机制对大量检索结果进行排序。本文针对国家科技基础条件平台门户应用系统搜索引擎索引的科技类站点的具体情况,结合Web挖掘的相关理论和知识。设计并实现了一种基于Web结构挖掘的网站评价算法。论文完成的主要工作如下: 1)对Web挖掘的相关理论和知识进行了概述,重点介绍了Web结构挖掘的相关理论和技术。 2)研究了Web宏观结构的特点,论述了经典结构挖掘算法PageRank的适用范围。 3)深入研究现有的国家科技基础条件平台门户数据采集器采集的科技类站点数据,根据科技类站点的结构特点设计了一种有针对性网站评估算法。4)实现了针对科技资源站点的特点的网站评估算法,并对算法运行结果进行了分析。算法取得了较好的效果。关键词:Web结构挖掘;PageRank算法;Web宏观结构;科技资源站点;链接结构分析。