● 摘要
随着互联网的飞速发展,为了使人们能够在急剧增长的庞杂信息中快速、准确的筛选和定位与自身有价值的信息以及使各个网站管理者能够发现并预测人们在互联网上的行为习惯进而对网站的经营管理和结构框架进行合理调整,“基于用户访问日志的Web 使用挖掘”(即Web用户访问行为挖掘,Web Usage Mining)的研究越来越引起人们的关注与重视,它利用Web使用挖掘技术分析Web日志数据,从中挖掘用户访问模式,预测用户的潜在行为, 从而促使用户能够快捷、准确的定位信息,为网站的经营管理和结构调整提供决策支持。在此项研究技术的基础之上,与门户系统应用环境相结合,本文提出研究课题——异构环境下Web使用挖掘技术的研究与实现。本文针对Web使用挖掘系统的各个组成部分——数据远程采集、数据预处理、聚类处理、模式发现和可视化展现,就每个部分的研究与实现过程中可能遇到的问题和面临的困境,提出一系列的解决策略与相关技术,从而实现或完成本课题的研究目标——从Web用户在Web上的访问行为中分析、挖掘出Web用户访问模式。本文的主要贡献如下:(1). 提出了Web用户聚类算法;在对已有用户聚类算法的分析与研究基础上,它利用综合多重评价因素和引入多级聚类概念,分别解决了传统用户聚类算法普遍存在的“聚类评价因素单一”与“算法性能随着聚类对象数量的增加而降低”的问题;实验结果证明:此算法聚类结果的准确性与效率要高于已有算法,尤其适用于需要聚类大量数据对象(即Web用户或Web资源)的情况。(2). 利用已有比较常用的文本聚类方法实现Web资源聚类;此方法运用中文分词技术对Web文本内容进行特征提取并由这些特征与特征权值构成特征向量,再基于它们的特征向量计算Web资源之间的相似度,由文本之间相似度组成相似度矩阵,最终针对相似度矩阵运用文本聚类算法实现Web资源聚类。(3). 实现了Web使用挖掘系统;在对Web使用挖掘技术的发展现状进行深入了解与研究之后,设计和实现Web使用挖掘系统的各个组织部分——数据远程采集、数据预处理、聚类处理、模式发现和可视化展现,采取各种与实际情况相符的最优措施,从而保证从Web日志数据中能够较为准确的分析、挖掘出Web用户的访问模式,并最终实现本课题的研究目标。
相关内容
相关标签