● 摘要
随着web成为电子商务的主要工具,通过web展开的网上交易活动已发展得如火如荼。网站的运营商和企业管理者需要分析大量的用户访问数据并从中发现用户的兴趣爱好及购买趋势,为网站建设、商业决策和风险投资等提供依据。网站的用户也希望网站本身能够为自己提供自己更感兴趣的内容或链接,在尽量短的时间内获得需要的所有信息。本文在介绍了web使用挖掘、序列模式的基本概念和相关知识后,在以往研究的基础上,通过改进经典序列模式挖掘算法和提出新算法,将序列模式挖掘技术更有效地应用到web使用挖掘中。通过数据预处理除去噪声数据,按照预处理的过程和算法将原始数据处理成为能够进行序列模式挖掘的按照本文格式重新组织的数据。在原有的预处理过程中加入了序列识别过程,并提出了一个新的基于深度遍历的会话识别算法。通过分析经典序列模式挖掘算法的特点,指出这些算法应用在web使用挖掘中出现的问题。为使挖掘出的序列模式更有意义,本文引入了访问时间兴趣度的概念,对AprioriAll算法进行改进并实现,通过实验验证了在不同兴趣度阈值约束下可以更加快速的获得用户更感兴趣的访问序列。通过结合序列模式挖掘算法和web使用挖掘的特点,提出了一个基于垂直数据结构的新算法。该算法将数据组织为频繁项集为行,包含该项集的序列所在的序列号、事务号、位置构成的三元组为列的特殊结构,在该结构的基础上实现新的算法。算法考虑了两种不同的序列增长方式,并根据新结构的特点生成频繁k-项集。通过实验验证该算法相比AprioriAll算法减少了扫描次数,性能更优,可以更好地应用于web使用挖掘。