● 摘要
数据流模型是用来描述那些数据不断产生、且潜在数据量巨大的数据产生模式。传统的数据挖掘技术往往不能简单应用于数据流模型的环境,这就为我们带来了新的挑战。本文对数据流中的频繁闭集的挖掘问题进行了一定的研究和探讨。首先对在线的数据流频繁闭集的挖掘问题进行了研究,然后讨论了分布式环境下的数据流频繁闭集挖掘问题。 在第一部分工作中,提出了实现在线挖掘频繁闭集的算法,实验证明算法是有效的。在这一部分中,我们提出了一种新的基于前缀树的频繁闭集压缩存储结构CI-forest来存储频繁闭集。该数据结构可以实现快速的插入和查询闭集模式,且在处理新的事务数据时能够快速定位相关的历史闭集模式。 在第二部分工作中,首先讨论了在静态的分布式环境下如何实现全局频繁闭集挖掘,提出了能够实现全局频繁闭集精确挖掘的算法,并进行了实验验证;然后在静态的分布式频繁闭集挖掘的基础上,研究了在分布式环境下数据流频繁闭集的挖掘问题。对分布式环境下的数据流频繁闭集挖掘问题,提出了实现该问题的数据处理模型,并设计了初步的实现分布式数据流频繁闭集挖掘的方法,实验证明该方法是有效的。