当前位置:问答库>论文摘要

题目:基于时间约束的序列模式挖掘算法研究

关键词:序列模式;时间约束;增量挖掘;序列模式挖掘算法

  摘要

数据挖掘,也可以称为数据库中的知识发现,是从大量数据中提取出可信、新颖、有效并能被人理解的模式的高级处理过程。序列模式挖掘是挖掘基于时间或者其它顺序的出现频率高的模式。序列模式挖掘是一类重要的数据挖掘问题,有着非常广泛的应用前景,包括顾客购买行为的分析、网络访问模式分析、科学实验的分析、疾病治疗的早期诊断、自然灾害的预测、DNA序列的破译等等。传统的序列模式挖掘算法在挖掘频繁序列的过程中,缺少对序列的限制,往往挖掘出大量的频繁序列集,其中可能有大部分都不符合用户的需要。本文深入分析了深度优先挖掘算法SPAM算法的特点,在此基础上对SPAM算法引入通用时间约束参数,提出了一个新的算法TSPAM算法。TSPAM算法包含了通用时间约束全部四个时间参数,可以满足用户绝大部分对序列时间约束的要求。序列模式挖掘算法的时空开销往往都很大,挖掘过程本身又是一个反复的交互式过程。为了充分利用前次的结果来加速本次挖掘过程,本文在TSPAM算法的基础上,对其进行分析,根据其特点,提出了一个新的增量挖掘算法ITSPAM算法,并讨论了算法参数改变情况下的增量挖掘算法。ITSPAM算法充分利用了前次挖掘的结果和TSPAM算法的特点,有效的提高了增量挖掘的效率。本文最后对提出的TSPAM算法和ITSPAM算法进行实验研究分析。TSPAM算法使用时间约束使得挖掘的结果更加符合用户的需求,实验详细分析了四个时间约束参数对TSPAM算法的影响。ITSPAM算法有效地利用了前次的结果,获得了比TSPAM算法更好的执行效率,实验显示最小支持度越大、用于扩展的项集越小ITSPAM算法的改进效果越明显。