● 摘要
传统序列模式挖掘(SPM)因为具有能够从考虑项目ID属性的海量时序数据中挖掘出潜在的、有效的、易于理解的知识和规律的特点,因此在很多领域都得到了广泛的应用和发展,如客户购买行为模式分析、Web访问模式预测、自然灾害预测、疾病诊断等。但在当今动态复杂的市场环境下,客户需求日益多样化,用户不仅希望从具有ID属性的时序数据中挖掘出规律,更希望从具有状态属性的时序数据中挖掘出模式和规律。比如用户期望通过挖掘出考虑状态属性的零部件间故障传播规律,以此来发现零件的异常状态信息,从而进行预防性维修。但是,在考虑状态属性的情形下,传统的序列模式挖掘方法将不再适用,并且传统的序列模式挖掘算法中应用较为广泛的Apriori算法,在解决该问题时挖掘效率比较低下。
基于上述问题,本文提出了状态集序列模式挖掘(SSPM)方法及相应的Improved-Apriori算法。首先,针对传统序列模式挖掘中仅考虑项目ID属性的概念和性质重新进行定义,使其更适用于考虑项目状态属性的序列模式挖掘情形。其次,对于传统序列模式挖掘中应用较为广泛的Apriori算法,由于其存在重复扫描数据库及产生大量候选项集等缺陷致使挖掘效率低下问题,本文对其进行优化改进,提出Improved-Apriori算法,它通过采用矩阵运算方法,可以快速高效地挖掘出状态集序列模式,并有效避免Apriori算法的两个缺陷。再次,在传统序列模式挖掘的算法框架中仅考虑支持度约束最终挖掘出模式较为单一的频繁序列问题,本文对其算法框架进行改进,增加考虑了置信度、覆盖度、因素集等新的约束,从而挖掘出包含多种规律的状态集序列模式。最后,通过小规模算例验证状态集序列模式挖掘所提出的方法及算法的可行性和有效性。
由于上述状态集序列模式挖掘方法是在时序数据库的整个时间段上进行的,其没有考虑时间窗口概念,因此可能会将那些在局部时间窗口满足约束条件,但在整个时间段上不满足约束条件的状态集序列模式修剪掉,导致最终挖掘不出一些较为重要的模式和规律。鉴于该问题,本文提出了带时间窗口的状态集序列模式挖掘(SSPMTW)方法及相应的TW-Apriori算法。首先对SSPM中的概念及性质重新进行定义,使其更适用于考虑时间窗口的SSPM情形。其次,在Improved-Apriori算法基础上提出了考虑时间窗口的TW-Apriori算法,从而可以快速挖掘出带时间窗口的状态集序列模式;再次,对SSPM的算法框架进行优化改进,增加考虑了时间窗口约束,并进行模式的周期性分析,从而挖掘出周期性的状态集序列模式。最后,通过小规模算例验证SSPMTW所提出的方法及算法的可行性和有效性。
最后,本文通过算法实验分别对SSPM及SSPMTW进行大规模算例的求解与分析,并最终验证了Improved-Apriori算法及TW-Apriori算法在针对大规模算例求解时同样具有较高的计算效率。
相关内容
相关标签