● 摘要
趋势序列分析是时态数据挖掘的一个重要分支。趋势序列使用有限的趋势象征符号(Trend Indicator)对原始时态序列进行重新描述,用有限的趋势象征符号形成的序列来代替原始时态序列。目前对于趋势序列的研究,主要集中在趋势序列分析的代数体系构建、趋势序列描述、趋势序列匹配算法、趋势关联规则挖掘等四个领域。 本文首先综述了数据挖掘的相关技术、时态数据挖掘和趋势序列分析的相关研究。在此基础上,研究了原始时态序列向趋势序列的转换、趋势序列的形式化描述、数字趋势序列的全序列匹配、数字趋势序列的子序列匹配、趋势关联规则挖掘等问题,取得了一定的成果。主要包括以下内容: 提出了基于关键点的误差检验分段算法。在误差检验的过程中,使用了误差序列的中位数来控制趋势序列的线性化程度。相对于普通的均值、方差而言,中位数很好地避免了异常点对判断有效性的影响。 提出了字符趋势序列(CTS)和数字趋势序列(NTS)的概念。在现有的研究中,大多数工作都是针对CTS展开的,CTS中用来衡量趋势值是定类尺度,而NTS中用来衡量趋势值是定序或定距尺度。 利用弧度代替斜率来表示片段的趋势。如果用斜率来表示片段的趋势,趋势指标集D中所含的元素个数将趋于无穷;同时由于斜率在 区间内不是均匀分布,所以当两个片段的斜率值都较大且差值也较大时,它们实际的倾斜程度可能差别并不大。用弧度表示趋势可以很好地解决这两个问题。 对趋势序列的形式化描述做了初步的研究,从集合论的角度实现了对趋势序列的形式化描述。定义了时间系统、时间粒度和时间区间等基本概念,实现了区间和粒度的统一;定义了趋势空间、趋势序列、趋势序列粒度等基本概念,给出了趋势序列的粒度转换和趋势序列匹配的形式化描述。 设计了基于序列分段向量的WSM算法。设计了基于SSV的相似性模型,使用趋势序列SSV之间的距离作为趋势序列之间距离的下界函数,证明定理4.1、4.3、4.4、4.5等四个重要定理,实现了NTS之间的WSM。 设计了DTW双约束递推匹配冗余控制算法。在算法中,DTW距离的双约束机制可以加快DTW顺序匹配的过程,递推匹配机制实现了DTW距离的跳跃计算,冗余消除机制消除了最终结果集中的子序列冗余。 定义了对象空间、趋势关联规则、通用时态模式等重要概念,在此基础上,提出了基于通用时态模式的加权趋势关联规则模型,并为模型的挖掘设计了MWTAR-GTP算法。