当前位置:问答库>论文摘要

题目:基于数据挖掘的时间序列相似性研究

关键词:数据挖掘;时间序列;相似性查询;时间序列后继树

  摘要

为了充分利用历史数据,从大型数据库中寻找历史时间序列数据隐藏的知识,本学位论文对基于数据挖掘的时间序列相似性的表示和查询方法进行了细致的研究。本文在研究各种相似性定义的基础上,提出了一种较为统一的时间序列相似性概念体系,在该概念体系内,相似性被定义为依赖于某种相似性度量函数和变换约束的概念。相似性带有一定的主观性,即相似性只能是在某种变换约束下的相似性。从而将相似性问题归结为寻找合适的变换函数和相似性函数的问题。解决相似性搜索问题的关键在于寻求某种计算复杂度低适应性强的时间序列近似表示方法。本文围绕着算法的快速性、降维效果、准确性等要求,实现了如DFT, DWT等整体正交变换方法,PAA、界标模型等特征提取方法,并且提出了一种基于局部极值特征抽取的时间序列表示方法,并验证其在性能方面的优越性。在时间序列数据库的索引和查询方法的研究中,本文简单分析并给出了R*树的索引架构生成、搜索、删除和查询的相关算法。同时引进了全文数据库中后继树的文本索引技术,提出了一种基于形态表示的时间序列相似性查询方法。该方法通过基于局部极值特征的挖掘方法分段,使用文本编辑距离作为相似性的度量,保证了度量地适应性,又减少了时间复杂度,将时间序列转换为符号序列,利用时间序列后继树(SIRST)索引结构实现了序列的快速相似性查询。通过实验验证,此方法有效的降低了时间复杂度,提高了查询效率。