当前位置:问答库>论文摘要

题目:基于抽样策略的关联规则挖掘

关键词:关联规则;抽样;数据挖掘;HAS

  摘要

在数据挖掘中应用抽样技术,可以显著提高数据挖掘任务的效率。关联规则挖掘是数据挖掘领域中最重要的研究方向之一,因此研究基于抽样策略的关联规则挖掘是很有意义的。本论文通过研究关联规则挖掘任务的特点,分析各种抽样技术及其特点,确定了表示原始数据集与其样本数据集在关联规则挖掘任务中差异特征的指标,即用减少了非频繁一项集影响的一项集支持度之间的差异来表示。本论文提出了一种基于抽样技术的关联规则挖掘算法HAS(High Accuracy Sampling-Based)关联规则挖掘算法,该算法采用了以原始数据集与其样本数据集在关联规则挖掘任务中差异特征指标为依据的二阶段抽样方法。HAS关联规则挖掘算法在一个能够更准确代表总体特征的样本上执行挖掘任务,从而在保证效率的同时提高了挖掘结果的准确性。接着,本论文还研究了在增量情况基于抽样策略的关联规则挖掘算法,并提出了HASI关联规则挖掘算法。最后对HAS关联规则挖掘算法进行了实现,并采用SQL Server在线分析服务自带的数据库foodMart2000进行了实验,在不同抽样比率情况下对数据运行HAS关联规则挖掘算法,对算法进行了验证。