当前位置:问答库>论文摘要

题目:基于hadoop分布式平台与检索日志的品牌数据挖掘

关键词:大数据;检索词;数据挖掘;Hadoop;MapReduce

  摘要


本论文在分布式平台Hadoop的基础上研究分类、关联挖掘算法,实现大数据下的分布式数据挖掘算法,最后以挖掘品牌检索词为实验来验证算法的可行性。

本论文对分布式算法模型做了研究,分布式算法的核心是要满足分布式和并行性两个条件。Hadoop分布式文件系统解决了海量数据的分布式存储问题,而MapReduce并行计算框架实现了任务的并行计算。

本文在经典的数据挖掘算法基础上,对传统的朴素贝叶斯分类及Apriori关联挖掘算法做了修改和改进。在分类挖掘中,采用朴素贝叶斯算法来训练和测试分类模型。在特征选择上,采用卡方检验来剔除与类显著不相关的特征,模型准确率提高了1%左右。朴素贝叶斯分类的准确率和先验概率的分布密切相关,论文设计了一个自适应的模型训练算法来调整和优化训练样本的先验概率分布,使得模型的准确率由92.98%提高到96.08%。根据这个分类模型实现了分布式分类算法,使之适合分布式环境下的分类挖掘。在关联挖掘中,为了降低经典的Apirori算法对内存的限制,把算法分成两个步骤,先统计局部频繁项集再验证是否全局频繁。最后实现了分布式的关联挖掘算法,使之适合分布式环境下的关联挖掘。

论文通过对海量检索词进行分布式的分类及关联挖掘实验,验证了在Hadoop分布式平台上进行分布式并行挖掘的可行性。对数据挖掘的结果进行了分析,论述了对海量检索词进行数据挖掘的重要性。同时对论文的工作做了总结,对下一步的研究方向提出了几点设想。