当前位置:问答库>论文摘要

题目:MapReduce性能预测技术的研究与实现

关键词:MapReduce;Hadoop;性能预测;作业分析

  摘要

近年来,随着数据量的日益增长,国内外越来越多的互联网公司开始依赖大规模数据处理来发展和支撑其核心业务。由Google提出的用于海量数据处理的MapReduce框架逐渐引起了产业界和学术界的关注。Hadoop是开源实现MapReduce的分布式计算系统。很多互联网公司用它来搭建自己的海量数据处理平台。然而,在应用过程中,如何提升Hadoop集群的效率是一个亟待解决的问题。经研究发现,作业资源消耗以及运行时间的预测,可以很好的支持Hadoop调度系统以及参数配置等方面的优化,从而可以提升集群效率。所以,本文旨在提出一种预测方法,可以对Hadoop MapReduce作业各阶段的运行时间以及资源消耗进行准确的预测。首先,本文设计实验跟踪分析Hadoop的执行过程,并从资源消耗的角度对各个执行阶段进行建模分析。然后对该性能模型中的各类参数进行收集获取。针对用户作业相关参数无法获取的难点,通过分析实际应用场景中的特点,设计作业分析器来获取作业相关参数,解决了理论模型无法应用于实际的问题。然后本文分析了性能模型中影响作业执行时间的主要因素,通过实验总结分析了作业的特点,并根据这些特点设计了基于实例的学习模型来预测任务的执行时间。最后,通过实验对本预测系统进行了验证,并与同类工作进行了对比。实验数据表明,在符合论文定义的两个应用场景特征的前提下,该预测方案的平均误差率在10%以下,并且可以预测作业的CPU、IO、网络资源的消耗。本文针对现有方法的不足,设计提出了MapReduce性能预测技术。其主要包括两方面内容:1、一种Hadoop作业特征抽取技术。该技术通过提供虚拟的Hadoop执行环境,以较小的额外开销通过采样执行用户作业,抽取用户作业的特征,增加了预测的准确性;2、一种作业资源消耗以及执行时间的预测技术。设计了基于实例的学习模型,通过从实例库中以一定策略搜索与被预测作业特征相似的实例,来拟合回归函数进行预测。实验结果表明该方法简单有效,可以用很小的额外开销来完成准确的预测。