● 摘要
近年来,云计算平台的应用与日俱增,对平台性能的要求日益增高。数据中心运行着多种处理大数据的分布式数据处理平台,其中Hadoop已成为主流平台,对其性能的研究与优化以及对平台的二次开发成为了当前云计算研究的热点内容,也是当前众多数据中心关心的内容及未来的发展方向。
目前,诸多数据中心中的集群都由异构节点构成的,运行的应用也是混合型的,集群中同时运行着两种或多种不同类型的应用,典型的应用有CPU密集型、I/O密集型的。由于集群的异构性与应用的多变性,导致Hadoop平台在异构环境下性能受到了较大的影响。然而,现有的针对Hadoop平台的监测工具却无法获取全面的信息来反映出Hadoop性能下降的问题所在。设计信息收集工具的难点在于如何确定影响Hadoop性能的相关数据、如何传递收集的数据信息使得对原有Hadoop平台的性能影响最小。本文基于分析应用特征与系统参数之间关系的结果,确定监测工具所需要获取的数据信息,设计并实现了信息收集工具,方便日后对Hadoop平台进行性能评估和优化。监测工具主要包含三个功能模块:获取作业信息模块、获取任务信息模块、获取资源信息模块,信息发送与接收模块。
本文设计的信息监测工具已成功在Hadoop-0.21版本中实现。通过实验的测试,本文所设计的信息监测工具对原有Hadoop平台系统的影响大概为1%-2%,成功获取作业、任务、资源的信息。
相关内容
相关标签