当前位置:问答库>论文摘要

题目:Hadoop负载均衡的研究与改进

关键词:Hadoop,负载均衡,大数据,分布式

  摘要



随着大数据时代的来临,信息量日积月累变得越来越庞杂。为了能对庞杂的数据进行有效地存储与处理,越来越多的数据密集型应用诞生了,主要面向大数据存储和分布式应用的管理和计算。在这些应用之中,Hadoop如雨后春笋般拔地而起,尤其在互联网领域:Facebook借助Hadoop集群以支持数据分析和机器学习;百度则用它进行网页数据挖掘和搜索日志分析等等。

相对于单一的设备,分布式集群最大的瓶颈之一就是负载均衡,Hadoop也不例外。一个好的负载均衡不仅可以使得系统的资源得到最大化的利用,而且使系统能在最短的时间里去响应用户请求。从性能来讲良好的负载均衡有两个方面的含义:1)大量的并发访问或数据被分担到多个节点上分别处理;2)单个重负载的运算被分担到多节点上进行处理,而每个节点完成处理结束后将结果汇总并返回给用户,最大程度的发挥了集群的处理能力。虽然Hadoop的使用非常广泛,但是其内在负载均衡器仍然需要管理人员手动执行,这就有可能造成集群出现严重的“两极分化”现象。

本文从Hadoop当前的负载均衡方法与原理讲起,提出当前Hadoop负载均衡的两个不足之处:其一为负载均衡方法的被动性,即非自动操作;其二为阀值设定的不灵活性,即目前阀值的设定没有根据当前系统的负载情况而定。针对负载均衡方法的被动性,通过在Hadoop源码中增加一条新线程用于专门支撑负载均衡器,同时为了避免不必要的运算和减少系统的开销,增加了是否进行负载均衡操作的临界条件的设置;针对阀值的不灵活性,在进行负载均衡操作之前计算当前系统中每个节点的负载情况及各个节点之间的负载差距,通过计算结果理性的设定阀值从而保证各个数据节点之间负载的平稳性。最后从时间因素的角度即系统的繁忙程度考虑确立了改进方案。综合上述改进方案抽象出具体的设计并对Hadoop源码进行研读与修改,之后投入大量且适当的实验证明改进方案的有效性,另外从Hadoop的网络拓扑结构方面着手改进负载均衡的方法进行展望,最终能够从软硬件两方面改进现有Hadoop负载器使其达到高效性与实时性的并驾齐驱。