● 摘要
随着互联网的迅速发展,在我们的系统中存储着各式各样的数据,如日志、图片、音频、视频等。目前,很多企业使用HDFS(Hadoop Distributed FileSystem)作为底层存储系统。HDFS是为运行在商用集群上,以流式数据访问模式存储超大文件而设计的文件系统,面对实际生产环境中,种类繁多、大小不一的数据,HDFS无法很好地满足现有的需求,尤其是HDFS Namenode的设计很容易成为系统瓶颈,当海量文件出现在HDFS中时,大量的文件元数据会将HDFS Namenode的内存耗尽。因此,基于HDFS的海量文件存储技术的研究是HDFS相关领域的重要课题。
本文对HDFS现有的体系架构进行了深入的研究与探讨,并在此基础上提出了多集群的方式来解决HDFS Namenode内存负荷过重的技术方案,并结合实际的业务需求,实现了一个可以支持海量文件存储的文件系统,着重解决了多集群模式下利用Consistent Hash算法完成HDFS集群的选取、通信协议的设计、文件目录管理、文件存储管理、文件读写锁、租约机制以及缓存机制的设计与实现。最后,通过功能测试、性能测试以及其它相关的测试,验证该技术方案有效地提高了HDFS Namenode内存资源的利用率及系统的响应速度,减轻了HDFS Namenode的负荷压力,证明存储系统的可用性。
目前,存储系统已处于稳定运行状态,实践证明了系统设计的有效性,提高了存储系统的整体性能,解决了企业的实际问题。
关键词:HDFS,HBase,ZooKeeper
相关内容
相关标签