当前位置:问答库>论文摘要

题目:跨数据中心的虚拟分布式文件系统关键技术研究

关键词:虚拟分布式文件系统,跨地域数据中心,元数据共享管理,文件分配算法,动态扩容

  摘要



近年来,以微博为主的自媒体、音乐视频分享、图片分享、基于位置的服务等应用层出不穷,带来的直接影响就是产生了大量的数据。如何高效存储和管理这些海量的数据在很大程度上决定了这些应用服务的用户体验。而当前的海量存储和管理技术主要采用单集群系统,随着数据的快速增长,单集群系统的扩展很快就将到达瓶颈。如何继续提升整体系统的扩展性,同时保持已有的系统吞吐量、平均响应时间等性能优势,成为当前研究的热点与难点。

目前单集群系统主要有两种扩展规模的方式。第一种是在保持主从式体系结构的基础上增加数据节点来满足扩容的需求,但是元数据服务节点在元数据管理数量和大量并行访问方面却要承受更大的压力。第二种方式是采用联邦的结构,使用多个元数据服务节点分管数据节点池以解决上述挑战,但这种方式无法支持跨地域分布的多集群系统。

本论文针对以上两种方法在解决海量数据高效存储和管理时所遇到的问题,研究并设计了一种叫做虚拟分布式文件系统的中间件系统,可以较好地管理跨地域分布的数据中心或集群。

本论文的主要研究内容和贡献包括:

1)        虚拟分布式文件系统软件体系结构

针对当前单集群分布式系统在系统扩容方面遇到的瓶颈和不足,本论文研究了一种面向跨地域多数据中心管理的中间件软件体系结构,并对该软件体系结构进行了层次划分并确定了各层次所应完成的功能,为设计和实现高效的统一存储和高效管理打下了基础。

2)        多数据中心的元数据共享管理技术

在基于虚拟分布式文件系统体系结构的基础上,本论文研究并实现了一种支持多数据中心的元数据共享管理技术,其中探讨了一种权限控制管理机制,可以精确定义数据中心间的互连关系和同步方式,研究了一种基于同步序列号和改进的两阶段提交协议的元数据全局同步机制,几乎能保证线性的同步效率,并阐述了一种全局名字空间的本地用户视图动态生成技术,转换速率与目录深度也基本能保持线性关系,最后基于HDFS(Hadoop Distributed File System)实现了相应的原型系统。

3)        异构存储集群的统一访问管理技术

在基于虚拟分布式文件系统体系结构的基础上,本论文研究并实现了一种针对单数据中心内多个异构存储集群的统一访问管理技术,首先实现了通用的文件访问接口以屏蔽集群的异构特征,接着探讨了存储系统的存储特性和外部负载的访问特性,设计了静态的文件分配算法使得读操作的平均响应时间最多降低了40%,最后研究并设计了一种通用的方式允许上层应用自定义负载特征信息,提供了进一步提升读操作响应时间的方法。

4)        数据中心级的动态扩容技术

在基于虚拟分布式文件系统体系结构的基础上,本论文研究并实现了一种数据中心级的动态扩容技术,首先研究了一种数据中心资源监控机制以协调各数据中心在动态扩容时的调度次序和服务方式,然后设计了针对此资源监控机制的通信协议,精确量化了扩容过程中所涉及的数据传输格式、互操作方式和阈值参数信息,使得资源监控机制的正确性和效率得到了保证。