● 摘要
论文选题来源于国家“十二五”863计划信息技术领域重大项目“云计算关键技术与系统”课题“以公众汉语服务为主的搜索引擎研制”(编号:2011AA01A205)课题,以及华为技术有限公司技术合作项目“高端容错服务器关键技术研究”。云计算的发展如火如荼,而面向云计算的分布式文件系统具有存储容量大、容错性高、可扩展性好等特点,能够满足许多应用领域海量存储的需求,成为事实上的存储标准,也是云计算最重要的应用之一。同时,由于集群系统的硬件性能发展迅速,如采用多CPU配置,使得分布式文件系统I/O与作业的计算能力速度不匹配的问题愈加严重。如何为上层应用的文件访问提供稳定高效的文件I/O性能,是设计和优化面向云计算分布式文件系统亟需解决的问题。预取技术为解决面向云计算分布式文件系统的I/O性能瓶颈提供了一种优良的解决途径,它通过一定的预取策略,将数据提前从本地硬盘读取至预取缓存池中,通过并行化的文件读操作,有效隐藏了磁盘的寻址时间、寻道时间以及数据传输时延,提升了文件系统I/O性能。论文深入研究GFS、GPFS、HDFS等典型的面向云计算分布式文件系统的基础结构,分析分布式文件系统在文件管理、数据访问流程、文件缓存管理等I/O相关技术方面的共同特征,以此为基础提出一种通用型的文件预取设计方案,并以HDFS为平台进行系统实现。研究内容分两部分:一是对上层应用透明的启发式文件预取,部署在存储节点,采用在分布式文件系统内部建立预取线程池的方法,响应上层应用程序所有的文件访问请求。以组成文件块的数据存储文件为预取单位,通过记录文件访问信息构建LS预测模型。二是与外部应用配合且更有针对性的知情式文件预取,使用多线程技术提出一种面向并行任务处理的模型,并实现编程框架,是对客户端应用的一种优化。研究点包括本地访问接口、数据缓存池的管理以及数据格式转换等,可广泛适用于图片、音频、网页文件等海量文件处理的场景。实验结果表明,论文所研究和实现的文件预取机制,能够有效提升分布式文件系统的I/O性能。