● 摘要
重复数据删除技术的作用在数据成爆炸式增长的今天变得尤为突出,大量的研究集中在提高重复数据删除率和备份的速度,并取得一定突破。但系统的恢复速度会随着去重率的提高而降低。针对这一问题,我们对备份的恢复速度瓶颈进行了量化分析,发现删除重复数据块造成大量的数据碎片是引起备份的恢复速度降低的主要原因。本文提出了一种优化大数据存储的在线备份系统恢复性能方法,以近5%的去重率损失和少量的计算开销,可以提高近一倍的备份恢复速度。这种技术的适用性强,对不同类型备份的恢复性能均有明显提升作用。本文研究成果由以下几点构成:
(1)备份系统体系结构
针对当前备份系统在恢复性能方面遇到的瓶颈和不足,本论文研究了一种面向大数据备份系统性能优化体系结构,并对该备份系统体系结构确定了各个模块应完成的功能,为实现备份恢复性能优化打下了基础。
(2)自适应限定重复数据删除技术
在备份系统体系结构的基础上,本论文研究并实现了一种自适应限定重复数据删除技术,通过将进入系统的数据流划分为以数据块容器为最小存储单位的片段,挑选出空间连续性最差的块容器直接写入存储,最终达到整个备份中的数据连续性最优的目的。
(3)数据碎片动态均衡技术
在备份系统体系结构的基础上,本论文研究并实现了一种针对备份之间数据碎片动态均衡技术,首先实现了对数据碎片的实时监控,接着探讨了不同数据碎片的特性,设计的数据碎片决策算法保证了能够高效选取需要迁移的数据碎片。最后设计了一种数据碎片决策方法实现了以最小的开销优化整个系统数据的布局,并且提高最新备份的恢复性能。
(4)新型缓存和预取方法
在备份系统体系结构的基础上,本论文研究并实现了一种针对块容器的缓存和预取方法。本方法可以提高缓存的使用价值,通过元数据管理文件获取数据块的读取顺序,在恢复数据的工程中,由之前一个缓存块容器获取一个数据块提高到几个甚至几十个数据块,使得缓存的效率成倍提升。
经过上面几个关键技术的研究,提高了基于块容器的备份系统的恢复性能,并通过实验证明了各个算法是切实有效的。