● 摘要
随着人类科技的进步,每个人在享受互联网科技带来的成果的同时也在生产着各种各样的数据信息。而这样的数据信息的增长速度是前所未有的,这也就是所谓的大数据。如何处理好这些大数据资源成为了许多企业的当务之急。以大数据为背景的分布式存储系统通过将数据分布在各个结点上来加速数据的访问。对于许多企业来说,将SSD作为分布结点的缓存已成为加速数据访问的重要手段。但SSD缓存面临写入耐久性的严峻挑战,频繁的缓存数据更新以及写入会使其寿命加速耗尽。其原因一方面是由于传统的缓存替换算法单纯追求高命中率,需要非常频繁地更新缓存数据;另一方面是缓存应用下的SSD访问模式基本上是随机写入和随机删除,这会导致SSD内部严重的写放大现象,加速其寿命的消耗。为了降低企业成本,迫切需要一种高耐久性的SSD缓存系统。
本文通过对传统缓存系统和SSD内部特性的学习,对传统缓存系统加以改造,在系统中加入SSD的读写特性,实现在减少SSD数据写入量的同时保证较高的命中率,也就是面向大数据高耐久性SSD缓存系统。
作为高耐久性SSD缓存系统必须满足较高的命中率和较少的SSD写入量,就必须挑选热数据写入SSD,因此必须分析访问数据的特征,从中找出相对热数据。对于热数据和冷数据,在SSD缓存管理中也必须有不同的接口,以保证热数据的优先级,以至于热数据不能被较早淘汰出去,同时还要实现冷热数据之间的转换。最后根据SSD的写入特性,改变数据写入SSD的写入单位,写入的数据必须和SSD的擦除块对齐,来减少SSD的写放大现象。
本系统成功得实现了SSD缓存系统的高耐久性,减少了SSD数据写入量,保证了数据命中率,为企业节约了成本。经过测试表明,本系统实现了预期的功能。为了获得更高的系统性能,今后还要做更多的学习研究。