当前位置:问答库>论文摘要

题目:“大数据”存储平台的设计与实现

关键词:大数据,并行计算,水平扩展,HCC存储

  摘要



天津神舟通用数据技术有限公司是一家国内从事专业结构化数据存储管理的企业。公司承担了国家核高基项目、863项目以及发改委项目中自主可控数据库产品设计和研制的重点科研任务,本课题就是其中的一个重点研究方向。

本文主要论述了如何基于当前的通用关系型数据库,提出“大数据”适应性改造方案,在文中通过分析已有国内外“大数据”存储平台存在的问题,提出改进设计方案。在改进方案的论述过程中,针对主要关键点进行重点论述分析,最终提出整体解决方案并予以实现,本文所提出的主要的改进技术路线包括:

1) 设计和实现数据压缩技术以降低大数据存储成本,采用行列混合压缩技术提升平台磁盘IO综合利用率,从而解决数据爆炸所带来的存储采购成本越来越高,急需降低存储成本的问题;

2) 设计和实现智能索引、Hash索引、子串索引和自定义分词索引技术以提升平台整体精确查询的性能;从而解决了基于“大数据”的精确检索变得愈发困难的问题;

3) 设计和实现MPP多机并行计算技术,SMP多CPU核心并行计算技术以及配合使用行列混合压缩存储引擎模型,以达到快速准确的分析 “大数据”中蕴含丰富的价值目的,同时本文提供了高效的统计计算策略,使得发掘“大数据”价值的问题得以解决;

4) 通过分析“大数据”的生命周期的特性,设计和实现了数据生命周期管理方案,达到“最有价值的数据”利用“最优势的硬件资源”的目标。

5) 设计和实现在线平滑扩展的完全无共享平台架构,以满足“大数据”的膨胀所带来系统扩展性问题,从而达到利用硬件扩展来解决性能问题的主要目标。

本文所设计和实现的大数据存储平台已经在中国联通全国集中结算系统,互联网应急中心的两大核心系统以及电信省分公司和航天内多个系统中得到应用。在本文最后,将选取本平台在某电信集团公司的无线网络优化支撑平台的实际系统的测试结果进行论证。通过实际测试,验证本文论述的“大数据“平台的达到了预期设计目标。