当前位置:问答库>论文摘要

题目:基于Hadoop的数据管理系统的设计与实现

关键词:Hadoop,分布式计算,数据管理,大数据

  摘要


本设计的目标是设计一款企业内部使用的数据管理系统。主要是对分散在企业各个应用系统中、各个部门中的数据文件进行分类处理,实现统一管理,改善企业原来的数据管理习惯。在对这些数据文件进行统一分类处理的过程中,我们会使用MapReduce技术结合Lucene框架,对数据进行统一的处理,创建索引库,实现全文检索功能,方便用户快速检索所需文件。

本系统采用Hadoop作为底层架构。Hadoop是一个用来并行处理大数据的分布式软件框架,Hadoop技术应用起来简单方便,开发人员不必去详细的了解Hadoop的底层细节就可以很方便的开发基于Hadoop的应用程序,来进行海量数据的存储和处理。本系统在使用Hadoop的同时,结合Lucene设计实现了一个分布式的全文检索功能。全文检索功能是数据管理系统不可缺少的组成部分,尤其是本系统是用来进行海量信息管理的。本系统除了全文检索功能模块外还包括数据中心、数据地图和系统管理等主要模块。数据中心是数据管理系统的主要功能模块,提供系统中对数据文件的主要操作功能,包括文件的上传、下载、修改、删除等基本操作;数据地图对系统中存储的文件提供多种分类体系,方便用户在使用过程中快速定位到相关类别;系统管理模块是针对系统管理员设计的,提供用户管理功能和系统运行过程中的基本设置。

Hadoop在大数据处理方面有一定的优势,在现行的大数据处理系统中已经得到广泛应用。本文提出设计一个基于Hadoop的高效、可靠的数据管理系统,并给出实现方法。