当前位置:问答库>论文摘要

题目:基于Hadoop的海量数据管理系统研究与实现

关键词:海量数据,Hadoop,分布式计算,集群系统

  摘要

随着计算机技术的快速发展,特别是网络的普及,金融、电信、交通等众多行业对信息化的要求越来越高,产生的数据量不断增大,如何有效管理海量数据成为当今的研究热点。在航空电子应用中,飞机系统的结构和机载设备日趋复杂化,使得在进行故障诊断时需要处理的飞行数据的规模越来越大,对处理速度的要求越来越高。这些飞行数据具有海量、复杂、关联、异构等特性,对存储资源、计算资源、网络资源等都提出了较高的性能要求。本文在对海量数据管理关键技术(分布式管理技术、元数据技术和中间件技术)进行研究的基础上,设计并实现了一个基于Hadoop分布式平台的海量数据管理系统,使其作为一个子系统应用于“飞机实时故障诊断与维护支持系统研究”项目中,能够较好地满足其对海量飞行数据的高效存储与快速读取的要求。论文主要工作如下:1、采用客户端—中间件服务器—节点服务器三层架构处理模式,搭建了基于Hadoop的海量数据分布式系统框架。通过增加节点可以方便的扩展系统容量,能够对各种分布、异构的海量数据进行灵活的存储和读取。该系统框架还能够屏蔽不同数据库的不同组织方式,为用户提供统一、简洁、方便的查询、统计平台。2、应用Map/Reduce分布式计算模型,提高了对海量数据的处理速度。Map/Reduce是Hadoop的计算模型,分为Map和Reduce两个过程。中间件服务器接收到指令后,先经Map过程将任务分解成多个子任务并下发到相应的节点服务器,各节点并行地在本地执行任务,处理结果再经Reduce过程进行整合,然后返回给中间件服务器。这样的并行方式保证了对数据处理的高速性。文章从系统支撑服务、数据处理服务、数据结构及接口等方面分别给出了Hadoop在本系统中的具体配置及参数设置。除了海量、高速等优点外,本系统还具有实现容易、安全性高等特点。