● 摘要
MapReduce是一个构建在大规模的商用机器上,用来高效处理大数据的一种分布式并行编程模型。MapReduce因为具有经济、可靠、高效、易用的优点而成为大数据处理领域的主流编程模型。但是,在开发人员利用MapReduce程序模型处理大数据的过程中,依然存在以下不足。1)MapReduce程序模型的严格的map-reduce数据处理流程与现实世界的数据操作并不完全相容,用户必须要把现实世界的问题转化为map-reduce的数据流,才能利用MapReduce的框架。2)用户必须经过一段时间的学习培养才能深度理解MapReduce的数据模型并利用MapReduce数据处理框架来解决问题。3)MapReduce框架缺乏对复杂的数据处理算法的支持,对代码重用及可视化开发的支持。
本文在分析和总结国内外研究成果的基础上,研究了面向MapReduce的图形化程序开发方法,实现了MapReduce的图形化程序开发工具集MRTS(MapReduce Tool Suite)。该方法对MapReduce程序进行了抽象建模,定义了MapReduce程序的元模型,定义了MapReduce程序模型的构建规则。论文基于这一方法设计并实现了MapReduce的图形化程序开发工具集MRTS,提供了MapReduce程序的图形化开发,模型管理,作业管理和数据管理功能。
最后,本文利用MapReduce的图形化程序开发工具集MRTS,针对CSV格式的大数据文件,以图形化的方式构建了相关的数据操作集合,并利用这些数据操作集合生成了可实际运行的MapReduce应用程序。实验结果验证了面向MapReduce程序的图形化程序开发方法的正确性和可用性及MapReduce的图形化程序开发工具集的实用性。
相关内容
相关标签