当前位置:问答库>论文摘要

题目:基于Hadoop的科学计算工作流系统的研究与实现

关键词:科学计算;科学工作流;云计算;Hadoop;调度算法

  摘要

目前计算机技术已经广泛应该到了生物医学等科学计算领域,但是随着生物计算信息的不断增长,传统的数据处理方式无法满足需求。另一方面,面对海量数据的处理,现有计算机在数据处理上亦出现了速度瓶颈,迫切需要一个高速运算的平台。生物计算需要大量的数据管理和繁重的计算:一个简单而有效的方法是实现生物计算应用的自动化和并行高速处理,而Hadoop正是这样一种有效的解决方案。本文首先论述了Hadoop与科学计算工作流相结合的一些技术要求。由于一般科学计算工作流部署在传统的网格计算环境中,而目前在Hadoop上的工作流一般都是业务工作流,没有两者相结合的产物出现。接着本文探讨了如何利用MapReduce框架及其开源实现Hadoop,来运行生物计算程序。并且,我们在其上建立一个科学计算工作流,来帮助科学家自动的处理和运行流程复杂的生物计算程序。接着我们对系统进行了实验,并初步证明该方法具有低开销高性能的特点,它能极大得提高计算程序的运行时间。在此基础上,本文重点研究了以下三方面的内容。一是合理设计一个科学计算工作流,使之能适用于流程复杂的生物计算应用。我们设计了一个基于DAG模型的科学计算工作流,称作GreenPipe,它能有效地处理生物应用的复杂计算过程。二是优化Hadoop系统的运行效率,我们提出了基于输入分片的算法,实现了效率的提升。由于Hadoop默认的或者其他的调度算法都有其适用的场景和缺陷,因而我们设计了一个改进的调度算法来使之适用于复杂的生物计算。三是设计了一个方便科学家使用的Hadoop科学计算工作流的应用环境。在生物计算应用中,由于大多数科学计算工作流都是使用脚本语言或者是用户编程的方式来进行工作的,这对用户来说很不方便,因而我们设计了一个基于网页可视化编辑的方式来方便用户进行科学计算。