当前位置:问答库>论文摘要

题目:分布式流处理应用的动态部署与管理研究

关键词:分布式流处理应用,动态部署,数据流,并行化算法,热点

  摘要



随着云计算应用的迅速发展,大数据处理作为云计算应用中的关键技术开始成为研究的热点。分布式流处理应用作为管理实时性大数据的重要应用,同样受到了人们的重视。和传统数据管理方法相比,分布式流处理应用在处理大规模实时性的分布式数据时有着良好的性能,但是分布式流处理应用对于突发数据流和算子热点(hot spots)等问题依旧缺乏有效的解决方案。因此,本文研究并实现了一种分布式流处理应用上的并行化算子处理算法,主要用于解决突发性数据流和算子热点问题。算法采用了指数式快增加的方法来动态增加算子的数量,提高了算子的并行度,达到解决突发性数据流的目的。经实验验证,该算法提高了分布式流处理应用的数据流吞吐量,并且降低了其数据流事件丢失率。 此外,当前分布式流处理应用本身缺乏统一的管理方法,无法简单有效的部署和管理分布式流处理应用。为了实现系统化的管理,本文设计并开发了一个分布式流处理应用的统一管理平台—EMDSP(Easy Management of Distributed Stream Processing)。设计该管理平台的目的是为了让使用者能更方便的管理应用程序以及底层集群资源。平台具有创建并管理物理机群服务器、管理系统逻辑集群、管理逻辑节点、部署分布式流处理应用、注入数据流等功能。该管理平台相对于传统的命令行方式,使得应用程序的部署和集群资源的管理更容易,用户体验更好。 最后,论文将EMDSP系统管理平台部署到一个真实的物理集群环境中进行测试,验证了EMDSP系统管理平台的可用性和功能的完备性。测试结果表明,EMDSP系统管理平台可以实现分布式数据流应用的相关管理功能。