当前位置:问答库>论文摘要

题目:基于ProtoBuf的海量日志数据管理系统的设计与实现

关键词:ProtoBuf,Hadoop,Hive,日志数据管理,海量数据

  摘要



近几年来,互联网的发展速度日新月异,其产生的信息量也越来越大,很多互联网公司会采用对日志数据进行分析来获得其中包含的丰富的用户行为信息,用以帮助公司对业务快速做出决策。目前日志分析正面临着新的挑战,日志数据量巨大并且结构复杂,而传统的单机处理的方式效率低下,如何高效的存储并分析一个大型系统产生的大数据量、异构的日志,将会对企业的发展带来重要影响。

针对日志数据管理的现有问题,本论文研究了ProtoBuf和Hadoop等技术,并且构建了一个满足大数据量分析业务需要的日志数据管理系统。利用ProtoBuf技术,对日志数据格式进行规范化,解决了文本日志数据解析复杂和效率的问题;在日志处理的方法上,采用集群的方式代替传统的单机处理的方式,利用基于Hadoop的数据仓库平台Hive对日志数据进行离线查询和分析,提高了数据分析的效率,利用分布式文件系统HDFS来对海量日志数据进行存储,系统的稳定性和可扩展性得到了提升;并对查询任务进行调度和管理,实现了负载均衡,使服务器资源得到更好的利用,提高了查询效率。

本系统主要包含四个模块:日志格式管理模块、传输管理模块、查询模块、报表展示模块,在查询模块中还包含了定时调度、依赖监控、资源分配、任务执行这四个子模块,本论文将对这些模块进行详细的设计与实现,最后通过功能和性能方面的测试验证本系统达到了用户的需求。