● 摘要
如今的互联网发展迅猛,互联网企业也面临极大的挑战,尤其是电子商务型企业网站,每天会被数以万计的用户访问。为了提供更好的服务质量,了解用户的访问特点及用户需求,迫切需要对用户的访问行为进行和分析研究。需要通过对网站访问量的统计与外部数据的整合,详细的了解用户量、用户行为、用户习惯、用户偏好、市场活动的效果、广告分析、用户满意度等等内容。Web日志分析便因此而产生。需要收集用户访问网页时产生的所有日志信息,进而对这些日志进行数据转化、清洗、挖掘的一个过程。另外一个方面,从防火墙和网络设备的日志上,也可以分析发现网络的入侵和攻击行为,日志分析作为网络安装防御系统的重要组成部分,在网络安全方面也起到问题发现和事后证据的作用。
随着电子商务网站用户规模以及应用系统规模的扩充,相应日志信息的数量级也在同步增长。传统的文件存储和检索和数据库等方式不能满足网站分析WA和用户数据深入分析的海量计算的需要。为此,课题采用Hadoop分布式计算框架,并在此基础上建设高效的Web访问日志分析方案。在Hadoop中基于MapReduce进行算法设计,用Hive数据库进行并行查询与数据分析,优化方案提高日志分析效率,提高系统可扩充性和易编程性,提高数据存储与检索效率。
课题实现一个日访问量400万PV级别的网站的业务分析和告警输出的系统。通过对网站访问数据的细致的分析,为决策提供充分的依据,对网站进行优化和调整,循序渐进地达到提高网站的访问量以及影响力的效果,最终达到节约成本,提高投资回报率的目的。