当前位置:问答库>论文摘要

题目:基于压缩矩阵的大规模日志分析系统的设计与实现

关键词:大规模日志,矩阵,日志分析,访客识别,访客路径

  摘要



当前日志分析采用的是平铺式分析方法,这种软件设计方法主要是由企业产品发展造成的,起初的分析产品功能比较少,只有几种基本的参数,随着市场逐渐成熟,对产品的功能要求越来越细致,增加了许多交叉分析,企业为了快速满足市场需求,就直接平行增加分析功能,从而形成了平铺式分析。这种分析方法设计、开发快捷,具有很好的扩展性,有利于企业持续开发新功能或者为客户定制特别要求的功能。但是这种架构同时有其固有的问题,随着功能的增加,许多数据在分析过程中被多次重复存储,尤其是日志比较大的时候,重复次数呈数量级方式增加,内存资源占用增加很快,最终内存资源严重限制功能的实现,为了分析大日志,又不得不放弃一些功能和细节。

针对上述问题,本课题设计了一种新的网站日志分析核心,使用结构化内存处理技术构建分析模型。这个模型的最大特点是节省内存开支,让单台计算机完成10G到100G规模的网站日志分析成为可能,并且具备可以接受的分析速度。论文的主要工作如下:

1.      进行需求分析,设计系统框架,利用多个后台独立程序进行数据处理,完成数据库设计,建设一套完整的网站日志分析系统;

2.      利用Agent识别和时间判定的方法实现用户识别算法;设计一套结构化内存管理方法,使用这个方法实现日志到压缩矩阵的转换,并在矩阵上实现数据分析;进行关键路径分析算法设计,并进行一定的访问路径挖掘;

3.      实现设计内容,完成综合指标分析、基本分析、技术分析和访客分析功能;

4.      使用实际日志对系统进行测试和验证,修订和优化系统,并整理相关文档,完成日志分析系统软件。

通过本次研究、设计和开发工作,实现了日志的下载、日志预处理、日志分析和报表缓存,实现了访客识别算法,设计并实现了数据矩阵和基于矩阵的分析功能,基本实现了路径的归纳和关键路径跟踪,并且完成了部分分析报告的展示。总之,本课题完成了分析系统的功能和性能需求,解决了在单机实现大规模日志分析的问题。

目前该系统已投入使用,系统运行平稳,并发挥了实际作用。通过这套系统的设计,实现了在单机进行大规模日志分析的需求,达到了系统设计的目的和要求。