● 摘要
随着互联网和科技技术在当今时代和社会上的飞速发展,使得存在于网络上的各种信息的数据量不断地爆炸式增长,与此同时,这些日益剧增的海量数据也被记录和存储下来,其中包括记录用户操作等行为等信息,这些用户行为信息大多数情况下被以日志文件的形式记录和保存下来。另外随着人口的增长和越来越多的人们接触和使用互联网,网络日志的数量也越来越大。如何处理这些海量的日志数据,从这数据的海洋中获取有用的信息,并利用这些信息来提升服务质量、改善用户体验,越来越受到国内外专家和学者们的高度重视。怎么样来管理和存储、计算和分析这些海量的数据是我们面临新的挑战。在这样的时候,云计算应运而出。
本文首先调研了在海量数据乃至大数据处理和存储方面的国内外研究状况,然后总结了前人在海量数据存储、处理和分析等方面的研究,并提出了一套针对云制造集团企业平台中实现海量数据存储和处理分析的方法和研究思路:针对云制造平台的特性,提出用Hadoop开源平台和其HDFS进行大数据的可靠存储的有效方案,并基于MapReduce分布式编程模型给出了一些如何处理计算的验证示例,也根据此改进用来计算分析云平台中用户访问操作信息,并计算给出对应用户的偏好服务,给出合理的信息和服务推送。