当前位置:问答库>论文摘要

题目:基于kafka开源框架的搜狐数据搜集系统的设计与实现

关键词:实时数据搜集,用户行为分析,kafka

  摘要



随着互联网技术的快速发展,网站站点的数目以及信息量正以几何级数形式惊人地增长。然而网站的可用性问题却逐渐成为影响互联网公司运营效果和继续发展的首要问题。大多数网站普遍存在着可用性难题,这给用户有效地获取信息和接受网站的服务带来了一定程度的困难。目前,解决网站可用性问题的常用方法是利用可用性工程来辅助设计和改善网站,但是其前提是必须了解网站可用性问题所在。解决网站可用性问题的关键在于对网站进行用户数据搜集和用户行为分析。网站可用性分析与用户行为分析主要是收集日志等信息来进行分析处理。这些信息数据具有信息量大、不太直观、非结构化等特点,用传统的数学方法分析起来不但工作量大,而且难度较大,效果不太理想。通过对国内外大中型网站用户行为搜集分析系统的研究,作者设计并实现了具有针对性的为搜狐社区定制的用户行为数据搜集系统。

针对搜狐社区运营过程中所需要的数据支持特点,我们搭建了实时的数据搜集平台和数据分析平台,以满足运营和运维人员对实时应用的需求。为了满足实时数据的请求需求,实时数据采集系统采用前端嵌入预先设定好的代码的方式进行数据接收后,将数据发送消息管理中间件。通过kafka的可靠性机制,保证数据的完整性和健壮性,得到原始数据后,紧接着对用户行为数据进行分析,并将数据分析得到的结果存储到数据库集群中,以供前端业务查询功能使用。最后以友好的界面展示出来。

本文首先简单的介绍了互联网网站常用的搜集系统以及搜集过程中用到的核心技术,进一步提出了本课题的技术架构以及系统实现中的细节问题,最终根据项目需求,实现了数据搜集的任务,满足了运营的要求。