当前位置:问答库>论文摘要

题目:基于Hadoop的微博用户关系 分析系统设计与实现

关键词:大数据;用户关系;微博;聚类分析

  摘要



 

微博是Microblog的简称,是一个基于用户关系的信息分享、传播以及获取的平台。微博以简短文本的博客形式发布或者更新,而且发布渠道多样化,参与人无限制,使得任何人都可以成为微博用户,成为一个区分于传统媒体的“自媒体”。本文分析了国内外微博研究现状,国外以Twitter为主,国内则以新浪微博为主。国内目前主要从传播学角度对微博的传播特性、机制、影响力进行了分析。本文以新浪微博为研究对象,从微博用户关系出发,集合复杂网络研究技术分析用户关系网络,运用Hadoop对微博用户数据做统计分析处理,为企业决策及个性化推荐等做支持。

本文的主要工作成果包括:首先,结合复杂网络研究技术对微博用户关系网络进行分析,主要分为用户社区与关键用户分析,用户社区主要特点是群体性,具有共同的兴趣爱好、职业技术等。文中运用数据挖掘理论中的聚类分析方法,对关系网络进行划分分析;同时运用微博排序对关键用户进行分析,关键用户在关系网络中具有很高的影响力,在信息流动中起主要作用。其次,运用Hadoop分布式计算优势,对微博中大量的用户数据进行处理,实现了聚类分析算法的分布式运行。用户社区与关键用户的相关定向分析、影响力分析数据都是基于Hadoop平台做处理。最后,本文采用php搭建相关分析数据展示的子系统,其中包括用户管理、菜单管理、用户社区与关键用户信息展示模块。展示数据采用图表结合的形式,易用方便。

论文结尾对分析结果以及展示效果做了测试,项目的实际运行表明,系统分析具有比较理想的效果,满足数据分析展示功能,具备易用性。同时,指出下一步需要扩展和完善的功能。