● 摘要
舆情是在一定的社会空间内,不同群体对企事业单位、地域、品牌、人物或某一个事件所产生的认知和持有的态度。舆情反映了大众的态度、信念、意见和情绪的总和,对于相关机构、人物的未来行动有较重要的影响和指导作用。近年来,中国的网民数量增长飞快,相当多中国人,尤其是青壮年构成的社会主流群体,已经开始使用网络作为获取信息的主要渠道,网络舆情也随之日渐活跃。与此同时,各企事业单位都愈发关注自己或与自己关联的机构、品牌、人物、事件的网络舆情,及其随时间的变化趋势和空间分布情况,尤其是与自己相关的敏感点是否在网络上出现,是否正在形成热点。但是,互联网信息形式多样,结构复杂,对关注的舆情进行发现和追踪绝非易事,需要有系统的机制和一个高效的信息采集、加工系统。在此背景下,本文设计并实现了一种对商业品牌的互联网舆情数据进行采集、跟踪和挖掘的方案。方案采用B/S架构,同时使用了MongoDB和传统的SQL数据库,兼顾了海量文档存储和复杂业务逻辑的需求,将舆情分析的任务横向划分为了数据采集、语义分析、情报分析三个部分。在数据采集部分综合运用了元搜索技术、模拟登录技术、爬虫技术采集用户所关注的网页数据,使用阶梯式的更新策略追踪已采集网页的曝光量变化趋势,以较低的代价保证了数据采集的全面性。在语义分析部分使用了基于双向最大匹配的分词技术、基于词频的特征提取技术、基于潜在语义分析的特征空间降维技术和文本分类技术对采集的数据进行加工,有效降低了中文近义词对语义分析准确度的不良影响,创造性地使用了Simhash算法实现了对舆情话题的溯源和跟踪。最终在情报分析部分向用户提供了多个维度的数据和情报分析功能,包括了统计、对比、分类、传播路径等多种数据分析工具,较好地满足了用户的对于舆情跟踪和分析的需求。
相关内容
相关标签