● 摘要
据CNNIC第32次互联网报告统计,截止到2013年六月底中国网民规模达到了5.91亿,而手机网民达4.64亿,占网民总数的78.5%。近几年来,互联网舆情行业发展迅速,无论是政府还是企业都有必要利用舆情监测系统来分析大众群体的观点和需求。企业利用舆情监测系统可以及时掌握与经营密切相关的行业、品牌、产品、竞争对手、企业敏感信息等方面的网络舆情。对企业了解行情,开展市场营销和公关工作有重要的意义。
最近几年,政府主导的舆情监控系统发展迅速,设计、构建和使用的经验也得到的迅速积累。分网监控代替全网监控;专业舆情监控引擎取代搜索引擎;使用开源框架解决部分基础问题等设计经验大大加速了企业舆情监测系统的进步。本论文通过使用Heritrix、HTTPClient、JTidy、HTMLParser、Apache Lucene、Apache Mahout等爬虫、数据处理、索引聚类等开源技术设计并实现了企业舆情监测系统。
实践过程中在舆情采集、数据预处理、分词聚类等阶段综合比较了开源技术的性能和特点,结合系统功能需要做出了筛选和取舍。采用Java平台技术,针对舆情规划和舆情报告部分采用了基于Apache Tomcat的B/S结构应用,针对数据采集和舆情分析部分采用了基于SWT、JFace技术的C/S结构应用,通过数据库的统一数据存储和管理,将两者进行了有机结合。项目的实践过程采用了敏捷开发技术,采取小迭代多循环的方式对系统进行了不断的演化和改进,最不断的开发改进过程中,完成了系统的功能、性能和回归测试。
相关内容
相关标签