当前位置:问答库>论文摘要

题目:面向地震舆情信息的深度网络爬虫设计与实现

关键词:深度网络爬虫;新浪微博;中文分词;Python

  摘要


我国是自然灾害较为严重的国家,其中尤以地震造成的破坏最为直接、巨大。针对震后公布的伤亡统计、救援行动和余震检测等官方报道,大众热门观点和态度情绪等舆情信息随之产生并迅速扩散,而网络媒体自然成为了主要的传播渠道。及时监测获取这些信息,进行有效的分类识别和统计分析,对政府掌握民情民意等舆论导向具有非常重要的意义。网络爬虫和数据挖掘技术的结合,可以产生良好的解决方案。本文将以此为课题,设计一款面向地震舆情信息的网络爬虫,并对获取的舆情数据进行分类识别和统计分析。

本课题来源于实习公司防震减灾软件应急平台下属地震应急舆情监控系统,建设目标是结合我国某省防震减灾局的实际情况,对网络中的地震信息进行实时跟踪,抓取来自不同媒体类型、不同渠道来源的信息,结合权重计算等技术手段,对信息进行过滤、整理、抽取和分析,通过统计图表、信息地图分布等方式,呈现地震舆情信息动态、级别和预警数等信息,生成并推送每天的舆情信息检测报告,以支持相关人员实时了解地震舆情信息动态,辅助做出处置决策。

作者参与完成了系统中数据抓取、分词抽取和分析统计3个功能模块的分析、设计和实现工作。本文以新浪微博信息抓取对象,通过自主设计深度网络爬虫,实现了对包括评论、转发和点赞等动态数据的完整抓取,并引入多线程机制,大大提高了爬虫效率。然后将抓取到的数据过滤整理到语料库,根据情感词库进行中文切词并抽取。

本项目采用Python语言和MySQL数据库实现,使用thread组件进行并发控制,“jieba”作为中文分词组件,知网的“情感分析用词语集(beta版)”作为情感词库。经过试运行以及一系列测试,符合设计目标,已成功集成到地震应急舆情监控系统中,目前运营顺利。本项目为后期平台的业务扩展,提供了有价值的参考案例。