当前位置:问答库>论文摘要

题目:基于大规模数据的新热词发现平台设计与实现

关键词:新词发现,热词发现,自然语言处理,大数据处理,Hadoop

  摘要









随着信息社会互联网普及,互联网作为一种新兴媒体,其每天都会不断涌现出新的思维、新的事物、新的言论,因此产生了大量的新兴词汇。在有新词不断涌现的同时,互联网的力量也不断在给旧词注入新的含义,这些词在新闻中体现着一种舆论倾向,在微博中体现着一种潮流趋势,在搜索框中体现着一种当前兴趣点。互联网企业需要实时跟踪这些新兴词汇与趋势热词,就能够掌握用户的行为趋势、个性爱好等,为产品决策、用户体验提升以及个性推荐提供最好的辅助,让企业能够与时俱进。

本文的主要研究内容是基于大规模数据的新热词发现平台的设计和实现,为企业开发并构建一个能源源不断提供新词、热词的发现平台。本文分析并比较了业内与学术界的新热词发现算法和技术,通过分析企业所提供的大规模语料,设计并实现了规则和统计相结合的无词表的新词发现算法,通过分析企业所提供的用户数据,设计并实现了热词发现算法。本文基于Hadoop平台构建了新热词发现平台,为大规模数据的分布式处理和存储能力提供了保障。

本文对该系统的需求进行了分析,对研究中用到的自然语言处理、信息论以及Hadoop分布式系统等相关原理和技术进行简要介绍,随后本文给出实际系统的设计与实现,并针对系统中起到关键作用的数据预处理模块、新词发现模块、热词发现模块的设计与实现进行了深入介绍,并且对实验结果及系统测试结果进行分析系统测试结果进行分析。

测试表明,通过对新词的成词结果集Top1000分析得出,基于新闻语料的准确率91.380%、召回率96.494%、F值93.868%,基于说说语料的准确率69.988%、召回率95.827%、F值80.894%,基于微博语料的准确率69.223%、召回率95.352%、F值80.213%;热词发现的结果集与业内知名企业热词榜进行对比后,结果满足对发现热词的需求。

该平台输出结果现已运用在某大型互联网企业的多项产品之中,同时结果并被某国际高科技公司运用在其产品中,并取得了不错的效果。