当前位置:问答库>论文摘要

题目:面向财经领域的话题分析关键技术

关键词:Web挖掘、话题检测、聚类分析、信息抽取

  摘要

2008年金融危机后,越来越多的企业意识到对竞争对手、合作伙伴、产业动态、国家政策等信息的实时监控与分析,对及时发现商业问题、制定商业决策起着重要作用。网络上大量的企业关注的商业信息,特别是财经新闻,为面向财经领域的舆情分析提供了信息源。本文针对财经领域网络舆情监控的具体需求,以话题检测为基础,研究面向财经领域的话题分析关键技术。具体的内容包括:1) 提出一种报道-子话题-话题的三层话题表示模型。针对网络上财经新闻的特点,利用传统的报道-话题的两层的话题模型,不能很好的处理大量冗余信息和多角度话题描述的问题。本文根据实际应用中的新闻内容和话题的特点,提出一种报道-子话题-话题的三层话题表示模型,并重新定义该模型各个层次的含义和表示方法。该模型可以更好的表示网络新闻的结构,并为话题检测与信息抽取提供基础。2) 提出二阶段的话题检测方法。在本文提出的话题模型的基础上,针对子话题与话题对时间、文本表示等的不同需求。分析子话题层检测与话题层检测的不同特点,分别设计相应的检测算法。针对子话题层检测,提出了一种层次聚类和单路径聚类结合的子话题检测算法,该方法可以取得较高的准确率,较好地检测子话题。通过对话题检测结果进行评测,实际应用说明本文提出的方法可以较好的组织话题信息,满足用户需求。3) 结合财经领域的领域知识,定制并实现了面向财经领域的话题信息抽取。通过分析财经领域实际的需求,从公司的股票变动、人事变动、合作竞争等角度出发,总结出增持、减持、人事任命、签署协议等四类事件类别。针对每类事件,定义事件抽取模板,采用词触发的方法进行事件信息抽取,并对同一子话题中的事件信息进行整合,抽取用户关注信息,并在子话题层对信息进行整合,帮助用户快速了解子话题的关键信息。采用扩展LexRank算法的多文档摘要技术对子话题进行摘要,便于用户理解。4) 实现了面向财经领域的以话题为中心的舆情分析系统。本文开发并实现了以话题为中心的舆情监控系统,并在实际网络环境下面向财经领域进行话题检测以及话题信息抽取,应用效果良好。