当前位置:问答库>论文摘要

题目:海量金融数据挖掘方法的研究与实现

关键词:关联分析;金融数据挖掘;搜索引擎;金融报告;概念图

  摘要

金融数据挖掘是当前数据挖掘研究的热点之一,其中金融数据主要有数值型数据和文本型数据两类。当前,针对数值型金融数据有一些成熟的分析方法,但是由于无法快速高效的实时获取大量的最新金融数据而制约了金融数字分析的效率。而针对非结构话的金融文本型数据,特别是海量文本型数据的分析相对较少,关联分析是一种有效的挖掘隐藏信息的方法,但是基于传统的关系型数据库方法,对于文件数达到千万量级的文本处理效率较低,因此关联分析技术在海量文本数据的应用程度不高。本文针对上述问题,分别针对金融数值型数据以及文本型数据所面临的关键问题,提出了相应的解决方法。其中针对数值型数据,本文利用正则表达式和对于网络数据结构的分析,并重点介绍了一个通用的大规模web表格数据提取模型,并基于财务比率分析法给出了相应的数据分析模型。此外针对海量的金融文本型数据,本文提出了一个基于搜索引擎的特征词关联分析方法,并给出了特征词关联规则的定义,以及基于数学集合相关性的上位词、下位词、上级词和下级词关系,最后利用概念图对提取的特征进行可视化展示。通过实验证明,数值型数据的提取模型可以在较短的时间内,准确高效地完成对数百万数据的匹配与提取,并且利用财务比率对数据进行分析处理。此外,在对数量超过3000份,文本量达到数百万的金融年度报告进行分析表明,本文提出的方法有能力在数秒内从数百万文本中通过关联分析提取特征词并进行可视化展示。