● 摘要
随着科技投入力度的加大,大量的科技信息资源数据存储于各种文件以及数据库中,管理人员越来越难以对这些数据进行有效管理和存取。这就要求有一种系统能存取这些数据,并将它转换成一种有用的、可信赖的信息资源。数据仓库技术能够更好的管理数据,并能对数据进行分析挖掘,为用户提供决策支持。基于上述原因本文实现了一个基于数据仓库的科技资源分析决策系统,来提高对现有科技资源的分析利用。
本文在分析比较了多种技术之后主要研究了基于sqlserver构建数据仓库,并根据数据特点编写ETL工具,进行数据的抽取、转换和加载,最后对清洗完的数据进行展示和挖掘。
本文将处理好的数据传给sqlserver数据库,利用其BI套件构建数据仓库,并通过MDX语言对数据进行查询和读取等操作。数据的展示主要是通过地图的形式进行展示,前台采用地图控件,通过javascript对其进行缩放、拖拽等操作,各个地区的科技资源情况都通过地图进行一个地理位置上的直观展示。用户可以通过与地图交互,获得更详细的报表信息。
数据的挖掘主要是对科技资源数据里的隐藏价值进行挖掘。本文对全国的科研课题进行了主题挖掘,分析和研究了LDA主题模型,加入地理信息因素设计TOL(Topic Over Location)算法,从而得到各个地区的主要课题研究方向,并通过地图着色的方式进行展示。 综上,本文基于数据仓库技术,并结合文本主题挖掘和地图展示技术,设计并实现了一个科技资源信息可视化管理系统。
关键词:数据仓库,可视化,数据挖掘,主题模型,TOL