● 摘要
随着信息技术的发展,人们的研究视角已经从海量数据的“数据挖掘”转移到海量的“模型挖掘”,分析人员在面临海量数据的同时也要面对海量的模型,如何批量化、自动化、快速地建立大规模的模型便是建模工作研究中所面对的新难题。以往所采用的建模方法是逐一建立相关的模型,这种建模手段固然能得到精度很高的模型,但是在面对数量众多的模型时便显得低效、力不从心。如何是建模工作能够高效、自动地实现便是本论文所要进行的理论研究和探索。本文主要针对回归建模方法,在回归建模的批量化和自动化两个方面提出相关的自动模型聚类以及自动建模方法,主要的研究和创新工作主要表现在以下方面:1、在曲线自动聚类研究中,为了使聚类方法达到自动化的要求,并能使聚类结果满足一定的精度,文中在该部分的研究中首先介绍曲线自动聚类中的相关概念,其中包括利用切比雪夫距离来对曲线之间的距离进行定义,以及曲线集合质心与曲线集合相似精度等定义,并在Squeezer聚类算法的基础上,引入曲线集合相似精度的概念,提出适用于自动化回归建模的曲线聚类方法。在该部分的案例研究中,文中通过比较曲线自动聚类方法与曲线聚类中最常用的SOM方法,说明了文中所提出的方法能够在满足一定精度的条件下对曲线集合进行自动地、高效地聚类。2、在多元线性回归模型自动聚类研究中,为了能使聚类方法能达到自动化回归建模中批量化的要求,文中首先利用线性回归模型增广矩阵的相关系数矩阵定义了2个多元回归模型之间的距离,并在此基础之上定义了回归模型集合的质心以及半径的概念。然后采用Squeezer聚类算法,实现了对多元线性回归模型集合的自动聚类分析。该部分的研究是通过仿真分析验证了文中所提出方法的有效性。3、在自动化回归建模的回归模型选择的研究中,文中利用实际的算例对Lasso回归与基于Gram-Schmdit变量筛选方法进行比较。在自变量之间高度多重相关的情况下详细比较两种方法的建模过程、效果以及效率,得出的结论是基于Gram-Schmidt变量筛选方法更加适合自动化回归建模的要求。4、在自动化回归建模过程的研究中,文中提出了一种非线性回归的自动化建模过程。文中将基于Gram-Schmidt过程的回归方法与交叉验证分析相结合,首先构造出备选的回归模型集合,然后通过进行多次交叉验证验证的方法,对构造出的一系列的备选模型,采用投票方式,挑选出被选中次数最多的模型作为最终确定的回归模型。该建模过程形成一种自动确定非线性回归模型的机制。该研究部分中仿真结果表明,采用文中所提出的自动化回归建模方法,可以合理有效地确定最终模型,并且模型具有良好的稳健性和预测效果。5、最后,本论文在文中所提出的理论方法的基础上,引入决策支持系统技术,构建自动化回归建模系统的信息化集成框架。文中提出自动化回归建模系统的基本设计思想、系统目标和构建系统总体框架,完成了系统模型结构、功能结构的总体设计,并对自动化回归建模系统做进一步分析与设计,构建了符合自动化回归建模理论和实践要求的自动化回归建模系统框架。该自动化回归建模系统由四个部分构成:人机对话交互系统、数据库系统、模型库系统和方法库系统,实现了自动化回归建模由理论到应用的过程。
相关内容
相关标签