当前位置:问答库>论文摘要

题目:基于全信息的区间数据多元分析方法研究

关键词:区间数据;主成分分析;聚类分析;线性回归;判别分析

  摘要

区间数据可用于描述带误差的测量数据、反映主观态度的评价数据以及概括海量异构数据。随着区间数据在工程技术、经济金融、管理、社会调查等诸多领域中得到越来越广泛的应用,而在这些领域中数据系统常常由多个变量/指标描述,因而需要开发相应的多元分析方法,以支撑后续的数据分析工作,从数据系统中探寻重要信息和知识资源。在这个领域中,基于Diday提出的符号数据分析理论体系,已有文献开发了一系列区间数据多元分析方法。然而,由于没有构建适用于区间数据的统一的代数体系和运算规则,已有方法依赖于经典的多元分析技术,需要通过提取特征信息对数据表进行展开转换,由此不可避免地造成了信息损失,进而影响了建模精度。 有鉴于此,本文力图从区间数据的代数体系和运算规则着手,对区间数据的多元分析建模理论开展研究;突出“全信息”的概念,为区间数据多元分析方法构建了统一的分析框架,在此基础上开发了若干适用于区间数据的多元分析方法;结合区间数据的应用优势,将所提出的方法应用于学术期刊评价、股票市场分析、公司财务困境诊断等经济管理领域的实际问题中,以综合反映区间数据及其多元分析方法解决实际问题的能力,同时印证本文所提出的全信息分析框架的实用价值,为进一步扩展区间数据的应用范围提供了新的思路和解决办法。 主要研究工作、创新点和重要研究结论归纳如下: 1.区间数据多元分析方法的全信息分析框架(CIMSA)。从突出“全信息”理念着手,引入了分划数据的概念,基于此系统介绍了区间数据的基本代数算子和运算规则,进而为区间数据多元分析方法的理论推导构建了一个统一的全信息分析框架,为全文奠定了重要理论基础。 2.基于全信息的区间数据主成分分析方法(CIPCA)。基于CIMSA,对区间数据主成分分析进行了理论推导和性质证明,给出了建模步骤和相关辅助分析工具。该方法在考虑区间样本内全部信息的重要前提下对区间数据表进行降维,解决了顶点法、中心法存在的“主轴歪曲”问题,得到准确反映区间样本内部结构特征的主轴;实现了区间样本在降维后主平面上的可视化,为分析人员对系统进行综合评价提供决策辅助。 基于CIPCA开展了两个典型的应用研究,体现了区间数据及CIPCA的实际应用价值。(1)应用区间数据对2005年中国科学引文数据库八个学科期刊的评价数据进行概括,采用CIPCA对数据系统进行降维分析。一方面,增强了大规模数据系统的可视化效果,从学科层面对学术期刊的文献计量特征、学科间交叉渗透情况进行了综合评价,指出了学术期刊的学科特征差异;另一方面,筛选出衡量期刊发展水平的关键指标,为优秀期刊的遴选工作提供了理论依据。(2)根据股票数据的海量、异构特点,采用区间数据对六类风格板块的股票群进行概括描述,通过CIPCA对2004-2007年中国股票市场的市场交易状况进行了实证分析。研究结果在增强海量异构数据的可视化效果的前提下,有效区分了中国股市在不同发展阶段的市场交易特征。在牛市或者熊市早期(2004、2006年),成长类股票的市场交易更为频繁;而在牛市或熊市的晚期(2005、2007年),价值类股票成为市场增长的主要动力。 3.基于平方Wasserstein距离的区间数据自适应动态聚类算法(SW-ADCA)。将区间数据的平方Wasserstein距离与自适应动态聚类方法结合,给出了算法的步骤和收敛条件,并且深入研究了自适应因子的物理涵义及其对动态聚类算法的改进机理。比较了自适应动态聚类算法与普通动态聚类算法的聚类效果,还对比了平方Wasserstein距离、L距离、L距离、Hausdorff距离用于自适应动态聚类算法的分类效果,说明SW-ADCA将区间数据的密度特征体现在建模过程中;结合自适应动态聚类方法,能够有效识别具有不同分布特征的区间样本,从而实现更好的聚类效果,并且初步判定变量对于类别形成的贡献程度。 4.基于全信息的区间数据线性回归分析方法(CIM)。为区间变量建立线性回归模型,并基于CIMSA推导了回归参数的估计值。通过仿真实验和实际算例,与文献中的方法进行对比,说明CIM的优势在于:(1)能够最准确地捕捉区间数据内部的全部信息,实现对区间样本的最佳拟合,从而揭示数据系统的内在规律;(2)成功避免“因变量的下界预测值大于上界预测值”的情况,确保区间数据内部的一致性;(3)当模型输入的区间数据来源于对原始数据的概要描述时,即使原始数据不满足均匀分布的假设条件,所建立的回归模型仍然可以获得很好的解释和预测效果。 5.基于改进规则的区间数据多元判别模型(iMDA)。在公司财务困境诊断的研究中,当预测提前期较长时,使用年度财务数据建立而得的多元判别模型难以有效识别公司的财务困境风险,因而,本文提出采用区间数据来概括高频数据(如季度数据或月度数据),以合理反映财务数据的波动与风险信息,并采用区间数据的多元判别方法进行预测建模。针对已有的分布模型易犯第一类错误的问题,对判别规则进行了改进研究,并且建立了基于改进规则的区间数据多元判别模型(iMDA)。基于iMDA的实证研究表明,使用季度财务数据中的波动信息有助于改善模型识别困境公司的准确度;同时,模型具有稳健型,判别结果更加可靠。