当前位置:问答库>论文摘要

题目:单形空间中多元成分数据的若干统计方法研究

关键词:成分数据,线性回归分析,主成分分析,判别分析,时间序列分析

  摘要



从数学表达形式上来看,成分数据(Compositional Data)是指含有D分量的向量,其分量满足非负且和为1的条件。成分数据作为一种特殊的数据类型,可以用来描述投资结构、就业结构及居民消费结构;可以用来反映各高校的本科、研究生、博士学生比例结构;可以用来反映岩石的化学元素结构;可以概括海量复杂数据等。随着成分数据在社会经济、管理、工程技术以及自然科学等领域的广泛应用,在很多时候需要用多个变量或者指标对数据系统进行描述,因而需要提出多元成分数据的统计分析方法,以支撑现实生活成分数据的分析工作。自上世纪八十年代,Aitchison 最先利用对数比变换处理成分数据以来,许多学者开始专注于研究成分数据的线性回归分析,主成分分析,判别分析及时间序列分析等多种分析技术。而已有文献倾向于研究一元成分数据的统计分析技术,对于多元成分数据的统计分析方法,尤其对于考虑到成分数据本身所特有的性质的多元成分数据统计方法,相关研究相对较少。

值此背景下,本论文力图从原始成分数据出发,突出单形空间成分数据向量的代数体系,建立单形空间多元成分数据统一的分析框架,推导适用于成分数据向量的多元统计分析方法。结合成分数据的应用领域,将所提出的统计分析方法应用于中国学术期刊评价、工业产品产量地区分布分析等经济管理领域的实际问题中,以综合表明单形空间多元成分数据分析方法的有效性和可靠性,为扩展成分数据的应用领域提供解决思路和方案。

主要研究工作、创新点和重要研究结论归纳如下:

1. 单形空间成分数据向量代数体系及数字特征。从单形空间成分数据的代数体系出发,推导单形空间成分数据向量的代数体系,进而根据成分数据向量内积的定义,给出成分数据变量的数字特征,提出多元成分数据统计方法的分析框架,为后续的多元统计分析方法奠定基础。

2. 多元成分数据的线性回归分析方法。利用单形空间成分数据向量内积的定义,推导单形空间多元成分数据的线性回归模型,以及基于等距对数比变换后的数据的回归模型,给出了两种模型相对应的回归模型的评价指标决定系数R2以及交叉验证相关系数Q2的公式,进一步指出模型回归系数的解释含义。利用1995年-2010 年,上海按三次产业区分的地区生产总值结构数据,固定资产投资结构数据,以及就业结构数据进行分析,建立地区生产总值结构为因变量,固定资产投资结构数据及就业结构数据为自变量的回归模型,其结果表明地区生产总值相对于固定资产投资的相对弹性远远小于相对于就业的相对弹性,即1995年-2010年期间,上海就业相对于固定资产投资而言,对经济的影响程度更大。本例中较高的决定系数R2以及交叉验证相关系数Q2,说明多元成分数据的线性回归模型为拟合和预测上海地区生产总值结构提供解决方案。

3. 单形空间多元成分数据的主成分分析方法。基于单形空间成分数据向量的代数体系以及数字特征,构建单形空间多元成分数据的协方差矩阵,对多元成分数据的主成分分析方法进行了理论推导和性质证明,给出了主成分分析的建模步骤和辅助分析工具。将该方法应用于2005年-2011年工业产品地区分布特征与2007年中国科学引文数据库学术期刊综合评价两个实例研究中。实际案例表明本文提出的方法能够对多元成分数据降维提供解决思路和办法,能够有效挖掘复杂数据内部的特征,能够增强大规模复杂数据的可视化程度。

4. 单形空间多元成分数据的Fisher判别分析方法。着重针对多元成分数据,基于单形空间成分数据向量的代数体系,对单形空间成分数据的Fisher判别模型进行推导。通过仿真实验和实际案例说明提出的判别方法的有效性。仿真实验思路是首先利用仿真数据建立判别函数和判别规则,然后再将这些样本点回代到判别函数中进行判别,通过计算判别效率,各个总体的平均正判率以及总的平均正判率对模型进行评价。实际案例选取的是1990年出版的《成分数据的统计分析》一书中的40棵雅特阙特树当季和上一季的果实中肉、皮和核所占体积比例数据,表明提出方法的可靠性。

5. 单形空间成分数据的时间序列分析。基于原始的成分数据出发,利用Aitchison单形空间成分数据的代数体系和数字特征,讨论单形空间成分数据的时间序列模型。给出了成分数据样本自协方差函数、样本自相关函数,单形空间成分数据宽平稳时间序列、白噪声序列等定义,研究了利用矩估计的方法建立成分数据自回归(C-AR)模型,移动平均(C-MA)模型、自回归移动平均(C-ARMA)模型、以及差分自回归移动平均(C-ARIMA)模型的相关步骤;利用1957年-2008年的全国能源生产数据验证了本论文提出的成分数据时间序列模型的实用性。