● 摘要
成分数据(Compositional Data)是指由若干在[0,1]范围取值、加和为1的分量构成的向量,在社会、经济、技术等许多领域,都有着非常重要而广泛的应用。与普通数据相比,成分数据更能揭示绝对数据背后的相对信息,对多维比例数据进行整体性综合分析,并深入探讨作为整体的各部分比例之间的结构关联关系以及差异性特征等。 然而,由成分数据的定和约束条件所引起的一系列问题,如闭合效应、伪相关、分布的复杂性等,都为对它的深入研究带来相当的难度。上世纪70年代,英国统计学家Aitchison通过采用对数比变换,发展了一套适用于成分数据统计分析的理论体系。但与普通数据具有众多功能强大的分析方法相比,成分数据建模技术从深度和广度上都还显得十分逊色,因此,进一步探讨和完善成分数据多元分析领域的方法体系是十分必要并且迫切的。 本论文正是在此基础上选题的。遵循成分数据的基本理论,提出将成分数据对数比变换与偏最小二乘分析技术相结合,有效克服成分数据定和约束、完全相关、层次性关系、分布的复杂性等问题,完成成分数据的预测、回归以及路径分析的方法创新工作,并将模型应用于北京市三次产业劳动就业的需求分析中。具体研究内容包括以下五个方面。1.成分数据分析基础 在进行有关成分数据多元分析建模方法的研究之前,理清成分数据分析的相关基本理论。方法研究将以此为基础,采用成分数据的对数比变换,以成分数据的协方差结构为直接分析工具,遵循成分数据单形空间的对数衬度等理论性质,建立模型,并通过简易可行的等价算法实现模型的求解,从而完成有关成分数据在预测以及相关关系分析等方面的工作。2.成分数据预测建模 成分数据时序线性预测方法已有相关研究。本论文提出采用基于基函数(样条函数和核函数)变换的非线性偏最小二乘回归方法,解决成分数据非线性时序预测问题。在此基础上,对模型进行整体拟合效果的评价,并基于单形空间加法逻辑正态分布的假设,对预测值进行区间估计,完成有关模型评估方面的工作。进一步完善成分数据的预测模型体系。3.成分数据回归分析 目前,成分数据的回归建模仅限于一元成分数据关于普通数据、一元普通数据关于一元成分数据的情况。为此,本论文提出将成分数据中心化对数比变换与普通偏最小二乘回归、递阶偏最小二乘回归方法相结合,定义了一元成分数据关于一元成分数据、一元成分数据关于多元成分数据的线性回归模型;并且,从理论上证明了模型的有效性及求解的可行性。4.成分数据通径分析 成分数据的回归模型用于解决两组变量之间的因果关系,对于多个成分数据的更复杂的关联关系,本论文将成分数据中心化对数比变换与偏最小二乘通径分析方法相结合,建立成分数据的偏最小二乘通径分析模型;并且,从理论上证明了模型的有效性及求解的可行性。5.应用研究——北京市三次产业劳动就业的需求分析 应用所建立的成分数据多元分析模型,研究有关北京市三次产业投资、GDP、就业结构的相关问题。首先,对北京市三次产业就业结构进行短期预测;在此基础上,分析比较三次产业的投资结构、GDP结构与其就业结构的因果关系;最后,探讨三次产业的投资结构、GDP结构、就业结构之间更复杂的直接和间接的关联关系。实证分析的结果一方面验证了成分数据预测建模、回归分析、通径分析方法的实用性和有效性;另一方面也显示出,与普通数据相比,成分数据多元分析方法能够实现整体性、动态性、结构性、差异性的有效建模,在挖掘绝对数据背后的相对信息,揭示多维数据表的关联特征等方面均具有独特的优势。