● 摘要
信息时代使全社会的数据量呈现爆炸性增长趋势,如何高效处理大规模数据并挖掘其蕴含的系统知识,成为当前人类面临的重大挑战。符号数据分析为处理和分析大规模数据提供了一种全新而有效的思想,在工程技术、经济管理、社会调查等领域都有很广泛的应用前景。分布型符号数据是符号数据的一种重要类型,它包含了定量符号数据的大多数类型。虽然现有的符号数据分析领域已经存在大量关于分布数据的研究工作,但是其理论研究仍存在许多不足,集中表现为以下两个方面:其一,现有方法均要求数据表中每个单元的分布形式一致;其二,分布数据的线性组合一直缺乏一种精确且统一的计算方法。例如,若干均匀分布的线性组合结果并不是均匀分布,而在区间数据分析中,人们长期采用 Moore代数来构造线性组合算子,强行使一组均匀分布的线性组合结果仍然是一个均匀分布,这就会造成很大的分析误差。当然,对于可加分布,其线性组合的运算是有章可循的,但是对于一组混合的不可加分布,其线性组合的计算方法很少被讨论。有鉴于此,本文力图从分布数据的代数体系和运算规则入手,侧重研究基于特征提取的若干分布数据多元统计分析方法。首先为分布数据的多元统计分析方法构建一个统一的代数基础,在此基础上开发了多种适用于分布数据特征提取分析研究方法,并将所提出的方法应用于学术期刊评价以及气象数据降水预测等实际问题中,同时也将此分析技术推广到某些特殊分布当中,如均匀分布,正态分布等。主要研究工作、创新点和重要研究结论归纳如下: 1、适用于混合型的分布型符号数据的数字特征定义和线性组合运算方法。从分布型符号数据的具体定义出发,运用连续随机变量的数字特征的积分计算理论,给出分布型符号数据变量的均值、方差、协方差的定义,以及这类符号数据的线性组合计算方法。值得一提的是,这些定义和运算方法允许数据表中每一个数据单元都服从不同的分布,因此具有更加普遍的适用性。与目前广泛使用的Moore代数相比,本文提出的分布型符号数据线性组合计算方法更加合理精确。 2、分布型符号数据的主成分分析方法。在分布型符号数据的数字特征定义和线性组合运算的理论基础上,对分布型符号数据的主成分分析方法进行了理论推导和性质证明,并给出了建模步骤。该方法与经典主成分分析方法,以及现有的区间数据、直方图数据、正态分布数据等符号数据的主成分分析方法具有很好的相容性。仿真结果表明,该方法不仅可以得到准确反应分布样本内部结构特征的主轴,而且可以实现分布样本在主轴上的精确投影,为分析人员综合评价系统提供依据。同时,基于所提方法开展了两项应用研究。其一是应用分布型符号数据主成分分析方法研究经典的区间数据案例,并将分析结果与现有的三种区间数据主成分分析方法的结果进行对比,结果显示本文所提方法得到的主轴更加合理,投影更加精确。其二是应用分布型符号数据对2007年期刊引用报告(JCR)中8个学科的SCI期刊的评价数据进行概括,采用所提方法对数据系统进行降维分析。从学科层面上对SCI学术期刊的文献计量特征、学科交叉渗透情况进行综合评价,指出了学科特征差异。同时,筛选出衡量期刊发展水平的关键指标,为优秀期刊的遴选工作提供依据。 3、分布型符号数据的典型相关分析方法。以分布型符号变量的线性组合和数字特征为基础,将分布数据特征提取方法延伸到典型相关分析方法当中,并实现了分布数据典型相关分析从计算到可视化的全部过程。接着,本文将分布数据的典型相关分析方法应用到CSCD和JCR两个不同的期刊数据库的在学科层面上的相关分析研究当中,挖掘其中重要的内部信息规律和不同数据库之间的联系,分析我国学术期刊及国际学术期刊的总体特性和学科差异,探寻不同数据库中文献计量指标的不同内在含义,从而进一步反映我国学术期刊及科研水平整体及不同学科领域在国际上的发展地位和发展方向。上述实证研究得到了一些有益的结论,同时验证了所提出方法的实用性。 4、基于Wasserstein平方距离的分布型符号数据Fisher判别方法。以分布型符号变量的线性组合和数字特征为基础,基于Wasserstein平方距离的定义,对分布型符号数据的Fisher判别模型进行推导,并通过仿真实验和实际案例说明提出的判别方法的有效性。仿真实验采用正态分布型符号数据,具体思路是首先利用仿真数据建立判别函数和判别规则,然后再将这些样本点回代到判别函数中进行判别,通过计算判别效率,各个总体的平均正判率以及总的平均正判率对模型进行评价。案例研究选取了美国全境82个观测站点在2010年7月3日的气象数据及次日的降水数据,以此来进行判别分析,进而预测降水情况,结果表明本文所提出的方法能有效地融合样本的类别信息。