● 摘要
区间数据(Interval Data)是一种常见的符号数据(Symbolic Data),当数据集合存在海量样本点时,经常采用区间数据来对样本空间进行简化。通过这种简化,一方面极大地降低了工作量,另一方面也有助于从整体把握数据集合的表现特征和内在规律。在对区间数据进行多元统计分析时,首先需要采用一定的展平算法将区间数据表转换为普通数据表。本文系统介绍了常用的几种展平算法:中心点法、顶点法和因素区间数据表的展平算法。其中,中心点法省略了数据集合中的离散信息;顶点法在指标量过大时易造成维数灾难;因素区间数据表的展平算法则未能够准确找到代表原数据集合的样本点。基于上述方法的不足,本文提出了一种改进的因素区间数据表展平算法——投影展平算法,并介绍了该算法的改进思路,实现方法以及与原算法相比较的优势。本文在区间数据的理论基础之上,对中国股票市场的运行特征进行了研究。首先运用区间数据对近年来各风格板块的市场表现特征进行了分析;其次,在理论创新的基础上,将投影展平算法应用到实证分析中,采用基于投影展平算法的因素区间数据主成分分析和时序主成分分析方法,对中国股市的运行特征进行了研究;最后,采用基于投影展平算法的因素区间数据偏最小二乘回归,研究了股票收益率的影响因素。通过上述分析,总结了中国股市的运行特征,得到一些有价值的结论。