当前位置:问答库>论文摘要

题目:函数型数据的统计分析及其在经济管理中的应用

关键词:函数型数据;主成分;样条;M 估计;变量选择

  摘要


近年来函数型数据分析取得了长足发展,许多传统统计方法被推广到函数型数据分析的框架下。最有代表性的是关于函数型线性回归模型的种种理论研究及其相关应用。关于对函数型数据进行预处理的基函数选择、函数型数据协方差函数的谱分解、函数型系数估计量的收敛速度以及多元函数型线性回归模型的变量选择问题等,学者们都进行了探索,得到了一些有意义的结论。但是文献对函数型线性回归模型的研究通常没有考虑估计的稳健性质,也没有考虑函数型协变量对响应变量的影响是否显著,此外在实际数据分析中数值型协变量和函数型协变量混合的情形更加普遍,函数型线性模型的相关研究成果无法很好地解决这类问题。


在此背景下,本文试图对函数型线性回归模型的稳健回归方法及稳健变量选择问题进行研究,从渐近性质和数值结果上说明估计和变量选择方法的有效性,并将这些结果推广到数值型协变量和函数型协变量混合的回归模型中去,进一步研究其性质,最后将这些方法应用到数据分析的实践中。具体而言,本文的主要研究工作如下:

1. 玻璃样本连续谱数据的主成分回归。我们将连续谱数据看作函数型数据,对其进行主成分回归分析。不需要对原始数据进行离散化和降维,而是对其进行连续化处理,并引入其导数曲线充分利用连续谱的变化率信息,增加了模型的解释能力,得到的函数型系数更加符合数据本身特征。在玻璃样品的实例分析中,与基于样条方法的函数型回归相比,函数型主成分回归分析采用较少基函数仍能达到很好的解释效果,同时得到的回归系数及其 bootstrap 置信区间也更符合 X 射线谱本身的特征。因此,函数型主成分回归是一种处理连续谱数据的有效方法,可直接推广到低频数据关于高频数据或数值型变量关于连续型变量的回归问题中,具有良好的应用前景。

2. 函数型线性模型的 M 估计。函数型线性回归模型的已有结果主要集中在研究最小二乘估计,所依赖的损失函数是平方损失函数。我们考虑一般化的损失函数,假设损失函数是个普通凸函数,考虑函数型系数的估计问题。通过对损失函数加以限制可以得到对应的稳健估计量,而这种估计量通常没有显式表达,需要通过迭代算法进行求解。在对未知斜率函数进行近似时,我们采用基于数据产生的自适应基函数:函数型主成分基函数。其优势在于,进行截断操作所损失的方差信息或者说所利用的原始数据的方差信息的百分比是已知的。斜率函数的 M 估计不需要对误差分布进行限定,扩展了函数型回归模型的应用范围。此外,我们对估计量的渐近性质进行了研究,推导得到其收敛速度。数值模拟也表明所提出方法的有效性。

3. 函数型和数值型协变量混合回归模型的稳健估计。基于样条函数逼近,我们研究了具有数值型响应变量,函数型和数值型协变量混合的函数型线性回归模型中未知函数型系数的 M 估计,通过合理选择样条节点个数得到了凸损失函数下 M 估计的最优收敛速度以及估计量的渐近分布。使用样条方法避免了对函数型协变量的协方差函数特征根和特征函数进行过多的条件限制。理论分析和数值模拟都印证了所提出方法的可行性和实用性。


4. 多元函数型线性回归模型的稳健变量选择。基于 Lad-Lasso 方法,我们讨论了多元函数型线性回归模型的稳健变量选择问题,并分别研究了函数型协变量个数固定和随样本容量发散情形下所提出变量选择方法的理论性质,得到了较好的理论结果。在此过程中,借助函数型主成分基函数对函数型协变量进行了投影,并充分借鉴组变量选择的相关理论进行变量选择。本章所提出的 FLL 方法可进一步扩展到更加复杂的模型和其他稳健变量选择方法,例如损失函数可以选为 Huber 函数[1],惩罚函数可选择为group SCAD 函数[2]。


5. 基于函数型偏最小二乘基的变量选择及其在气象数据分析中的应用。本章我们在多元函数型线性回归模型框架下,基于函数型偏最小二乘基函数对函数型协变量进行展开,在进行展开过程中充分利用响应变量的信息,之后对多元函数型线性回归模型的组变量选择问题进行了研究,识别出对响应变量有显著影响的函数型协变量,并将其应用到大气数据与人群健康关系的分析中去,取得了理想的效果。
6. 函数型广义线性回归模型的估计。本章对含有函数型协变量的混合数据广义线性模型进行了研究,尤其针对响应变量为离散变量或者属性数据情形,所提出的估计方法不需要对误差分布进行假设,扩大了适用范围;模型可以解决因变量为离散型或者属性数据的回归问题;将函数型数据分析方法引入了广义线性模型。