当前位置:问答库>论文摘要

题目:定性资料与列联表的统计分析

关键词:定性资料,分级贝叶斯估计,伪贝叶斯估计,列联表,压缩与合并,有序变量

  摘要

  定性资料的统计分析,在医学、生物学、工农学和社会科学中有着广泛的应用,随着统计方法应用范围的扩展和深入,日益受到重视。   数理统计经常遇到的资料可以分为以下四类:(1)计量的,(2)计数的,(3)有序的,(4)名义的。前两类是定量的,他们的统计分析是与连续随机变量的分布有关;后两者是定性的,他们是属性统计研究的对象。对多元的统计资料,每一个个体是用一系列性质来表示的,具有相同属性的全部个体是可以数清楚的,这个数目进入汇总到列联表中的一格。实际上,任意维的列联表,所有格子频数按字典书讯排列后可以看作服从多项分布。反过来,多项分布可以看作是广义的一维列联表格子频数服从的分布。因此,定性资料的统计分析以离散多元统计的理论为基础,采用列联表形式,将复杂的定性数据用数学模型来描述,要用数据回答的问题,可以精确的用模型中的参数来叙述。   定性资料概率分布的非参数估计问题,在定性资料统计分析中占有重要位置,文[1][2][3]作了探讨,定性资料统计分析的主要任务是分析变量间的关系是否独立;如果不独立,它们之间有怎样的函数关系;如何进一步估计函数的形势和函数中的参数……;列联表的压缩与合并也是世纪中经常遇到的问题,文[15][18]对此进行了探讨;关于处理含有序变量的列联表,还有许多问题没有解决。   本文解决了定性资料统计的两阶段贝叶斯估计和伪贝叶斯估计问题,是对贝叶斯估计的推广与改进;在对高维列联表进行压缩和合并时,变量之间的关联性保持一致是至关重要的,给出了一组简单可压缩的和强可压缩的充分条件,及合并不出现悖论和两子总体保持齐次的条件;对含有序变量的列联表统计分析,作了初步探讨,文章共分为三部分:   第一部分探讨了定性资料概率分布的非参数估计问题。文[1]给出了其矩估计,极大似然估计。在给定先验分不为k-1维Beta分布时,宋立新[1997]给出了定性资料概率分布的贝叶斯估计,由于综合使用了样本信息和先验信息,贝叶斯估计量有效于经典估计量,并且是经典估计的渐进无偏估计。本章给定先验分布为狄利克莱分布,对先验分布中的分数再给出一个先验,得到混合迪利克莱分不多层先验,在此多层先验下得到分级贝叶斯量,使贝叶斯估计量是它的一个特殊情形。贝叶斯估计量中的参数,一部分固定,另一部分的选区是在平方差损失函数下,使风险函数大到最小,这时得到伪贝叶斯估计量,在样本容量较大时,能够对观察计数予以平滑化。   由于统计资料的却少,或为了数学处理的方便,需要对高维列联表进行压缩;对同一个问题的研究中,得到若干张列联表,为了对因素间的关联作总的检验,需要进行合并。这样用压缩和合并后表中的关联系数描述压缩与合并前的变量的关系可能产生于实际北京相矛盾的结论。Good[1987],Geng,Z.[1992],李开顺[1998]分别讨论了压缩与合并的条件。第二部分重点讨论了关联系数为辅助交互作用和优比时,I×J×K维表简单可压缩与强可压缩的充分必要条件,给出了具体的检验方法,比分析了文[17]中的资料。在关联性指标为相合系数时,给出了列联表合并不出悖论的条件以及量子总体保持齐次的充分必要条件。   有序资料的统计分析有它的特殊性。对于简单的I×J维表,如果只限于名义值的变量,那就只能进行独立性的检验,然而一旦其中之一有序时,就可以有不少更为细致的模型。第三部分给出了含有序变量列表分析的标准回归方法,对数线性模型拟合及RC相关模型拟合等。运用这些方法和模型,通过总可卡方值的分解,增加了检验的灵敏度,并且模型得到简化,参数具有更明确的统计意义。