2017年湖北大学数学与统计学学院432统计学[专业学位]考研冲刺密押题
● 摘要
一、简答题
1. 简述系数、c 系数、系数的各自特点。
【答案】(1)相关系数是描述
式为:式中,列联表数据相关程度最常用的一种相关系数。它的计算公《为列联表中的总频数,也即样本量。说系数适合
这个范围。
列联表的情况。C 系数的列联表,是因为对于
计算公式为:
列联表中的数据,计算出的系数可以控制在(2)列联相关系数又称列联系数,简称c 系数,主要用于大于
当列联表中的两个变量相互独立时,系数c=0, 但它不可能大于1。c 系数的特点是,其可能的最大值依赖于列联表的行数和列数,且随着R 和C 的增大而增大。
(3)克莱默提出了 V 系数。V 系数的计算公式为:
当两个变量相互独立时,当两个变量完全相关时,所以V 的取值在之间。如果列联表中有一维为2,即则V 值就等于值。
2. 给出显著性检验中,P 值的含义,以及如何利用P 值决定是否拒绝原假设。
【答案】P 值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P 值很小,说明这种情况发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设。P 值越小,我们拒绝原假设的 理由就越充分。
从研宄总体中抽取一个随机样本,计算检验统计量的值和概率P 值,即在假设为真的前提下,检验统计量大于或等于实际观测值的概率。如果
数取值;如果
即一般以
样本间的差异比为显著
,结果更倾向于接受假定的参数取值。
为非常显著,其含义是样本间的差异由抽样误差所致的概率时小于0.05或0.01。但是,P 值不能赋予数据任何重要性,只能说明某事件发生的机率。时更大,这种说法是错误的。
第 2 页,共 46 页 说明是较强的判定结果,拒绝假定的参说明说明是较弱的判定结果,拒绝假定的参数取值;如果
3. 下列调查问卷中的提问都有问题,请修改。
(1)您和您爱人是否对现有住房满意?
(2)您最近一次是几点上班的?
(3)绝大多数喝过明光牛奶的人都认为它口味纯正,您认为是这样的吗?
【答案】(1)您对现有住房满意吗?您爱人呢?
(2)您最近一次的工作是几点上班?
(3)您认为明光牛奶的口味纯正吗?
4. 二项分布与超几何分布的适用场合有什么不同?它们的均值和方差有什么区别?
【答案】(1)从理论上讲,二项分布只适合于重复抽样(即从总体中抽出一个个体观察完后放回总体,然后再抽下一个个体)。但在实际抽样中,很少采用重复抽样。不过,当总体的元素数目况很大而样本量, 相对于A T 来说很小时,二项分布仍然适用。
但如果是采用不重复抽样,各次试验并不独立,成功的概率也互不相等,而且总体元素的数目很小或样本量 «相对于W 来说较大时,二项分布就不再适用,这时,样本中“成功”的次数则服从超几何概率分布。
(2)若X 服从二项分布若Y 服从超几何分布则则
5. “假设检验的基本思路是:概率性质的反证法,主要依据的是:小概率事件原理”。你同意这种说法吗?简要叙述你对假设检验的理解和检验步骤。
【答案】同意。
假设检验所遵循的推断依据是统计中的“小概率原理”:小概率事件在一次试验中几乎是不会发生的。例如,在10000件的产品中,如果只有1件是次品,那么可以得知,在一次试验中随机抽取1件次品的概率就为此概率是非常小的。或者是说,在一次随机抽样试验中,次品几乎是不会被抽到的。反过来,如果从这批产品中任意抽取1件,恰好是次品,我们就可以断定,该次品率应该不是很小的,否则我们就不会那么轻易的就能抽到次品。从而,我们就有足够的理由否认产品的次品率是很低的假设。
假设检验的基本步骤为:第一,对所考察总体的分布形式或总体的某些未知参数做出某些假设,称之为原假设。第二,根据检验对象构造合适的检验统计量,并通过数理统计分析确定在原假设成立的条件下该检验统计量的抽样分布。第三,在给定的显著性水平下,根据抽样分布得出原假设成立时的临界值,由临界值构造拒绝域和接受域。第四,由所抽取的样本资料计算样本统计量的取值,并将其与临界值进行比较,从而对所提出的原假设做出接受还是拒绝的统计判断。
假设检验就是利用样本中所蕴含的信息对事先假设的总体情况做出推断。假设检验不是毫无根据的,而是在一定的统计概率下支持这种判断。
第 3 页,共 46 页
6. 分层抽样与整群抽样有何异同?它们分别适合于什么场合?
【答案】(1)相同点:分层抽样和整群抽样都是需要事先按某一标志对总体进行划分的随机抽样。
不同点主要在于:分层抽样的划分标志与调查标志有密切关系,而整群抽样的划分标志不一定与调查标志有 关;分层抽样在总体的每个层内随机抽样,而整群抽样在总体全部群体中随机抽取一部分群体;比较计算公式可知,分层抽样的抽样误差取决于各层总体方差的平均数,而整群抽样的抽样误差取决于总体的群间方差;分层抽 样的目的(优点)主要是缩小抽样误差,满足推断各子总体数量特征的需要,而整群抽样的目的(优点)主要是 扩大抽样单位,简化抽样组织工作。
(2)适用场合:分层抽样用于层间差异大而层内差异小时,以及为了满足分层次管理决策需要时;整群抽样用于群间差异小而群内差异大时,或只有以群体为抽样单位的抽样框时等。
7. 欲调查广州市初中学生的身高情况,随机抽取100名广州市初中学生,测量了身高。
(1)用此例说明这几个统计概念,总体(population ), 样本(sample ), 参数(pammeter ), 统计量(statistics )。
(2)请说明如何对这100例身高数据进行描述性统计分析。
【答案】(1)总体(population )是包含所研宄的全部个体(数据)的集合,它通常由所研宄的一些个体组成。 本例中的总体是广州市所有初中学生。
样本(sample )是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量(sample size)。 本例中的样本是随机抽取的100名广州市初中学生,其中样本量为100。
参数(parameter )是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。本 例中广州市所有初中学生的平均身高即是一个参数。
统计量(statistic )是用来描述样本特征的概括性数字度量。它是根据样本数据计算出来的一个量,由于 抽样是随机的,因此统计量是样本的函数。随机抽取的100名广州市初中学生的平均身高即是一个统计量。
(2)所谓描述性统计分析,就是对一组数据的各种特征进行分析,以便于描述测量样本的各种特征及其所 代表的总体的特征。主要包括集中趋势的描述,可计算身高的均值,中位数和众数,也可采用箱线图直观的反映 数据的集中趋势以及是否存在异常值;离散程度的描述,可计算身高的方差,变异系数,四分位差或极差,也可 采用折线图或散点图等直观反映数据的离散程度;分布的偏态与峰度描述,可计算偏度和峰度值,或采用茎叶图 或直方图直观的反映分布是否与正态分布或单峰偏态分布逼近。
8. 回归分析中的误差序列有何基本假定?模型参数的最小二乘估计
模型用于预测,影响预测精度的因素有哪些?
【答案】(1
)误差项是一个服从正态分布的随机变量,且独立,即)。独立性意味着对于一个特定的值,它所对应的与其他值所对应的不相关。误差项是一个期望值为
第 4 页,共 46 页 具有哪些统计特性?若