当前位置:问答库>考研试题

2017年中国矿业大学统计学(同等学力加试)复试仿真模拟三套题

  摘要

一、简答题

1. 给出显著性检验中,P 值的含义,以及如何利用P 值决定是否拒绝原假设。

【答案】P 值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P 值很小,说明这种情况发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设。P 值越小,我们拒绝原假设的 理由就越充分。

从研宄总体中抽取一个随机样本,计算检验统计量的值和概率P 值,即在假设为真的前提下,检验统计量大于或等于实际观测值的概率。如果数取值;如果

即一般以

为显著

结果更倾向于接受假定的参数取值。

为非常显著,其含义是样本间的差异由抽样误差所致的概率

小于0.05或0.01。但是,P 值不能赋予数据任何重要性,只能说明某事件发生的机率。

说明是较强的判定结果,拒绝假定的参

说明

说明是较弱的判定结果,拒绝假定的参数取值;如果

样本间的差异比时更大,这种说法是错误的。

2. 在投掷一枚均匀硬币进行打赌时,出现正面时投掷者赢5元,出现反面时输3元,记投掷者赢钱数为X 。试写出此问题的样本空间

【答案】记赢钱数为则的函数定义为:

则有

于是X 的概率分布为:

以及随机变量X 的定义和概率分布。

其中

为投掷后出现的两种结果,令

3. 在多元线性回归中,为什么我们对整个回归方程进行检验后,还要对每个回归系数来进行检验呢?

【答案】在多元线性回归中,线性关系检验主要是检验因变量同多个自变量的线性关系是否显著,在个自变量中,只要有一个自变量与因变量的线性关系显著,F 检验就能通过,但这不一定意味着每个自变量与因变量的关系都显著。回归系数检验则是对每个回归系数分别进行单独的检验,它主要用于检验每个自变量对因变量的影响是否都显著。如果某个自变量没有通过检验,

就意味着这个自变量对因变量的影响不显著,也许就没有必要将这个自变量放进回归模型中了。

4. 简述均值、众数和中位数三者之间的关系及其在实际中的应用。

【答案】(1)众数、中位数和平均数的关系

从分布的角度看,众数始终是一组数据分布的最高峰值,中位数是处于一组数据中间位置上的值,而平均数 则是全部数据的算术平均。

对于具有单峰分布的大多数数据而言,众数、中位数和平均数之间具有以下关系: ①如果数据的分布是对称的,众数

中位数

和平均数

必定相等,即

②如果数据是左偏分布,说明数据存在极小值,必然拉动平均数向极小值一方靠,而众数和中位数由于是位 置代表值,不受极值的影响,因此三者之间的关系表现为:

③如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值一方靠,

(2)众数、中位数和平均数在实际中的应用

①众数是一组数据分布的峰值,不受极端值的影响。其缺点是具有不唯一性,一组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。众数只有在数据量较多时才有意义,当数据量较少时,不宜使用众数。 众数主要适合作为分类数据的集中趋势测度值。

②中位数是一组数据中间位置上的代表值,不受数据极端值的影响。中位数主要适合作为顺序数据的集中趋势测度值。

③平均数是对数值型数据计算的,而且利用了全部数据信息,它是实际中应用最广泛的集中趋势测度值。当数据呈对称分布或接近对称分布时,3个代表值相等或接近相等,这时则应选择平均数作为集中趋势的代表值。 但平均数的主要缺点是易受数据极端值的影响,对于偏态分布的数据,平均数的代表性较差。因此,当数据为偏态分布,特别是当偏斜程度较大时,可以考虑选择众数或中位数。

5. 重复抽样和不重复抽样相比,抽样均值抽样分布的标准差有什么不同?

【答案】样本均值的方差与抽样方法有关。在重复抽样条件下,样本均值的方差为总体方差的

去修正重复抽样时样本均值

在不重复抽样条件下,

样本均值的方差则需要用修正系数的方差,即

对于无限总体进行不重复抽样时,可以按重复抽样来处理,因为其修正系数对于有限总体,

当N 很大而n 很小时,其修正系数

趋向于1;

也趋向于1,这时样本均值的方差也可以按公式

来计算。

6. 简述标准化值的意义及计算公式。

【答案】变量值与其平均数的离差除以标准差后的值称为标准分数,也称标准化值或分数。其计算公式为:

标准差。

标准分数可以测量每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有离群数据。比如, 如果某个数值的标准分数为

就知道该数值低于平均数1.5倍的标准差。在对

多个具有不同量纲的变量进行处理时,常常需要对各变量进行标准化处理。实际上,z 分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数据分布的形状,而只是将该组数据变为平均数为0, 标准差为1。

式中为变量

的标准化值,是该组数据均值,s 为该组数据的

二、计算题

7. 已知我国1978〜1992年针织品零售量数据如表1所示。

1

试配合二次曲线趋势方程,并预测1993年的零售量,作图与原数列比较。(可令【答案】记年份1978年

年为

得:

2

设二次曲线趋势方程为

) 年

利用Excel 进行回归分析可

故二次曲线趋势方程为售量的预测值为:

当时,可以得到1993年零