2017年河南大学统计学(同等学力加试)复试仿真模拟三套题
● 摘要
一、简答题
1. 方差分析中的基本假定。
【答案】方差分析中有三个基本假定:(1)每个总体都应服从正态分布。也就是说,对于因素的每一个水平,其观测值是来自正态分布总体的简单随机样本;(2)各个总体的方差立的。
2. 要检验多个总体均值是否相等时,为什么不作两两比较,而用方差分析方法?
【答案】方差分析不仅可以提高检验的效率,同时由于它是将所有的样本信息结合在一起,也增加了分析的可靠性。
检验多个总体均值是否相等时,如果作两两比较,则需要进行多次的检验。随着增加个体显
著性检验的次数,偶然因素导致差别的可能性也会増加(并非均值真的存在差别)。而方差分
析方法则是同时考虑所有的样本,因此排除了错误累积的概率,从而避免拒绝一个真实的原假设。
3. 二项分布与超几何分布的适用场合有什么不同?它们的均值和方差有什么区别?
【答案】(1)从理论上讲,二项分布只适合于重复抽样(即从总体中抽出一个个体观察完后放回总体,然后再抽下一个个体)。但在实际抽样中,很少采用重复抽样。不过,当总体的元素数目况很大而样本量, 相对于A T 来说很小时,二项分布仍然适用。
但如果是采用不重复抽样,各次试验并不独立,成功的概率也互不相等,而且总体元素的数目很小或样本量 «相对于W 来说较大时,二项分布就不再适用,这时,样本中“成功”的次数则服从超几何概率分布。
(2)若X 服从二项分布若Y 服从超几何分布则则 必须相同。也就是说,对于各组观察数据,是从具有相同方差的正态总体中抽取的;(3)观测值是独
4. 正态分布所描述的随机现象有什么特点?为什么许多随机现象服从或近似服从正态分布?
【答案】(1)正态分布所描述的随机现象具有如下特点: ①正态曲线的图形是关于的对称钟形曲线,且峰值在处;
②正态分布的两个参数均值和标准差一旦确定,正态分布的具体形式也就唯一确定,不同参数取值的 正态分布构成一个完整的“正态分布族”。
③正态分布的均值可以是实数轴上的任意数值,它决定正态曲线的具体位置,
标准差相同而均值不同 的正态曲线在坐标轴上体现为水平位移。 ④正态分布的标准差为大于零的实数,它决定正态曲线的“陡_”或“扁平”程度。
第 2 页,共 24 页 越大,正
态曲线 越扁平;越小,正态曲线越陡峭。 ⑤当的取值向横轴左右两个方向无限延伸时,正态曲线的左右两个尾端也无限渐近横轴,但理论上永远不会与之相父。
⑥与其他连续型随机变量相同,正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1。
(2)如果原有总体是正态分布,那么,无论样本量的大小,样本均值的抽样分布都服从正态分布。若原有 总体的分布是非正态分布,随着样本量的增大(通常要求
方差为总体方差的),不论原来的总体是否服从正态分布,样本均值的抽样分布都将趋于正态分布,其分布的数学期望为总体均值这就是统计上著名的中心极限定理。因此许多随机现象服从或近似服从正态分布。
5. 说明回归模型的假设以及当这些假设不成立时的应对方法。
【答案】(1)多元回归模型的基本假定有: ①自变量
③对于自变
量
④误差项是一个服从正态分布的随机变量,且相互独立,即
(2)若模型中存在多重共线性时,解决的方法有:
第一,将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关。
第二,如果要在模型中保留所有的自变量,那就应该:避免根据统计量对单个参数进行检验;对因变量Y 值的推断(估计或预测)限定在自变量样本值的范围内。
若模型中存在序列相关时,解决的方法有:如果误差项不是相互独立的,则说明回归模型存在序列相关性
,这时首先要查明序列相关产生的原因。如果是回归模型选用不当,则应改用适当的回归模型;如果是缺少重要的自变量,则应増加自变量;如果以上两种方法都不能消除序列相关性,则需采用迭代法、差分法等方法处理。
若模型中存在异方差性时,解决的方法有:当存在异方差性时,普通最小二乘估计不再具有最小方差线性估计的性质,而加权最小二乘估计则可以改进估计的性质。加权最小二乘估计对误差项方差小的项加一个大的权数,对误差项方差大的项加一个小的权数,因此加强了小方差性的地位,使离差平方和中各项的作用相同。
6. 简述非抽样误差类型。
【答案】非抽样误差是相对抽样误差而言的,是指除抽样误差之外的,由于其他原因引起的样本观察结果与总体 真值之间的差异。无论是概率抽样、非概率抽样,或是在全面调查中,都有
第 3 页,共 24 页 是非随机的、固定的,且相互之间互不相关(无多重共线性); 的方
差都相同,且不序列相关,
即
的所有
值②误差项s 是一个期望值为0的随机变量,即
可能产生非抽样误差。非抽样误差有以下几种类型:
(1)抽样框误差,是指抽样框中的单位与研宄总体的单位不存在一一对应的关系,使用这样的抽样框抽取样本就会出现一些错误。
(2)回答误差,是指被调查者在接受调查时给出的回答与真实情况不符。导致回答误差的原因有多种,主要有理答误差、记忆误差和有意识误差。
(3)无回答误差,是指被调查者拒绝接受调查,调查人员得到的是一份空白的答卷。
(4)调查员误差,是指由于调查员的原因而产生的调查误差。
(5)测量误差,是指如果调查与测量工具有关,则很可能产生测量误差。
二、计算题
7. 某城市的餐饮业管理协会估计,餐馆的月平均用水量为100吨。一家研宄机构认为实际用水
,量要高于这 个数字。该研宄机构随机抽取了 36家餐馆,记录了每个餐馆的月用水量(单位:吨)
经初步计算得到样本数据的部分描述统计量如表所示。
表
(1)确定餐馆月平均用水量95%的置信区间。
(2)餐馆实际月平均用水量在你所建立的置信区间里吗?请说明原因。
(3)如果要检验研宄机构的看法是否正确,应该如何建立原假设和备择假设?并谈谈拒绝和不拒绝原假设的含义。
(4)在上面的估计和检验中,你使用了统计中的哪一个重要定理?请简要解释这一定理。
【答案】(1)已知
所以餐馆月平均用水量95%的置信区间为:
即 由于总体方差未知,但为大样本,
(2)餐馆实际月平均用水量不一定包含在所建立的置信区间里。由于用该样本所构造的区间是一个特定的区间,而不再是随机区间,所以无法知道这个样本所产生的区间是否包含总体参数的真值。
(3)设为餐馆月平均用水量。建立的原假设和备择假设分别为:
拒绝原假设意味着所构造的与原假设相矛盾的小概率事件发生了,即结论
不超过为真出错的概率不拒绝原假设意味着所构造的与原假设相矛盾的小概率事件没有发生,但可能还有许多
第 4 页,共 24 页 其他的与原假设矛盾的小概率事件,我们没有也无法证实所有的这些小概率事件会不会发生。因