2017年广西民族大学统计学(跨学科加试)复试实战预测五套卷
● 摘要
一、简答题
1. 简述描述离散程度的统计量和适用类型。
【答案】衡量数据离散程度的统计量主要有极差、平均差、方差和标准差,其中最常用的是方差和标准差。
(1)极差是指一组数据的最大值与最小值之差。用R 表示,其计算公式为:
极差是描述数据离散程度的最简单测度值,计算简单,易于理答,但它容易受极端值的影响。由于极差只是利用了一组数据两端的信息,不能反映出中间数据的分散状况,因而不能准确描述出数据的分散程度。
(2)平均差也称平均绝对离差,它是各变量值与其平均数离差绝对值的平均数。平均差以平均数为中心,反映了每个数据与平均数的平均差异程度,它能全面准确地反映一组数据的离散状况。平均差越大,说明数据的离散程度越大;反之说明数据的离散程度小。为了避免离差之和等于零而无法计算平均差这一问题,平均差在计算时对离差取了绝对值,以离差的绝对值来表示总离差,这就给计算带来了不便,因而在实际中应用较少。但平均差的实际意义比较清楚,容易理答。
(3)方差是各变量值与其平均数离差平方的平均数。它在数学处理上是通过平方的办法消去离差的正负号, 然后再进行平均,方差开方后即得到标准差,方差或标准差能较好地反映出数据的离散程度,是实际中应用最广泛的离散程度测度值。与方差不同的是,标准差是具有量纲的,它与变量值的计量单位相同,其实际意义要比方差清楚。因此,在对实际问题进行分析时更多地使用标准差。
2. 构建综合评价指数时需要考虑哪些方面的问题?
【答案】构建综合评价指数需要考虑如下几个方面的问题:
(1)进行理论研宄,其中包括统计指标理论以及统计指标体系的理论研宄,以便为确定所需的评价指标提供一定的理论依据。
(2)建立科学的评价指标体系。所建立的指标体系是否科学与合理,直接关系到评价结果的科学性和准确性。建立指标体系,首先应进行必要的定性研宄,对所研宄的问题进行深入的分析,尽量选择那些具有一定综合意义的代表性指标;其次,应尽可能运用多元统计的方法进行指标的筛选,以提高指标的客观性。
(3)评价方法研宄,主要包括综合评价指数的构造方法、指标的赋权方法以及各种评价方法的比较等。
3. 请给出你所知道的概率抽样的组织方式。
【答案】概率抽样也称随机抽样,是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。调查的实践中经常采用的概率抽样方式有以下几种:
(1)简单随机抽样。简单随机抽样指从包括总体N 个单位的抽样框中随机地、一个一个地抽取n 个单位作为样本,每个单位入样的概率是相等的;
(2)分层抽样。分层抽样是指将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、 随机地抽取样本,将各层的样本结合起来,对总体的目标量进行估计;
(3)整群抽样。整群抽样是指首先将总体中若干个单位合并为组,这样的组称为群,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查;
(4)系统抽样。系统抽样是指将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位;
(5)多阶段抽样。采用类似整群抽样的方法,首先抽取群,但并不是调查群内的所有单位,而是再进一步抽样,从选中的群中抽取出若干个单位进行调查;因为取得这些接受调查的单位需要两个步骤,所以将这种抽样方式称为二阶段抽样;这里,群是初级抽样单位,第二阶段抽取的是最终抽样单位。将这种方法推广,使抽样的段数增多,就称为多阶段抽样。
4. 什么是置信区间估计和预测区间估计?二者有何区别?
【答案】(1)置信区间估计,它是对x 的一个给定值_求出y 的平均值的估计区间,这一区间称为置信区间;预测区间估计,它是对x 的一个给定值求出y 的一个个别值的估计区间,这一区间称为预测区间。
(2)置信区间估计和预测区间估计的区别:置信区间估计是求y 的平均值的估计区间,而预测区间估计是求y 的一个个别值的估计区间;
对同一个
区间要比置信区间宽一些。
5. 简述季节指数的计算步骤。
【答案】以移动平均趋势剔除法为例,计算季节指数的基本步骤为:
,(1)计算移动平均值(如果是季度数据采用4项移动平均,月份数据则采用12项移动平均)
并将其结果进行“中心化”处理,也就是将移动平均的结果再进行一次2项的移动平均,即得出“中心化移动平均值”
(2)计算移动平均的比值,也称为季节比率,即将序列的各观察值除以相应的中心化移动平均值,然后再计算出各比值的季度(或月份)平均值。
(3)季节指数调整。由于各季节指数的平均数应等于1或100%,若根据第2步计算的季节比率的平均值不等于1时,则需要进行调整。具体方法是:将第(2)步计算的每个季节比率的平均值除以它们的总平均值。
这两个区间的宽度也是不一样的,预测
6. 回归分析中的误差序列有何基本假定?模型参数的最小二乘估计
模型用于预测,影响预测精度的因素有哪些? 具有哪些统计特性?若
)。独立【答案】(1
)误差项是一个服从正态分布的随机变量,且独立,即
为0的随机变量,即线性函数;②无偏性
具有最小方差的估计量。 对于所有的
值分别是的方差都相同。 性意味着对于一个特定的值,它所对应的与其他值所对应的不相关。误差项是一个期望值(2
)模型参数的最小二乘估计的统计特性:①线性,即估计量的无偏估计;③有效性为随机变量的是所有线性无偏估计量中
(3)影响预测精度的因素有:①预测的信度要求。同样情况下,要求预测的把握度越高,贝_应的预测区间就越宽,精度越低;②总体y 分布的离散程度越大,相应的预测区间就越宽,预测精度越低;③样本观测点的多少n 。n 越大,相应的预测区间就越窄,预测精度越高;④样本观测点中,解释变量x 分布的离散度。x 分布越离散,预测精度越高;⑤预测点离样本分布中心的距离。预测点越远离样本分布中心预测区间越宽,精度越低,越接近样本分布中心间越窄,精度越高。
区
二、计算题
7. 对某地打土方的工人按重复抽样的方法抽取144个工人进行调查,得出平均每人完成工作量为立方米,标准差为
要求计算:
(1)以的概率保证,计算全部工人平均完成工作量将落在什么范围之内。
立方米时,应抽取多少工人。 (2)按上述(1)的条件,当抽样误差不超过
果有何关系。
【答案】(1)在
区间为:
即
(2)
(3)准确性増加一倍,即立方米。 即故应至少抽取900人。 缩小到原来的所以n 应该扩大到原来的四倍,即应抽取的概率保证下,则全部工人平均完成工作量的置信立方米。 (3)按照上述(2)的条件,如果准确性增加一倍,又应抽取多少工人? 说明它与(2)的结3600人。
8. 下面是CAILY 大学田径队纪录的1/4英里和1英里赛跑每次所用时间的数据(以分钟计)。
根据这些数据,一个教练评论说,英里所用的时间已经趋于一致了,1英里所用时间差