当前位置:问答库>考研试题

2018年长沙理工大学经济与管理学院849统计学考研基础五套测试题

  摘要

一、简答题

1. 给出在一元线性回归中:

(1)相关系数的定义和直观意义;

(2)判定系数的定义和直观意义;

(3)相关系数和判定系数的关系。

【答案】(1)相关系数是根据样本数据计算的度量两个变量之间线性关系强度的统计量。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为

称为样本相关系数,记为r 。样本

相关系数的计算公式为:

按上述计算公式计算的相关系数也称为线性相关系数,或称为相关系数。r 仅仅是x 若是根据样本数据计算的,则与y 之间线性关系的一个度量,它不能用于描述非线性关系。这意味着,r=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系,它们之间可能存在非线性相关关系。变量之间的非线性相关程度较大时,就可能会导致r=0。因此,当r=0或很小时,不能轻易得出两个变量之间不存在相关关系的结论,而应结合散点图做出合理的答释。

(2)回归平方和占总平方和的比例称为判定系数,记为其计算公式为:

判定系数测度了回归直线对观测数据的拟合程度。

的取值范围是越接近于1, 表明回归平方和占总平方和的比例越大,回归直线与各观测点越接近,用x 的变化来答释y 值变

差的部分就越多,回归直线的拟合程度就越好;反之,越接近于0, 回归直线的拟合程度就越差。

(3)相关系数和判定系数都是用来表明X 与Y 的关系,即X 对Y 的拟合程度。在一元线性回归中,相关系数实际上是判定系数的平方根。相关系数取值范围在卜之间。判定系数取值范围在[0, 1]之间。

2. 简述概率抽样与非概率抽样的区别。

【答案】(1)概率抽样也称随机抽样,是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。

非概率抽样是相对于概率抽样而言的,指抽取样本时不是依据随机原则,而是根据研宄目的对数据的要求, 采用某种方式从总体中抽出部分单位对其实施调查。

(2)概率抽样与非概率抽样的区别:概率抽样是依据随机原则抽选样本,这时样本统计量的理论分布是存 在的,因此可以根据调查的结果对总体的有关参数进行估计,计算估计误差,得到总体参数的置信区间,并且在 进行抽样设计时,对估计的精度提出要求,计算为满足特定精度要求所要的样本量。而非概率抽样不是依据随机 原则抽选样本,样本统计量的分布是不确切的,因而无法使用样本的结果对总体相应的参数进行推断。

3. 说明计算统计量的步骤。

【答案】计算统计量的步骤:

(1)用观察值减去期望值

(2)将

(3)将平方结果之差平方; 除以

(4)将步骤(3)的结果加总,即得:

4. 统计数据质量的基本标准是什么?

【答案】(1)准确:用数字语言来反映客观实际;(2)快速:统计信息服务必须具有时效性和紧迫性;(3)完整:调查单位没有遗漏,调查项目没有缺陷,资料数据齐全;(4)精练:统计信息具有针对性、有效性、精确性。

5. 在显著性检验过程中,经常遇到值这一概念,试回答以下问题:

(1)值能告诉我们什么信息?

(2)当相应的值较小时为什么要拒绝原假设?

(3)显著性水平与值有何区别?

【答案】如果原假设为真,所得到的样本结果会像实际观测结果那么极端或更极端的概率,称为值,也称为观察到的显著性水平。

(1)值是当原假设正确时,得到所观测的数据的概率。如果原假设是正确的话,值告诉我们这样的观测数据会有多么的不可能得到。相当不可能得到的数据,就是原假设不对的合理证据。

(2)值是反映实际观测到的数据与原假设明实际观测到的数据与之间不一致程度的一个概率值。值越小,说之间不一致的程度就越大,检验的结果也就越显著。

(3)是犯第I 类错误的上限控制值,它只能提供检验结论可靠性的一个大致范围,而对于一个特定的假设检验问题,却无法给出观测数据与原假设之间不一致程度的精确度量。也就是说,

仅从显著性水平来比较,

如果选择的值相同,

所有检验结论的可靠性都一样。而值可以测量出样本观测数据与原假设中假设的值的偏离程度。

6. 简述季节指数的计算步骤。

【答案】以移动平均趋势剔除法为例,计算季节指数的基本步骤为:

,(1)计算移动平均值(如果是季度数据采用4项移动平均,月份数据则采用12项移动平均)

并将其结果进行“中心化”处理,也就是将移动平均的结果再进行一次2项的移动平均,即得出“中心化移动平均值”

(2)计算移动平均的比值,也称为季节比率,即将序列的各观察值除以相应的中心化移动平均值,然后再计算出各比值的季度(或月份)平均值。

(3)季节指数调整。由于各季节指数的平均数应等于1或100%,若根据第2步计算的季节比率的平均值不等于1时,则需要进行调整。具体方法是:将第(2)步计算的每个季节比率的平均值除以它们的总平均值。

二、计算题

7. 某企业2007年11月1日对12名员工的抽样调查表明,他们从居住地到达工作地点花费的时间如下(分钟):

10,55,70,25,30,45,30,50,25,40,55, 90

(1)计算数据的均值、中位数和众数。你认为哪一个结果最能反映这组数据的一般水平?为什么?

(2)已知总体服从正态分布,

样本标准差等于计算总体均值95%

的置信区间。

(3)根据以上数据,在5%的显著性水平下能否认为总体中职工的平均上班时间等于35分钟?

【答案】(1)数据的均值为:

将表中数据排序可得:

中位数的位置是

由分组数据可以看到众数有三个,分别是25、30和55。

由于众数有多个,且众数只有在数据量较多时才有意义,当数据量较少时,不宜使用众数来反映数据的一般水平。而平均数的主要缺点是易受数据极端值的影响,对于偏态分布的数据,平

即在第6个数值40和第7个数值45之间,所以,数据的中位数