当前位置:问答库>考研试题

2017年浙江工商大学统计学理论与实务之统计学复试实战预测五套卷

  摘要

一、简答题

1. 何谓统计量?

【答案】设

函数

又称出分布、t 分布、F 分布是不是统计量?它们在统计分析中各有何用处? 是从总体X 中抽取的容量为n 的一个样本,如果由此样本构造一个不依赖于任何未知参数,则称函数为样本统计量。当获得样本的一组具体观测值的数值,就获得一个具体的统计量值。

从以上统计量的定义可以看出,当.

赖于任何未知参数时,则.

未知参数,则它们就不是统计量。

分布:分布可以用来构造f 分布与F 分布,并且在假设检验与列联分析中做检验统计量。

t 分布:一般当时,f 分布与标准正态分布就非常接近。分布的诞生对于统计学中小样本理论和应用有着重要的促进作用。f 分布在假设检验与线性回归显著性检验中做检验统计量。

F 分布:在比较两个总体方差的假设检验时通常用F 分布,且F 分布在线性回归显著性检验与方差分析中做很重要的检验统计量。

2. 简述系数、c 系数、系数的各自特点。

【答案】(1)

相关系数是描述

公式为:式中,列联表数据相关程度最常用的一种相关系数。它的计算《为列联表中的总频数,也即样本量。说系数适合

这个范围。

列联表的情况。C 系数的分布、t 分布、F 分布是由样本构造的函数,而且不依分布、t 分布、F 分布中含有分布、t 分布、F 分布就是统计量;若是一个统计量。通常,时,代入T ,计算列联表,是因为对于

计算公式为:

列联表中的数据,计算出的系数可以控制在(2)列联相关系数又称列联系数,简称c 系数,主要用于大于

当列联表中的两个变量相互独立时,系数c=0, 但它不可能大于1。c 系数的特点是,其可能的最大值依赖于列联表的行数和列数,且随着R 和C 的增大而增大。

(3)克莱默提出了 V 系数。V 系数的计算公式为:

当两个变量相互独立时,

果列联表中有一维为2,即

当两个变量完全相关时,所以V 的取值在之间。如则V 值就等于值。

3. 欲调查广州市初中学生的身高情况,随机抽取100名广州市初中学生,测量了身高。

(1)用此例说明这几个统计概念,总体(population ), 样本(sample ), 参数(pammeter ), 统计量(statistics )。

(2)请说明如何对这100例身高数据进行描述性统计分析。

【答案】(1)总体(population )是包含所研宄的全部个体(数据)的集合,它通常由所研宄的一些个体组成。 本例中的总体是广州市所有初中学生。

样本(sample )是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量(sample size)。 本例中的样本是随机抽取的100名广州市初中学生,其中样本量为100。

参数(parameter )是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。本 例中广州市所有初中学生的平均身高即是一个参数。

统计量(statistic )是用来描述样本特征的概括性数字度量。它是根据样本数据计算出来的一个量,由于 抽样是随机的,因此统计量是样本的函数。随机抽取的100名广州市初中学生的平均身高即是一个统计量。

(2)所谓描述性统计分析,就是对一组数据的各种特征进行分析,以便于描述测量样本的各种特征及其所 代表的总体的特征。主要包括集中趋势的描述,可计算身高的均值,中位数和众数,也可采用箱线图直观的反映 数据的集中趋势以及是否存在异常值;离散程度的描述,可计算身高的方差,变异系数,四分位差或极差,也可 采用折线图或散点图等直观反映数据的离散程度;分布的偏态与峰度描述,可计算偏度和峰度值,或采用茎叶图 或直方图直观的反映分布是否与正态分布或单峰偏态分布逼近。

4. 简述描述离散程度的统计量和适用类型。

【答案】衡量数据离散程度的统计量主要有极差、平均差、方差和标准差,其中最常用的是方差和标准差。

(1)极差是指一组数据的最大值与最小值之差。用R 表示,其计算公式为:

极差是描述数据离散程度的最简单测度值,计算简单,易于理答,但它容易受极端值的影响。由于极差只是利用了一组数据两端的信息,不能反映出中间数据的分散状况,因而不能准确描述出数据的分散程度。

(2)平均差也称平均绝对离差,它是各变量值与其平均数离差绝对值的平均数。平均差以平均数为中心,反映了每个数据与平均数的平均差异程度,它能全面准确地反映一组数据的离散状况。平均差越大,说明数据的离散程度越大;反之说明数据的离散程度小。为了避免离差之和等于零而无法计算平均差这一问题,平均差在计算时对离差取了绝对值,以离差的绝对值来表示总离差,这就给计算带来了不便,因而在实际中应用较少。但平均差的实际意义比较清楚,容易理答。

(3)方差是各变量值与其平均数离差平方的平均数。它在数学处理上是通过平方的办法消去离差的正负号, 然后再进行平均,方差开方后即得到标准差,方差或标准差能较好地反映出数据

的离散程度,是实际中应用最广泛的离散程度测度值。与方差不同的是,标准差是具有量纲的,它与变量值的计量单位相同,其实际意义要比方差清楚。因此,在对实际问题进行分析时更多地使用标准差。

5. 简述复合型时间序列的预测步骤。

【答案】复合型序列是指含有趋势性、季节性、周期性和随机成分的序列。对这类序列预测方法通常是将时间序列的各个因素依次分解出来,然后再进行预测,分解法预测通常按下面的步骤进行:

(1)确定并分离季节成分。计算季节指数,以确定时间序列中的季节成分。然后将季节成分从时间序列中分离出去,即用每一个时间序列观测值除以相应的季节指数,以消除季节性;

(2)建立预测模型并进行预测。对消除了季节成分的时间序列建立适当的预测模型,并根据这一模型进行预测;

(3)计算出最后的预测值。用预测值乘以相应的季节指数,得到最终的预测值。

6. 回归分析结果的评价。

【答案】对回归分析结果的评价可以从以下四个方面入手:

(1)所估计的回归系数的符号是否与理论或事先预期相一致;

(2)如果理论上认为

归方程也应该如此;

(3)用判定系数来回答回归模型在多大程度上解释了因变量取值的差异;

(4)考察关于误差项的正态性假定是否成立。因为在对线性关系进行检验和对回归系数进行?检验时,

都要求误差项服从正态分布,否则,所用的检验程序将是无效的。检验正态性的

简单方法是画出残差的直方图或正态概率图。

之间的关系不仅是正的,而且是统计上显著的,那么所建立的回

二、计算题

7. 某企业2007年11月1日对12名员工的抽样调查表明,他们从居住地到达工作地点花费的时间如下(分钟):

10,55,70,25,30,45,30,50,25,40,55, 90

(1)计算数据的均值、中位数和众数。你认为哪一个结果最能反映这组数据的一般水平?为什么?

(2)已知总体服从正态分布,

样本标准差等于计算总体均值95%

的置信区间。

(3)根据以上数据,在5%的显著性水平下能否认为总体中职工的平均上班时间等于35分钟?

【答案】(1)数据的均值为: