当前位置:问答库>考研试题

2017年华中科技大学数学与统计学院432统计学[专业硕士]考研题库

  摘要

一、简答题

1. 如果有百分之五的人是左撇子,而小明和他弟弟都是左撇子;那么小明和他弟弟都是左撇子这个事件的 概率是不是0. 05X0. 05=0. 00257?为什么?

【答案】不是。

显然,小明和他弟弟都是左撇子的事件不是独立的,所以这种计算方法错误。

当两个事件相互独立时,

当两个事件不相互独立时

,⑴ ⑵

记事件A 为小明是左撇子,事件B 为小明的弟弟是左撇子。显然小明是左撇子和他弟弟是左

撇子这两个事件不相互独立,所以选择第二个公式计算小明和他弟弟都是左撇子这个事件的概率。

2. 在盒子图(箱线图)的作图中,会使用哪些描述指标。

,是利用数据中的五个统计量:最【答案】箱线图(Boxplot )也称箱须图(Box-whiskerPlot )

小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。由上面

叙述可知,箱线图使用的描述指标有:最小值、第 一四分位数、中位数、第三四分位数与最大值。

3. 简述平稳序列和非平稳序列的含义。

【答案】(1)平稳序列是基本上不存在趋势的序列。这类序列中的观察值基本上在某个固定的水平上波动,虽然在不同的时间段波动的程度不同,但并不存在某种规律。其波动可以看成是随机的。

(2)非平稳序列包含趋势、季节性或周期性的序列,它可能只含有其中的一种成分,也可能是几种成分的组合。因此,非平稳序列可以分为有趋势的序列、有趋势和季节性的序列、几种成分混合而成的复合型序列。

4. 多元线性回归模型中有哪些基本的假定?

【答案】多元回归模型的基本假定有:

(1)自变量

(3)对于自变

(4)误差项是一个服从正态分布的随机变量,且相互独立,即

第 2 页,共 43 页 ; 是非随机的、固定的,且相互之间互不相关(无多重共线性) 的方

差都相同,且不序列相关,

即 的所有

值(2)误差项是一个期望值为0的随机变量,即

5. 给出显著性检验中,P 值的含义,以及如何利用P 值决定是否拒绝原假设。

【答案】P 值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P 值很小,说明这种情况发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设。P 值越小,我们拒绝原假设的 理由就越充分。

从研宄总体中抽取一个随机样本,计算检验统计量的值和概率P 值,即在假设为真的前提下,检验统计量大于或等于实际观测值的概率。如果

数取值;如果

即一般以为显著

,结果更倾向于接受假定的参数取值。

为非常显著,其含义是样本间的差异由抽样误差所致的概率

时小于0.05或0.01。但是,P 值不能赋予数据任何重要性,只能说明某事件发生的机率。

样本间的差异比时更大,这种说法是错误的。

6. 概述相关分析与回归分析的联系与区别。

【答案】(1)相关分析和回归分析的联系

它们具有共同的研宄对象,都是对变量间相关关系的分析,二者可以相互补充。相关分析可以表明变量间相关关系的性质和程度,只有当变量间存在相当程度的相关关系时,进行回归分析去寻求变量间相关的具体数学形式才有实际的意义。同时,在进行相关分析时,如果要具体确定变量间相关的具体数学形式,又要依赖于回归分析,而且在多个变量的相关分析中相关系数的确定也是建立在回归分析基础上的。

(2)相关分析和回归分析的区别

①从研究目的上看,相关分析是用一定的数量指标(相关系数)度量变量间相互联系的方向和程度;回归分析却是要寻求变量间联系的具体数学形式,是要根据自变量的固定值去估计和预测因变量的平均值。

②从对变量的处理看,相关分析对称地对待相互联系的变量,不考虑二者的因果关系,也就是不区分自变量和因变量,相关的变量不一定具有因果关系,均视为随机变量;回归分析是在变量因果关系分析的基础上研宄其中的自变量的变动对因变量的具体影响,必须明确划分自变量和因变量,所以回归分析中对变量的处理是不对称的,在回归分析中通常假定自变量在重复抽样中是取固定值的非随机变量,只有因变量是具有一定概率分布的随机变量。

7. 简述方差分析的基本原理。

【答案】方差分析通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。在方差分析中,数据的误差是用平方和来表示的,总平方和可以分解为组间平方和与组内平方和。组内误差只包含随机误差,而组间误差既包括随机误差,也包括系统误差。如果组间误差中只包含随机误差,而没有系统误差。这时,组间误差与组内误差经过平均后的数值就应该很接近,它们的比值就会接近1; 反之,如果在组间误差中除了包含随机误差外,还会包含系统误差,这时组间误差平均后的数值就会大于组内误差平均后的数值,它们之间的比值就会大于

第 3 页,共 43 页 说明是较强的判定结果,拒绝假定的参说明说明是较弱的判定结果,拒绝假定的参数取值;如果

1。当这个比值大到某种程度时,就可以说因素的不同水平之间存在着显著差异,也就是自变量对因变量有影响。

8. 在什么条件下用正态分布近似计算二项分布的概率效果比较好?

【答案】当样本量n 越来越大时,二项分布越来越近似服从正态分布。这时,二项随机变量的直方图的形状接近正态分布的图形形状。即使对于小样本,当

然相当好,此时随机变量X 的分布是相对于其平均值

大于或等于5时,近似的效果就相当好。

时,二项分布的正态近似仍和都对称的。当p 趋于0或1时,二项分布将呈现出偏态,但当n 变大时,这种偏斜就会消失。一般来说, 只要当n 大到使二、计算题

9. 某位职员每天上班有两种方法:公共交通和自己开车。每种方法所需的时间纪录的样本数据如表所示。时间以分钟为单位。

(1)哪种方法更好?试解释之。

(2)画出每种方法的箱图。两个箱图的比较结果是否支持你的结论?

【答案】(1)公共交通所需时间的平均数与标准差分别为:

自己开车所需时间的平均数与标准差分别为:

第 4 页,共 43 页