当前位置:问答库>考研试题

2017年西安财经学院统计学院统计学复试实战预测五套卷

  摘要

一、简答题

1. 说明回归模型的假设以及当这些假设不成立时的应对方法。

【答案】(1)多元回归模型的基本假定有: ①自变量

③对于自变

④误差项是一个服从正态分布的随机变量,且相互独立,即

(2)若模型中存在多重共线性时,解决的方法有:

第一,将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关。

第二,如果要在模型中保留所有的自变量,那就应该:避免根据统计量对单个参数进行检验;对因变量Y 值的推断(估计或预测)限定在自变量样本值的范围内。

若模型中存在序列相关时,解决的方法有:如果误差项不是相互独立的,则说明回归模型存在序列相关性

,这时首先要查明序列相关产生的原因。如果是回归模型选用不当,则应改用适当的回归模型;如果是缺少重要的自变量,则应増加自变量;如果以上两种方法都不能消除序列相关性,则需采用迭代法、差分法等方法处理。

若模型中存在异方差性时,解决的方法有:当存在异方差性时,普通最小二乘估计不再具有最小方差线性估计的性质,而加权最小二乘估计则可以改进估计的性质。加权最小二乘估计对误差项方差小的项加一个大的权数,对误差项方差大的项加一个小的权数,因此加强了小方差性的地位,使离差平方和中各项的作用相同。

2. 回归分析结果的评价。

【答案】对回归分析结果的评价可以从以下四个方面入手:

(1)所估计的回归系数的符号是否与理论或事先预期相一致;

(2)如果理论上认为

归方程也应该如此;

(3)用判定系数来回答回归模型在多大程度上解释了因变量取值的差异;

(4)考察关于误差项的正态性假定是否成立。因为在对线性关系进行检验和对回归系数进行?检验时,

都要求误差项服从正态分布,否则,所用的检验程序将是无效的。检验正态性的

简单方法是画出残差的直方图或正态概率图。

是非随机的、固定的,且相互之间互不相关(无多重共线性); 的方

差都相同,且不序列相关,

的所有

值②误差项s 是一个期望值为0的随机变量,即 之间的关系不仅是正的,而且是统计上显著的,那么所建立的回

3. 简述均值、众数和中位数三者之间的关系及其在实际中的应用。

【答案】(1)众数、中位数和平均数的关系

从分布的角度看,众数始终是一组数据分布的最高峰值,中位数是处于一组数据中间位置上的值,而平均数 则是全部数据的算术平均。

对于具有单峰分布的大多数数据而言,众数、中位数和平均数之间具有以下关系:

①如果数据的分布是对称的,众数中位数和平均数必定相等,即

②如果数据是左偏分布,说明数据存在极小值,必然拉动平均数向极小值一方靠,而众数和中位数由于是位 置代表值,不受极值的影响,因此三者之间的关系表现为:

③如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值一方靠,

(2)众数、中位数和平均数在实际中的应用

①众数是一组数据分布的峰值,不受极端值的影响。其缺点是具有不唯一性,一组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。众数只有在数据量较多时才有意义,当数据量较少时,不宜使用众数。 众数主要适合作为分类数据的集中趋势测度值。

②中位数是一组数据中间位置上的代表值,不受数据极端值的影响。中位数主要适合作为顺序数据的集中趋势测度值。

③平均数是对数值型数据计算的,而且利用了全部数据信息,它是实际中应用最广泛的集中趋势测度值。当数据呈对称分布或接近对称分布时,3个代表值相等或接近相等,这时则应选择平均数作为集中趋势的代表值。 但平均数的主要缺点是易受数据极端值的影响,对于偏态分布的数据,平均数的代表性较差。因此,当数据为偏态分布,特别是当偏斜程度较大时,可以考虑选择众数或中位数。

4. 如果有百分之五的人是左撇子,而小明和他弟弟都是左撇子;那么小明和他弟弟都是左撇子这个事件的 概率是不是0. 05X0. 05=0. 00257?为什么?

【答案】不是。

显然,小明和他弟弟都是左撇子的事件不是独立的,所以这种计算方法错误。

当两个事件相互独立时,

当两个事件不相互独立时

,⑴ ⑵

记事件A 为小明是左撇子,事件B 为小明的弟弟是左撇子。显然小明是左撇子和他弟弟是左

撇子这两个事件不相互独立,所以选择第二个公式计算小明和他弟弟都是左撇子这个事件的概率。

5. 利用相关系数如何判断变量之间相关的方向和相关关系的密切程度?

【答案】相关系数r 的取值范围在关关系;若

相关关系;若之间。若

表明变量之间存在正线性相表明x 与y 之间存在负线性相关关系;若表明x 与y 之间为完全负线性相关关系。可见当表明x 与y 之间为完全正线性时,y 的取值完全依赖于X ,二者之间即为函数关系;当r=0时,说明两者之间不存在线性相关关系,但可能存在其他非线性

相关关系。

说明两个变量之间的线性关系越强

时. 可视为中度相关;说明两个变量之间的线性关系越弱。对于一时,

可视为高度相关时,说明两个变量之间的个具体的r 取值,根据经验可将相关程度分为以下几种情况:

当时。视为低度相关;

相关程度极弱,可视为不相关。但这种解释必须建立在对相关系数的显著性检验的基础之上。

6. 统计数据质量的基本标准是什么?

【答案】(1)准确:用数字语言来反映客观实际;(2)快速:统计信息服务必须具有时效性和紧迫性;(3)完整:调查单位没有遗漏,调查项目没有缺陷,资料数据齐全;(4)精练:统计信息具有针对性、有效性、精确性。

二、计算题

7. 已知某种病菌在全人口的带菌率为

和在检测时,

带菌者呈阳性和阴性反应的概率分别为和随机地抽出一个人进行检

分别代表而不带菌者呈阳性和阴性反应的概率分别为测,求结果为阳性的概率;已知某人检测的结果为阳性,求这个人是带菌者的条件概率。 【答案】设事件分别代表“一个人带菌”,“一个人不带菌”,事件

“检测结果为阳性”,“检测结果为阴性”。

(1)根据全概率公式得

即随机地抽出一个人进行检测,结果为阳性的概率为

(2)根据条件概率公式

即已知某人检测结果为阳性,这个人是带菌者的条件概率是

8. 设总体的密度函数为:为其子样。

1)求参数的极大似然估计量。

2)证明子样平均及都是的无偏估计量,问哪个较有效?

【答案】(1)求解未知参数的极大似然估计量,

可按如下步骤进行:

①写出似然函数。