2018年东北财经大学应用统计432统计学[专业硕士]考研仿真模拟五套题
● 摘要
一、简答题
1. 中心极限定理。
【答案】设随机变量
令
则
也就是说,当n 趋于无穷大时,的分布趋向于标准正态分布 相互独立(S 卩,对任意给定的相互独立)且服从同一分布,该分布存在有限的期望和方
差
2. 什么叫变异、变量和变量值,试举例说明。
【答案】标志在同一总体不同总体单位之间的差别称为变异。例如:人的性别标志表现为男、女;年龄标志表现为20岁、30岁等。
变异标志又称为变量,是说明现象某种特征的概念,其特点是从一次观察到下一次观察结果会呈现出差别或 变化。变量的具体取值称为变量值。具体包括:
(1)分类变量,如“性别”就是分类变量,其变量值为“男”或“女”;
“二等品”、“三等品”、(2)顺序变量,如“产品等级”就是顺序变量,其变量值可以为“一等品”、
“次品”等;
(3)数值型变量,如“年龄”是连续数值型变量,变量值为非负数;“企业数”是离散数值型变量,变量 值为 1,2,……
3. 回归分析结果的评价。
【答案】对回归分析结果的评价可以从以下四个方面入手:
(1)所估计的回归系数的符号是否与理论或事先预期相一致;
(2)如果理论上认为
归方程也应该如此;
(3)用判定系数来回答回归模型在多大程度上解释了因变量取值的差异;
第 2 页,共 51 页 之间的关系不仅是正的,而且是统计上显著的,那么所建立的回
(4)考察关于误差项的正态性假定是否成立。因为在对线性关系进行检验和对回归系数进行?检验时,
都要求误差项服从正态分布,否则,所用的检验程序将是无效的。检验正态性的
简单方法是画出残差的直方图或正态概率图。
4. 简述统计分组的原则。
【答案】采用组距分组时,需要遵循不重不漏的原则。不重是指一项数据只能分在其中的某一组,不能在其他组 中重复出现;不漏是指组别能够穷尽。即在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏。
为解决不重的问题,统计分组时习惯上规定“上组限不在内”。即当相邻两组的上下限重叠时,恰好等于某 一组上限的变量值不算在本组内,而计算在下一组内。而对于连续变量,可以采取相邻两组组限重叠的方法,根 据“上组限不在内”的规定解决不重的问题,也可以对一个组的上限值采用小数点的形式,小数点的位数根据所 要求的精度具体确定。
5. 解释多元回归模型、多元回归方程、估计的多元回归方程的含义。
【答案】(1)多元回归模型:设因变量为个自变量分别为
y 如何依赖于自变量式中(2)多元回归方程:
根据回归模型的假定有
方程,它描述了因变量y 的期望值与自变量
(3)估计的多元回归方程:
回归方程中的参数
数据去估计它们。当用样本统计
量
时,就得到了估计的
多元回归方程,其一般形式为:
式中是参数称为偏回归系数。
6. 正态分布所描述的随机现象有什么特点?为什么许多随机现象服从或近似服从正态分布?
【答案】(1)正态分布所描述的随机现象具有如下特点: ①正态曲线的图形是关于的对称钟形曲线,且峰值在处;
②正态分布的两个参数均值和标准差一旦确定,正态分布的具体形式也就唯一确定,不同参数取值的 正态分布构成一个完整的“正态分布族”。
③正态分布的均值可以是实数轴上的任意数值,它决定正态曲线的具体位置,标准差相
第 3 页,共 51 页 描述因变量为误差项。 称为多元回归和误差项的方程称为多元回归模型。其一般形式可表示为
:是模型的参数之间的关系。 是未知的,需要利用样本去估计回归方程中的未知参
数的估计值是因变量y 的估计值。其中
同而均值不同 的正态曲线在坐标轴上体现为水平位移。 ④正态分布的标准差
⑤当为大于零的实数,它决定正态曲线的“陡_”或“扁平”程度。越大,正态曲线 越扁平;越小,正态曲线越陡峭。 的取值向横轴左右两个方向无限延伸时,正态曲线的左右两个尾端也无限渐近横轴,但理论上永远不会与之相父。
⑥与其他连续型随机变量相同,正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1。
(2)如果原有总体是正态分布,那么,无论样本量的大小,样本均值的抽样分布都服从正态分布。若原有 总体的分布是非正态分布,随着样本量的增大(通常要求
方差为总体方差的),不论原来的总体是否服从正态分布,样本均值的抽样分布都将趋于正态分布,其分布的数学期望为总体均值这就是统计上著名的中心极限定理。因此许多随机现象服从或近似服从正态分布。
7. 在多元线性回归中,为什么我们对整个回归方程进行检验后,还要对每个回归系数来进行检验呢?
【答案】在多元线性回归中,线性关系检验主要是检验因变量同多个自变量的线性关系是否显著,在个自变量中,只要有一个自变量与因变量的线性关系显著,F 检验就能通过,但这不一定意味着每个自变量与因变量的关系都显著。回归系数检验则是对每个回归系数分别进行单独的检验,它主要用于检验每个自变量对因变量的影响是否都显著。如果某个自变量没有通过检验,就意味着这个自变量对因变量的影响不显著,也许就没有必要将这个自变量放进回归模型中了。
8. 在什么条件下用正态分布近似计算二项分布的概率效果比较好?
【答案】当样本量n 越来越大时,二项分布越来越近似服从正态分布。这时,二项随机变量的直方图的形状接近正态分布的图形形状。即使对于小样本,当
然相当好,此时随机变量X 的分布是相对于其平均值时,二项分布的正态近似仍
和都对称的。当p 趋于0或1时,二项分布将呈现出偏态,但当n 变大时,这种偏斜就会消失。一般来说, 只要当n 大到使大于或等于5时,近似的效果就相当好。
9. 简述描述离散程度的统计量和适用类型。
【答案】衡量数据离散程度的统计量主要有极差、平均差、方差和标准差,其中最常用的是方差和标准差。
(1)极差是指一组数据的最大值与最小值之差。用R 表示,其计算公式为:
极差是描述数据离散程度的最简单测度值,计算简单,易于理答,但它容易受极端值的影响。
第 4 页,共 51 页