2018年东北师范大学数学与统计学院432统计学[专业硕士]之统计学考研仿真模拟五套题
● 摘要
一、简答题
1. 单因素方差分析的实质是什么?并说明单因素方差分析的步骤。
【答案】单因素方差分析的实质是研宄一个分类型自变量对一个数值型因变量的影响。
单因素方差分析的步骤为:
(1)按要求检验的个水平的均值是否相等,提出原假设和备择假设。
(2)构造检验统计量,计算各样本均值(3)计算样本统计量
(4
)统计决策。比较统计量拒绝原假设。
2. 给出在一元线性回归中:
(1)相关系数的定义和直观意义;
(2)判定系数的定义和直观意义;
(3)相关系数和判定系数的关系。
【答案】(1)相关系数是根据样本数据计算的度量两个变量之间线性关系强度的统计量。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为
称为样本相关系数,记为r 。样本
相关系数的计算公式为:
按上述计算公式计算的相关系数也称为线性相关系数,或称为相关系数。r 仅仅是x 若是根据样本数据计算的,则 的值。若拒绝原假设;反之,不能样本总均值误差平方和 与y 之间线性关系的一个度量,它不能用于描述非线性关系。这意味着,r=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系,它们之间可能存在非线性相关关系。变量之间的非线性相关程度较大时,就可能会导致r=0。因此,当r=0或很小时,不能轻易得出两个变量之间不存在相关关系的结论,而应结合散点图做出合理的答释。
(2)回归平方和占总平方和的比例称为判定系数,记为
第 2 页,共 26 页 其计算公式为:
判定系数测度了回归直线对观测数据的拟合程度。
的取值范围是越接近于1, 表明回归平方和占总平方和的比例越大,回归直线与各观测点越接近,用x 的变化来答释y 值变
差的部分就越多,回归直线的拟合程度就越好;反之,越接近于0, 回归直线的拟合程度就越差。
(3)相关系数和判定系数都是用来表明X 与Y 的关系,即X 对Y 的拟合程度。在一元线性回归中,相关系数实际上是判定系数的平方根。相关系数取值范围在卜之间。判定系数取值范围在[0, 1]之间。
3. 欲调查广州市初中学生的身高情况,随机抽取100名广州市初中学生,测量了身高。
(1)用此例说明这几个统计概念,总体(population ), 样本(sample ), 参数(pammeter ), 统计量(statistics )。
(2)请说明如何对这100例身高数据进行描述性统计分析。
【答案】(1)总体(population )是包含所研宄的全部个体(数据)的集合,它通常由所研宄的一些个体组成。 本例中的总体是广州市所有初中学生。
样本(sample )是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量(sample size)。 本例中的样本是随机抽取的100名广州市初中学生,其中样本量为100。
参数(parameter )是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。本 例中广州市所有初中学生的平均身高即是一个参数。
统计量(statistic )是用来描述样本特征的概括性数字度量。它是根据样本数据计算出来的一个量,由于 抽样是随机的,因此统计量是样本的函数。随机抽取的100名广州市初中学生的平均身高即是一个统计量。
(2)所谓描述性统计分析,就是对一组数据的各种特征进行分析,以便于描述测量样本的各种特征及其所 代表的总体的特征。主要包括集中趋势的描述,可计算身高的均值,中位数和众数,也可采用箱线图直观的反映 数据的集中趋势以及是否存在异常值;离散程度的描述,可计算身高的方差,变异系数,四分位差或极差,也可 采用折线图或散点图等直观反映数据的离散程度;分布的偏态与峰度描述,可计算偏度和峰度值,或采用茎叶图 或直方图直观的反映分布是否与正态分布或单峰偏态分布逼近。
4. 给出显著性检验中,P 值的含义,以及如何利用P 值决定是否拒绝原假设。
【答案】P 值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P 值很小,说明这种情况发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设。P 值越小,我们拒绝原假设的 理由就越充分。
从研宄总体中抽取一个随机样本,计算检验统计量的值和概率P 值,即在假设为真的前提下,
第 3 页,共 26 页
检验统计量大于或等于实际观测值的概率。如果
数取值;如果
即一般以为显著
,结果更倾向于接受假定的参数取值。
说明是较强的判定结果,拒绝假定的参说明说明是较弱的判定结果,拒绝假定的参数取值;如果为非常显著,其含义是样本间的差异由抽样误差所致的概率
时小于0.05或0.01。但是,P 值不能赋予数据任何重要性,只能说明某事件发生的机率。
样本间的差异比时更大,这种说法是错误的。
5. 利用相关系数如何判断变量之间相关的方向和相关关系的密切程度?
【答案】相关系数r 的取值范围在之间。若
表明变量
关关系;若
相关关系;若
相关关系。
当
说明两个变量之间的线性关系越强
时. 可视为中度相关;表明x 与y 之间存在负线性相关关系;若表明x 与y 之间为完全负线性相关关系。可见当之间存在正线性相表明x 与y 之间为完全正线性时,y 的取值完全依赖于X ,二者之间即为函数关系;当r=0时,说明两者之间不存在线性相关关系,但可能存在其他非线性说明两个变量之间的线性关系越弱。对于一时,
可视为高度相关时,说明两个变量之间的个具体的r 取值,根据经验可将相关程度分为以下几种情况:
当时。视为低度相关;
当
相关程度极弱,可视为不相关。但这种解释必须建立在对相关系数的显著性检验的基础之上。
6. 中心极限定理。
【答案】设随机变量相互独立(S 卩,对任意给定的
相互独立)且服从同一分布,该分布存在有限的期望和方
差
令
则
也就是说,当n 趋于无穷大时,的分布趋向于标准正态分布
7. 统计分组标志选择的原则。
【答案】在进行统计分组标志选择时要遵循三个原则:
(1)应根据研宄目的与任务选择分组标志。同一研宄总体,研宄的目的不同,可选用的分组标志也不同。
(2)要选用能反映事物本质或主要特征的标志。一般情况下,社会经济现象有多种特征,在
第 4 页,共 26 页