2017年湖南师范大学数学与计算机科学学院432统计学[专业硕士]之统计学考研仿真模拟题
● 摘要
一、简答题
1. 方差分析中的基本假定。
【答案】方差分析中有三个基本假定:(1)每个总体都应服从正态分布。也就是说,对于因素的每一个水平,其观测值是来自正态分布总体的简单随机样本;(2)各个总体的方差
的。
2. 解释总体分布、样本分布和抽样分布的含义。
【答案】总体分布就是总体中所有个体关于某个变量(标志)的取值所形成的分布。假设X 为总体随机变量,那么总体分布就是指X 的分布。很显然,同一变量不同的总体或同一总体不同的变量,其分布是不同的。
样本分布就是样本中所有个体关于某个变量(标志)的取值所形成的分布。假设x 为总体随机变量X 在样本 中的体现,那么样本分布就是指x 的分布,或者说是关于《个观测值的分布。同样,同一变量不同的样本或同一 样本不同的变量,其分布是不同的。
一般意义上说,抽样分布就是样本统计量的概率分布,它由样本统计量的所有可能取值和与之对应的概率组 成。如果说样本分布是关于样本观测值的分布,那么抽样分布则是关于样本统计量的分布,而样本统计量是由样 本观测值计算而来的。具体地说,抽样分布就是从容量为W 的总体中抽取容量为n 的样本时,所有可能的样本 统计量所形成的分布。假设从容量为W 的有限总体中最多可以抽取m 个容量为n 的不同样本,那么把所有m 个样本统计值形成频率分布,就是抽样分布。可以说,抽样分布是研宄样本分布与总体分布之间的桥梁。
3. 若有线性回归模型
问:
(1)该模型是否违背古典线性回归模型的假定,请简要说明。
(2)如果对该模型进行估计,你会采用什么方法?请说明理由。
【答案】(1)该模型违背了古典线性回归模型的假定。古典线性回归模型要求误差项具有等方差性,即对于不同的自变量x 具有相同的方差。而由题意可知,误差项的方差为
量有关。
(2)如果对该模型进行估计,会采用加权最小二乘法。加权最小二乘法是在平方和中加入权
数以调整各项在平方和中的作用。即寻找参数的估计值使得离差平方和 与自变
其中
必须相同。也就是说,对于各组观察数据,是从具有相同方差的正态总体中抽取的;(3)观测值是独立
达到最小。这样,就消除了异方差性的影响。
4. 简述古典概率法和经验概率法如何定义事件发生的概率。
【答案】概率的古典定义是,如果某一随机试验的结果有限,而且各个结果出现的可能性相等,则某一事件A 发生的概率为该事件所包含的基本事件数m 与样本空间中所包含的基本事件数n 的比值,记为:
经验概率又称主观概率,是指对一些无法重复的试验,只能根据以往的经验,人为确定这个事件的概率。
5. 在盒子图(箱线图)的作图中,会使用哪些描述指标。
,是利用数据中的五个统计量:最【答案】箱线图(Boxplot )也称箱须图(Box-whiskerPlot )
小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。由上面
叙述可知,箱线图使用的描述指标有:最小值、第 一四分位数、中位数、第三四分位数与最大值。
6. 简述系数、c 系数、系数的各自特点。
【答案】(1)相关系数是描述
式为:式中,列联表数据相关程度最常用的一种相关系数。它的计算公《为列联表中的总频数,也即样本量。说系数适合
这个范围。
列联表的情况。C 系数的列联表,是因为对于
计算公式为:
列联表中的数据,计算出的系数可以控制在(2)列联相关系数又称列联系数,简称c 系数,主要用于大于
当列联表中的两个变量相互独立时,系数c=0, 但它不可能大于1。c 系数的特点是,其可能的最大值依赖于列联表的行数和列数,且随着R 和C 的增大而增大。
(3)克莱默提出了 V 系数。V 系数的计算公式为:
当两个变量相互独立时,当两个变量完全相关时,所以V 的取值在之间。如果列联表中有一维为2,即则V 值就等于值。
7. 欲调查广州市初中学生的身高情况,随机抽取100名广州市初中学生,测量了身高。
(1)用此例说明这几个统计概念,总体(population ), 样本(sample ), 参数(pammeter ), 统计量(statistics )。
(2)请说明如何对这100例身高数据进行描述性统计分析。
【答案】(1)总体(population )是包含所研宄的全部个体(数据)的集合,它通常由所研宄的一些个体组成。 本例中的总体是广州市所有初中学生。
样本(sample )是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量(sample size)。 本例中的样本是随机抽取的100名广州市初中学生,其中样本量为100。
参数(parameter )是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。本 例中广州市所有初中学生的平均身高即是一个参数。
统计量(statistic )是用来描述样本特征的概括性数字度量。它是根据样本数据计算出来的一个量,由于 抽样是随机的,因此统计量是样本的函数。随机抽取的100名广州市初中学生的平均身高即是一个统计量。
(2)所谓描述性统计分析,就是对一组数据的各种特征进行分析,以便于描述测量样本的各种特征及其所 代表的总体的特征。主要包括集中趋势的描述,可计算身高的均值,中位数和众数,也可采用箱线图直观的反映 数据的集中趋势以及是否存在异常值;离散程度的描述,可计算身高的方差,变异系数,四分位差或极差,也可 采用折线图或散点图等直观反映数据的离散程度;分布的偏态与峰度描述,可计算偏度和峰度值,或采用茎叶图 或直方图直观的反映分布是否与正态分布或单峰偏态分布逼近。
8. 正态分布所描述的随机现象有什么特点?为什么许多随机现象服从或近似服从正态分布?
【答案】(1)正态分布所描述的随机现象具有如下特点: ①正态曲线的图形是关于的对称钟形曲线,且峰值在处;
②正态分布的两个参数均值和标准差一旦确定,正态分布的具体形式也就唯一确定,不同参数取值的 正态分布构成一个完整的“正态分布族”。
③正态分布的均值可以是实数轴上的任意数值,它决定正态曲线的具体位置,
标准差相同而均值不同 的正态曲线在坐标轴上体现为水平位移。 ④正态分布的标准差
⑤当为大于零的实数,它决定正态曲线的“陡_”或“扁平”程度。越大,正态曲线 越扁平;越小,正态曲线越陡峭。 的取值向横轴左右两个方向无限延伸时,正态曲线的左右两个尾端也无限渐近横轴,但理论上永远不会与之相父。
⑥与其他连续型随机变量相同,正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1。
(2)如果原有总体是正态分布,那么,无论样本量的大小,样本均值的抽样分布都服从正态分布。若原有 总体的分布是非正态分布,随着样本量的增大(通常要求
方差为总体方差的
态分布。
,不论原来的总)体是否服从正态分布,样本均值的抽样分布都将趋于正态分布,其分布的数学期望为总体均值这就是统计上著名的中心极限定理。因此许多随机现象服从或近似服从正
相关内容
相关标签