当前位置:问答库>考研试题

2017年河海大学理学院432统计学[专业硕士]考研题库

  摘要

一、简答题

1. 简述古典概率法和经验概率法如何定义事件发生的概率。

【答案】概率的古典定义是,如果某一随机试验的结果有限,而且各个结果出现的可能性相等,则某一事件A 发生的概率为该事件所包含的基本事件数m 与样本空间中所包含的基本事件数n 的比值,记为:

经验概率又称主观概率,是指对一些无法重复的试验,只能根据以往的经验,人为确定这个事件的概率。

2. 简述系数、c 系数、系数的各自特点。

【答案】(1)相关系数是描述

式为:式中,列联表数据相关程度最常用的一种相关系数。它的计算公《为列联表中的总频数,也即样本量。说系数适合

这个范围。

列联表的情况。C 系数的列联表,是因为对于

计算公式为:

列联表中的数据,计算出的系数可以控制在(2)列联相关系数又称列联系数,简称c 系数,主要用于大于

当列联表中的两个变量相互独立时,系数c=0, 但它不可能大于1。c 系数的特点是,其可能的最大值依赖于列联表的行数和列数,且随着R 和C 的增大而增大。

(3)克莱默提出了 V 系数。V 系数的计算公式为:

当两个变量相互独立时,当两个变量完全相关时,所以V 的取值在之间。如果列联表中有一维为2,即

3. 多元线性回归模型中有哪些基本的假定?

【答案】多元回归模型的基本假定有:

(1)自变量

(3)对于自变

则V 值就等于值。 ; 是非随机的、固定的,且相互之间互不相关(无多重共线性) 的方

差都相同,且不序列相关,

即的所有

值(2)误差项是一个期望值为0的随机变量,即

(4)误差项是一个服从正态分布的随机变量,且相互独立,即

4. 简述描述离散程度的统计量和适用类型。

【答案】衡量数据离散程度的统计量主要有极差、平均差、方差和标准差,其中最常用的是方差和标准差。

(1)极差是指一组数据的最大值与最小值之差。用R 表示,其计算公式为:

极差是描述数据离散程度的最简单测度值,计算简单,易于理答,但它容易受极端值的影响。由于极差只是利用了一组数据两端的信息,不能反映出中间数据的分散状况,因而不能准确描述出数据的分散程度。

(2)平均差也称平均绝对离差,它是各变量值与其平均数离差绝对值的平均数。平均差以平均数为中心,反映了每个数据与平均数的平均差异程度,它能全面准确地反映一组数据的离散状况。平均差越大,说明数据的离散程度越大;反之说明数据的离散程度小。为了避免离差之和等于零而无法计算平均差这一问题,平均差在计算时对离差取了绝对值,以离差的绝对值来表示总离差,这就给计算带来了不便,因而在实际中应用较少。但平均差的实际意义比较清楚,容易理答。

(3)方差是各变量值与其平均数离差平方的平均数。它在数学处理上是通过平方的办法消去离差的正负号, 然后再进行平均,方差开方后即得到标准差,方差或标准差能较好地反映出数据的离散程度,是实际中应用最广泛的离散程度测度值。与方差不同的是,标准差是具有量纲的,它与变量值的计量单位相同,其实际意义要比方差清楚。因此,在对实际问题进行分析时更多地使用标准差。

5. 在盒子图(箱线图)的作图中,会使用哪些描述指标。

,是利用数据中的五个统计量:最【答案】箱线图(Boxplot )也称箱须图(Box-whiskerPlot )

小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。由上面

叙述可知,箱线图使用的描述指标有:最小值、第 一四分位数、中位数、第三四分位数与最大值。

6. 简述统计分组的原则。

【答案】采用组距分组时,需要遵循不重不漏的原则。不重是指一项数据只能分在其中的某一组,不能在其他组 中重复出现;不漏是指组别能够穷尽。即在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏。

为解决不重的问题,统计分组时习惯上规定“上组限不在内”。即当相邻两组的上下限重叠时,恰好等于某 一组上限的变量值不算在本组内,而计算在下一组内。而对于连续变量,可以采取相邻两组组限重叠的方法,根 据“上组限不在内”的规定解决不重的问题,也可以对一个组的上限值采用小数点的形式,小数点的位数根据所 要求的精度具体确定。

7. 正态分布所描述的随机现象有什么特点?为什么许多随机现象服从或近似服从正态分布?

【答案】(1)正态分布所描述的随机现象具有如下特点: ①正态曲线的图形是关于的对称钟形曲线,且峰值在处;

②正态分布的两个参数均值和标准差一旦确定,正态分布的具体形式也就唯一确定,不同参数取值的 正态分布构成一个完整的“正态分布族”。

③正态分布的均值可以是实数轴上的任意数值,它决定正态曲线的具体位置,

标准差相同而均值不同 的正态曲线在坐标轴上体现为水平位移。 ④正态分布的标准差

⑤当为大于零的实数,它决定正态曲线的“陡_”或“扁平”程度。越大,正态曲线 越扁平;越小,正态曲线越陡峭。 的取值向横轴左右两个方向无限延伸时,正态曲线的左右两个尾端也无限渐近横轴,但理论上永远不会与之相父。

⑥与其他连续型随机变量相同,正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1。

(2)如果原有总体是正态分布,那么,无论样本量的大小,样本均值的抽样分布都服从正态分布。若原有 总体的分布是非正态分布,随着样本量的增大(通常要求

方差为总体方差的,不论原来的总)体是否服从正态分布,样本均值的抽样分布都将趋于正态分布,其分布的数学期望为总体均值这就是统计上著名的中心极限定理。因此许多随机现象服从或近似服从正态分布。

8. 简述平稳序列和非平稳序列的含义。

【答案】(1)平稳序列是基本上不存在趋势的序列。这类序列中的观察值基本上在某个固定的水平上波动,虽然在不同的时间段波动的程度不同,但并不存在某种规律。其波动可以看成是随机的。

(2)非平稳序列包含趋势、季节性或周期性的序列,它可能只含有其中的一种成分,也可能是几种成分的组合。因此,非平稳序列可以分为有趋势的序列、有趋势和季节性的序列、几种成分混合而成的复合型序列。

9. 若有线性回归模型

问:

(1)该模型是否违背古典线性回归模型的假定,请简要说明。

(2)如果对该模型进行估计,你会采用什么方法?请说明理由。

【答案】(1)该模型违背了古典线性回归模型的假定。古典线性回归模型要求误差项具有等方差性,即对于不同的自变量x 具有相同的方差。而由题意可知,误差项的方差为

量有关。

(2)如果对该模型进行估计,会采用加权最小二乘法。加权最小二乘法是在平方和中加入权

其中

与自变