当前位置：问答库＞考研试题

2017年河海大学理学院432统计学[专业硕士]考研仿真模拟题

● 摘要

一、简答题

1．在盒子图（箱线图）的作图中，会使用哪些描述指标。

，是利用数据中的五个统计量：最【答案】箱线图（Boxplot ）也称箱须图（Box-whiskerPlot ）

小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法，它也可以粗略地看出数据是否具有有对称性，分布的分散程度等信息，特别可以用于对几个样本的比较。由上面

叙述可知，箱线图使用的描述指标有：最小值、第一四分位数、中位数、第三四分位数与最大值。

2．解释总体分布、样本分布和抽样分布的含义。

【答案】总体分布就是总体中所有个体关于某个变量（标志）的取值所形成的分布。假设X 为总体随机变量，那么总体分布就是指X 的分布。很显然，同一变量不同的总体或同一总体不同的变量，其分布是不同的。

样本分布就是样本中所有个体关于某个变量（标志）的取值所形成的分布。假设x 为总体随机变量X 在样本中的体现，那么样本分布就是指x 的分布，或者说是关于《个观测值的分布。同样，同一变量不同的样本或同一样本不同的变量，其分布是不同的。

一般意义上说，抽样分布就是样本统计量的概率分布，它由样本统计量的所有可能取值和与之对应的概率组成。如果说样本分布是关于样本观测值的分布，那么抽样分布则是关于样本统计量的分布，而样本统计量是由样本观测值计算而来的。具体地说，抽样分布就是从容量为W 的总体中抽取容量为n 的样本时，所有可能的样本统计量所形成的分布。假设从容量为W 的有限总体中最多可以抽取m 个容量为n 的不同样本，那么把所有m 个样本统计值形成频率分布，就是抽样分布。可以说，抽样分布是研宄样本分布与总体分布之间的桥梁。

3．简述均值、众数和中位数三者之间的关系及其在实际中的应用。

【答案】（1）众数、中位数和平均数的关系

从分布的角度看，众数始终是一组数据分布的最高峰值，中位数是处于一组数据中间位置上的值，而平均数则是全部数据的算术平均。

对于具有单峰分布的大多数数据而言，众数、中位数和平均数之间具有以下关系：

①如果数据的分布是对称的，众数中位数和平均数必定相等，即

②如果数据是左偏分布，说明数据存在极小值，必然拉动平均数向极小值一方靠，而众数和中位数由于是位置代表值，不受极值的影响，因此三者之间的关系表现为：

③如果数据是右偏分布，说明数据存在极大值，必然拉动平均数向极大值一方靠，

则

（2）众数、中位数和平均数在实际中的应用

①众数是一组数据分布的峰值，不受极端值的影响。其缺点是具有不唯一性，一组数据可能

有一个众数，也可能有两个或多个众数，也可能没有众数。众数只有在数据量较多时才有意义，当数据量较少时，不宜使用众数。众数主要适合作为分类数据的集中趋势测度值。

②中位数是一组数据中间位置上的代表值，不受数据极端值的影响。中位数主要适合作为顺序数据的集中趋势测度值。

③平均数是对数值型数据计算的，而且利用了全部数据信息，它是实际中应用最广泛的集中趋势测度值。当数据呈对称分布或接近对称分布时，3个代表值相等或接近相等，这时则应选择平均数作为集中趋势的代表值。但平均数的主要缺点是易受数据极端值的影响，对于偏态分布的数据，平均数的代表性较差。因此，当数据为偏态分布，特别是当偏斜程度较大时，可以考虑选择众数或中位数。

4．解释多元回归模型、多元回归方程、估计的多元回归方程的含义。

【答案】（1）多元回归模型：设因变量为如何依赖于自变量

式中（2）多元回归方程：

根据回归模型的假定有

方程，它描述了因变量y 的期望值与自变量

（3）估计的多元回归方程：

回归方程中的参数

数据去估计它们。当用样本统计

量

时，就得到了估计的

多元回归方程，其一般形式为：

式中

是参数称为偏回归系数。

5．要检验多个总体均值是否相等时，为什么不作两两比较，而用方差分析方法？

【答案】方差分析不仅可以提高检验的效率，同时由于它是将所有的样本信息结合在一起，也增加了分析的可靠性。

检验多个总体均值是否相等时，如果作两两比较，则需要进行多次的检验。随着增加个体显著性检验的次数，偶然因素导致差别的可能性也会増加（并非均值真的存在差别）。而方差分析方法则是同时考虑所有的样本，因此排除了错误累积的概率，从而避免拒绝一个真实的原假设。

6．简述复合型时间序列的预测步骤。

【答案】复合型序列是指含有趋势性、季节性、周期性和随机成分的序列。对这类序列预测方法通常是将时间序列的各个因素依次分解出来，然后再进行预测，分解法预测通常按下面的步骤进行：

个自变量分别为是模型的参数描述因变量y

为误差项。称为多元回归和误差项的方程称为多元回归模型。其一般形式可表示为

：之间的关系。是未知的，需要利用样本去估计回归方程中的未知参

数的估计值是因变量y 的估计值。其中

（1）确定并分离季节成分。计算季节指数，以确定时间序列中的季节成分。然后将季节成分从时间序列中分离出去，即用每一个时间序列观测值除以相应的季节指数，以消除季节性；

（2）建立预测模型并进行预测。对消除了季节成分的时间序列建立适当的预测模型，并根据这一模型进行预测；

（3）计算出最后的预测值。用预测值乘以相应的季节指数，得到最终的预测值。

7．什么是集中趋势和离散趋势？它们常用的指标有哪些？

【答案】集中趋势是指一组数据向某一中心值靠拢的程度，它反映了一组数据中心点的位置所在。常用的反映集中趋势的指标有平均数、中位数和众数。

数据的离散趋势是数据分布的另一个重要特征，它反映的是各变量值远离其中心值的程度。数据的离散程度越大，集中趋势的测度值对该组数据的代表性就越差；离散程度越小，其代表性就越好。描述数据离散程度采用的测度值，根据所依据数据类型的不同主要有异众比率、四分位差、方差和标准差。此外，还有极差、平均差以及测度相对离散程度的离散系数等。

8．在什么条件下用正态分布近似计算二项分布的概率效果比较好？

【答案】当样本量n 越来越大时，二项分布越来越近似服从正态分布。这时，二项随机变量的直方图的形状接近正态分布的图形形状。即使对于小样本，当

然相当好，此时随机变量X 的分布是相对于其平均值

大于或等于5时，近似的效果就相当好。

9．简述平稳序列和非平稳序列的含义。

【答案】（1）平稳序列是基本上不存在趋势的序列。这类序列中的观察值基本上在某个固定的水平上波动，虽然在不同的时间段波动的程度不同，但并不存在某种规律。其波动可以看成是随机的。

（2）非平稳序列包含趋势、季节性或周期性的序列，它可能只含有其中的一种成分，也可能是几种成分的组合。因此，非平稳序列可以分为有趋势的序列、有趋势和季节性的序列、几种成分混合而成的复合型序列。

10．在多元线性回归中，为什么我们对整个回归方程进行检验后，还要对每个回归系数来进行检验呢？

【答案】在多元线性回归中，线性关系检验主要是检验因变量同多个自变量的线性关系是否显著，在个自变量中，只要有一个自变量与因变量的线性关系显著，F 检验就能通过，但这不一定意味着每个自变量与因变量的关系都显著。回归系数检验则是对每个回归系数分别进行单独的检验，它主要用于检验每个自变量对因变量的影响是否都显著。如果某个自变量没有通过检验，就意味着这个自变量对因变量的影响不显著，也许就没有必要将这个自变量放进回归模型中了。

时，二项分布的正态近似仍和都对称的。当p 趋于0或1时，二项分只要当n 大到使布将呈现出偏态，但当n 变大时，这种偏斜就会消失。一般来说，

当前位置：问答库＞考研试题

相关题目: