当前位置:问答库>考研试题

2017年广西民族大学统计学(同等学力加试)复试仿真模拟三套题

  摘要

一、简答题

1. “假设检验的基本思路是:概率性质的反证法,主要依据的是:小概率事件原理”。你同意这种说法吗?简要叙述你对假设检验的理解和检验步骤。

【答案】同意。

假设检验所遵循的推断依据是统计中的“小概率原理”:小概率事件在一次试验中几乎是不会发生的。例如,在10000件的产品中,如果只有1件是次品,那么可以得知,在一次试验中随机抽取1件次品的概率就为此概率是非常小的。或者是说,在一次随机抽样试验中,次品几乎是不会被抽到的。反过来,如果从这批产品中任意抽取1件,恰好是次品,我们就可以断定,该次品率应该不是很小的,否则我们就不会那么轻易的就能抽到次品。从而,我们就有足够的理由否认产品的次品率是很低的假设。

假设检验的基本步骤为:第一,对所考察总体的分布形式或总体的某些未知参数做出某些假设,称之为原假设。第二,根据检验对象构造合适的检验统计量,并通过数理统计分析确定在原假设成立的条件下该检验统计量的抽样分布。第三,在给定的显著性水平下,根据抽样分布得出原假设成立时的临界值,由临界值构造拒绝域和接受域。第四,由所抽取的样本资料计算样本统计量的取值,并将其与临界值进行比较,从而对所提出的原假设做出接受还是拒绝的统计判断。

假设检验就是利用样本中所蕴含的信息对事先假设的总体情况做出推断。假设检验不是毫无根据的,而是在一定的统计概率下支持这种判断。

2. 在什么条件下用正态分布近似计算二项分布的概率效果比较好?

【答案】当样本量n 越来越大时,二项分布越来越近似服从正态分布。这时,二项随机变量的直方图的形状接近正态分布的图形形状。即使对于小样本,当

然相当好,此时随机变量X 的分布是相对于其平均值时,二项分布的正态近似仍

和都对称的。当p 趋于0或1时,二项分 只要当n 大到使布将呈现出偏态,但当n 变大时,这种偏斜就会消失。一般来说,

大于或等于5时,近似的效果就相当好。

3. 在显著性检验过程中,经常遇到值这一概念,试回答以下问题:

(1)值能告诉我们什么信息?

(2)当相应的值较小时为什么要拒绝原假设?

(3)显著性水平与值有何区别?

【答案】如果原假设为真,所得到的样本结果会像实际观测结果那么极端或更极端的概率,称为值,也称为观察到的显著性水平。

(1)值是当原假设正确时,得到所观测的数据的概率。如果原假设是正确的话,值告诉

我们这样的观测数据会有多么的不可能得到。相当不可能得到的数据,就是原假设不对的合理证据。

(2)值是反映实际观测到的数据与原假设明实际观测到的数据与之间不一致程度的一个概率值。值越小,说之间不一致的程度就越大,检验的结果也就越显著。

(3)是犯第I 类错误的上限控制值,它只能提供检验结论可靠性的一个大致范围,而对于一个特定的假设检验问题,却无法给出观测数据与原假设之间不一致程度的精确度量。也就是说,仅从显著性水平来比较,

如果选择的值相同,

所有检验结论的可靠性都一样。而值可以测量出样本观测数据与原假设中假设的值的偏离程度。

4. 简述均值、众数和中位数三者之间的关系及其在实际中的应用。

【答案】(1)众数、中位数和平均数的关系

从分布的角度看,众数始终是一组数据分布的最高峰值,中位数是处于一组数据中间位置上的值,而平均数 则是全部数据的算术平均。

对于具有单峰分布的大多数数据而言,众数、中位数和平均数之间具有以下关系:

①如果数据的分布是对称的,众数中位数和平均数必定相等,即

②如果数据是左偏分布,说明数据存在极小值,必然拉动平均数向极小值一方靠,而众数和中位数由于是位 置代表值,不受极值的影响,因此三者之间的关系表现为:

③如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值一方靠,

(2)众数、中位数和平均数在实际中的应用

①众数是一组数据分布的峰值,不受极端值的影响。其缺点是具有不唯一性,一组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。众数只有在数据量较多时才有意义,当数据量较少时,不宜使用众数。 众数主要适合作为分类数据的集中趋势测度值。

②中位数是一组数据中间位置上的代表值,不受数据极端值的影响。中位数主要适合作为顺序数据的集中趋势测度值。

③平均数是对数值型数据计算的,而且利用了全部数据信息,它是实际中应用最广泛的集中趋势测度值。当数据呈对称分布或接近对称分布时,3个代表值相等或接近相等,这时则应选择平均数作为集中趋势的代表值。 但平均数的主要缺点是易受数据极端值的影响,对于偏态分布的数据,平均数的代表性较差。因此,当数据为偏态分布,特别是当偏斜程度较大时,可以考虑选择众数或中位数。

5. 给出在一元线性回归中:

(1)相关系数的定义和直观意义;

(2)判定系数的定义和直观意义;

(3)相关系数和判定系数的关系。

【答案】(1)相关系数是根据样本数据计算的度量两个变量之间线性关系强度的统计量。若

相关系数是根据总体全部数据计算的,称为总体相关系数,记为

称为样本相关系数,记为r 。样本

相关系数的计算公式为:

若是根据样本数据计算的,则

按上述计算公式计算的相关系数也称为线性相关系数,或称为相关系数。r 仅仅是x 与y 之间线性关系的一个度量,它不能用于描述非线性关系。这意味着,r=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系,它们之间可能存在非线性相关关系。变量之间的非线性相关程度较大时,就可能会导致r=0。因此,当r=0或很小时,不能轻易得出两个变量之间不存在相关关系的结论,而应结合散点图做出合理的答释。

(2)回归平方和占总平方和的比例称为判定系数,记为其计算公式为:

判定系数测度了回归直线对观测数据的拟合程度。

的取值范围是越接近于1, 表明回归平方和占总平方和的比例越大,回归直线与各观测点越接近,用x 的变化来答释y 值变

差的部分就越多,回归直线的拟合程度就越好;反之,越接近于0, 回归直线的拟合程度就越差。

(3)相关系数和判定系数都是用来表明X 与Y 的关系,即X 对Y 的拟合程度。在一元线性回归中,相关系数实际上是判定系数的平方根。相关系数取值范围在卜之间。判定系数取值范围在[0, 1]之间。

6. 构建综合评价指数时需要考虑哪些方面的问题?

【答案】构建综合评价指数需要考虑如下几个方面的问题:

(1)进行理论研宄,其中包括统计指标理论以及统计指标体系的理论研宄,以便为确定所需的评价指标提供一定的理论依据。

(2)建立科学的评价指标体系。所建立的指标体系是否科学与合理,直接关系到评价结果的科学性和准确性。建立指标体系,首先应进行必要的定性研宄,对所研宄的问题进行深入的分析,尽量选择那些具有一定综合意义的代表性指标;其次,应尽可能运用多元统计的方法进行指标的筛选,以提高指标的客观性。

(3)评价方法研宄,主要包括综合评价指数的构造方法、指标的赋权方法以及各种评价方法的比较等。

二、计算题