显著性检验-经济百科

显著性检验（Significance Testing）

什么是显著性检验

显著性检验就是事先对总体（随机变量）的参数或总体分布形式做出一个假设，然后利用样本信息来判断这个假设（原假设）是否合理，即判断总体的真实情况与原假设是否显著地有差异。或者说，显著性检验要判断样本与我们对总体所做的假设之间的差异是纯属机会变异，还是由我们所做的假设与总体真实情况之间不一致所引起的。

显著性检验是针对我们对总体所做的假设做检验，其原理就是“小概率事件实际不可能性原理”来接受或否定假设。

抽样实验会产生抽样误差，对实验资料进行比较分析时，不能仅凭两个结果（平均数或率）的不同就作出结论，而是要进行统计学分析，鉴别出两者差异是抽样误差引起的，还是由特定的实验处理引起的。

显著性检验的含义

显著性检验即用于实验处理组与对照组或两种不同处理的效应之间是否有差异，以及这种差异是否显著的方法。

常把一个要检验的假设记作原假设（或零假设） (null hypothesis) ，与显著性水平。

最常用的α值为0.01、0.05、0.10等。一般情况下，根据研究的问题，如果放弃真错误损失大，为减少这类错误，α取值小些，反之，α取值大些。

显著性检验的原理

无效假设

显著性检验的基本原理是提出“无效假设”和检验“无效假设”成立的机率（P）水平的选择。所谓“无效假设”，就是当比较实验处理组与对照组的结果时，假设两组结果间差异不显著，即实验处理对结果没有影响或无效。经统计学分析后，如发现两组间差异系抽样引起的，则“无效假设”成立，可认为这种差异为不显著（即实验处理无效）。若两组间差异不是由抽样引起的，则“无效假设”不成立，可认为这种差异是显著的（即实验处理有效）。

“无效假设”成立的机率水平

检验“无效假设”成立的机率水平一般定为5%（常写为p≤0.05），其含义是将同一实验重复100次，两者结果间的差异有5次以上是由抽样误差造成的，则“无效假设”成立，可认为两组间的差异为不显著，常记为p>0.05。若两者结果间的差异5次以下是由抽样误差造成的，则“无效假设”不成立，可认为两组间的差异为显著，常记为p≤0.05。如果p≤0.01，则认为两组间的差异为非常显著。

显著性检验的相关概念

原假设和备择假设

1、原假设：对总体所作的论断或推测，指观察到的差异只反映机会变异。记作备择假设合在一起，应涵盖我们所研究的总体特征的所有可能性。

双尾检验和单尾检验

采用双尾检验还是采用单尾检验（以及左单尾还是右单尾），取决于备择假设的形式。

表1：拒绝域的单、双尾与备择假设之间的对应关系

左单尾

(不可能有(不可能有

显著性检验的作用

分析工作者常常用标准方法与自己所用的分析方法进行对照试验，然后用统计学方法检验两种结果是否存在显著性差异。若存在显著性差异而又肯定测定过程中没有错误，可以认定自己所用的方法有不完善之处，即存在较大的系统误差。

因此分析结果的差异需进行统计检验或显著性检验。

显著性检验的基本思想

显著性检验的基本思想可以用小概率原理来解释。

1、小概率原理：小概率事件在一次试验中是几乎不可能发生的，假若在一次试验中事件事实上发生了。那只能认为事件不是来自我们假设的总体，也就是认为我们对总体所做的假设不正确。

2、观察到的显著水平：由样本资料计算出来的检验统计量观察值所截取的尾部面积为。这个概率越小，反对原假设，认为观察到的差异表明真实的差异存在的证据便越强，观察到的差异便越加理由充分地表明真实差异存在。

3、检验所用的显著水平：针对具体问题的具体特点，事先规定这个检验标准。

4、在检验的操作中，把观察到的显著性水平与作为检验标准的显著水平标准比较，小于这个标准时，得到了拒绝原假设的证据，认为样本数据表明了真实差异存在。大于这个标准时，拒绝原假设的证据不足，认为样本数据不足以表明真实差异存在。

5、检验的操作可以用稍许简便一点的作法：根据所提出的显著水平查表得到相应的值，称作临界值，直接用检验统计量的观察值与临界值作比较，观察值落在临界值所划定的尾部内，便拒绝原假设；观察值落在临界值所划定的尾部之外，则认为拒绝原假设的证据不足。

显著性检验的两类错误

1、显著性检验中的第一类错误及其概率

显著性检验中的第一类错误是指，原假设的总体的样本值代入检验统计量所得结果落入接受域的概率。

3、样本容量一定时，

显著性检验的P值

若用计算机统计软件进行假设检验, 我们会见到P—值。将算得检验统计量样本值查表得的概率是就是P值（在那里我们称之为观察到的显著水平）。

P值是怎么来的

从某总体中抽样所得的样本，其参数会与总体参数有所不同，这可能是由于两种原因：

⑴、这一样本是由该总体抽出，其差别是由抽样误差所致；

⑵、这一样本不是从该总体抽出，所以有所不同。

如何判断是那种原因呢？统计学中用显著性检验赖判断。其步骤是：

⑴、建立检验假设（又称无效假设，符号为统计方法计算H0成立的可能性即概率有多大，概率用P值表示。

⑶、根据选定的显著性水平（0.05或0.01），决定接受还是拒绝H0。

如果P＞0.05，不能否定“差别由抽样误差引起”，则接受H0；如果P＜0.05或P ＜0.01，可以认为差别不由抽样误差引起，可以拒绝H0，则可以接受另一种可能性的假设（又称备选假设，符号为H1），即两样本来自不同的总体，所以两药疗效有差别。

统计学上规定的P值意义见下表

统计分析中，更不表示两药等效。哪种将“两组差别无显著意义”与“两组基本等效”相同的做法是缺乏统计学依据的。

⑶统计学主要用上述三种P值表示，也可以计算出确切的P值，有人用P ＜0.001，无此必要。

⑷显著性检验只是统计结论。判断差别还要根据专业知识。

显著性检验的结果

关于显著性检验的结果：

(一)显著性检验回答什么问题

我们所观察到的差异（是纯属于机会变异，还是反映了真实的差异？

1、如果显著性检验得到差异显著的结论这时并不能评价差异的大小和重要性。

2、显著性检验只能告诉我们差异是否在事实上存在，而不能回答差异产生的原因。

3、显著性检验不能检查我们对实验所作的设计是否有缺陷

(二)显著性检验回答问题的方式

在表述显著性检验结论的时候，应与检验的逻辑推理相符。

当检验统计量的观察值落在拒绝域时，我们应该说，样本资料显著地（或高度显著地）表明，差异是存在的。

(三)对观察到的显著水平数值的评价

显著性检验中的总体和样本

1、显著性检验的对象是无限总体。

2、大样本可能会使检验统计量过分敏感。

3、从有限总体中抽取样本用于显著性检验时，必须作概率抽样。

显著性检验的步骤

显著性检验的一般步骤或格式，如下：

1、提出假设

　统计量的样本观察值。

3、根据所提出的显著水平，确定临界值和拒绝域。

4、作出检验决策。

把检验统计量的样本观察值和临界值比较，或者把观察到的显著水平与显著水平标准比较；最后按检验规则作出检验决策。当样本值落入拒绝域时，表述成:“拒绝原假设”，“显著表明真实的差异存在”；当样本值落入接受域时，表述成：“没有充足的理由拒绝原假设”，“没有充足的理由表明真实的差异存在”。另外，在表述结论之后应当注明所用的显著水平。

总体均值为某定值的显著性检验

总体均值的显著性检验可有双尾、左单尾、右单尾三种不同的情况。下面就总体分布的不同情况，总体方差是否已知的不同情况以及样本大小的不同情况分别介绍检验统计量和检验规则。

一、总体为正态分布，总体方差已知，样本不论大小

对于假设：

如果规定显著性水平为，在双尾，左单尾，右单尾三种不同情形下，拒绝域分别为：① 和；②；③。

二、总体分布未知，总体方差已知，大样本

对于假设

如果规定显著性水平为a，在双尾，左单尾，右单尾三种不同情形下，拒绝域分别为①和；②；③。

三、总体为正态分布，总体方差未知，小样本

对于假设

如果规定显著性水平为a，在双尾，左单尾，右单尾三种不同情形下，拒绝域分别为：①和；②；③。

四、总体分布未知，总体方差未知，大样本

对于假设

如果规定显著性水平为a，在双尾，左单尾，右单尾三种不同情形下，拒绝域分别为：① 和； ②；③

总体比例为某定值的显著性检验

总体比例指的是随机试验中某种指定事件出现的概率。随机试验中某种指定事件出现叫做“成功”，把一次试验中成功的概率记作，并且样本容量足够大，大到足以满足时，近似地有检验统计量

其中p是样本比例。

如果规定显著性水平为a，在双尾，左单尾，右单尾三种不同情形下，拒绝域分别为：① 和；②；③。

显著性检验应注意的问题

进行显著性检验还应注意以下几个问题：

1、要有合理的试验设计和准确的试验操作，避免系统误差、降低试验误差，提高试验的准确性和精确性。

2、选用的显著性检验方法要符合其应用条件。由于研究变量的类型、问题的性质、条件、试验设计方法、样本大小等的不同，所选用的显著性检验方法也不同，因而在选用检验方法时，应认真考虑其应用条件和适用范围。

3、选用合理的统计假设。进行显著性检验时，无效假设和备择假设的选用，决定了采用两尾检验或是一尾检验。4、正确理解显著性检验结论的统计意义。显著性检验结论中的“差异显著”或“差异极显著”不应该误解为相差很大或非常大，也不能认为在实际应用上一定就有重要或很重要的价值。“显著”或“极显著”是指表面差异为试验误差可能性小于0.05或0.01，已达到了可以认为存在真实差异的显著水平。有些试验结果虽然表面差异大，但由于试验误差大，也许还不能得出“差异显著”的结论，而有些试验的结果虽然表面差异小，但由于试验误差小，反而可能推断为“差异显著”。

显著水平的高低只表示下结论的可靠程度的高低，即在0.01水平下否定无效假设的可靠程度为99％，而在0.05水平下否定无效假设的可靠程度为95%。

“差异不显著”是指表面差异为试验误差可能性大于统计上公认的概率水平0.05，不能理解为没有差异。下“差异不显著”的结论时，客观上存在两种可能：一是无本质差异，二是有本质差异，但被试验误差所掩盖，表现不出差异的显著性来。如果减小试验误差或增大样本容量，则可能表现出差异显著性。显著性检验只是用来确定无效假设能否被否定，而不能证明无效假设是正确的。

5、统计分析结论的应用，还要与经济效益等结合起来综合考虑。

常用显著性检验

1.T检验

适用于计量资料、正态分布、方差具有齐性的两组间小样本比较。包括配对资料间、样本与均数间、两样本均数间比较三种，三者的计算公式不能混淆。

2.t'检验

应用条件与t检验大致相同，但t′检验用于两组间方差不齐时，t′检验的计算公式实际上是方差不齐时t检验的校正公式。

3.U检验

应用条件与t检验基本一致，只是当大样本时用U检验，而小样本时则用t检验，t检验可以代替U检验。

4.方差分析

用于正态分布、方差齐性的多组间计量比较。常见的有单因素分组的多样本均数比较及双因素分组的多个样本均数的比较，方差分析首先是比较各组间总的差异，如总差异有显著性，再进行组间的两两比较，组间比较用q检验或LST检验等。

5.X2检验

是计数资料主要的显著性检验方法。用于两个或多个百分比(率)的比较。常见以下几种情况：四格表资料、配对资料、多于2行*2列资料及组内分组X2检验。

6.零反应检验

用于计数资料。是当实验组或对照组中出现概率为0或100％时，X2检验的一种特殊形式。属于直接概率计算法。

7.符号检验、秩和检验和Ridit检验

三者均属非参数统计方法，共同特点是简便、快捷、实用。可用于各种非正态分布的资料、未知分布资料及半定量资料的分析。其主要缺点是容易丢失数据中包含的信息。所以凡是正态分布或可通过数据转换成正态分布者尽量不用这些方法。

8.Hotelling检验

用于计量资料、正态分布、两组间多项指标的综合差异显著性检验。

显著性检验的应用

在市场调研中，由于人力、物力、时间等问题，一般都用抽样调查的方法抽取一定数量的具有代表性的群体，得出样本数据来进行市场研究，并对市场总体特征进行统计推断，在这里面就会存在两个问题，一是样本的特征数量能否反映总体特征？二是，两种不同的样本的数量标志参数是否存在差异？只有解决这两个问题，才能正确的推断市场总体特征，也才能找出市场中不同特征群体的需求差异，这就需要统计学中的显著性检验来解决，由于显著性检验的功能在数据分析中的重大作用，显著性检验在市场调研中得到了广泛的应用；但若不恰当的使用便会导致市场调研信息反应的歪曲或挖掘不充分；以下是我根据以往应用显著性检验的经验而总结的一些关于如何恰当的应用统计检验的体会，仅供参考、讨论。

要恰当的运用检验方法，我们需要做到以下几点：

首先，了解各检验方法的适用范围及其特点。

这也是正确使用检验方法的基本前提，只有了解各检验方法的基本思想及特点，才能正确选取适当的检验方法。

许多统计检验方法的应用对总体有特殊的要求，如t检验要求总体符合正态分布，F检验要求误差呈正态分布且各组方差整齐，等等。这些常用来估计或检验总体参数的方法，统称为参数统计。许多调查或实验所得的科研数据，其总体分布未知或无法确定，这时做统计分析常常不是针对总体参数，而是针对总体的某些一般性假设（如总体分布），这类方法称非参数统计，相应的，统计检验总体分为参数检验和非参数检验。在选择参数与非参数检验时，首要考虑是数据的分布情况，能确定分布类型的，则可适当选用参数检验，参数检验主要包括包含的方法有：单样本T检验、两独立样本T检验、两配对样本T检验；非参数由于不限制分布，统计方法简便，适用性强，但检验效率较低，应用时应适当加以考虑，非参数检验主要涉及五个方面，即单样本、两独立样本、两配对样本、多独立样本、多配对样本的非参数检验。

不同的检验方法，比较的统计量是不同的。T检验等检验方法都是比较的均值；卡方检验、K-S检验等比较频数；曼－惠特尼U检验等是对秩进行比较；符号检验法比较的是前后变化差值的符号、而符号秩检验法则是对差值及符号一同比较的检验。

其次，认清研究目的。

研究目的是市场调研中一切实务的根本出发点，做数据分析时同样首要考虑的是研究目的，研究目的也是数据分析的方向，但此时研究目的需要细化，具体到要通过哪些数据、得到什么信息、何种结果的问题，如希望通过对消费者购买哪些品牌的数据来得出市场占有率的信息。

再次，分析数据特点。

明确某些数据的研究目的后，需要认清数据自身特点。第一，弄清楚要分析的数据属于什么类型，是连续型，还是非连续型？对于连续型数值，均值具有实际意义，对于非连续性的数值，均值并不具备实际意义，而是频数，百分比才有意义，所以，数据属于连续型时，适用比较均值的显著性检验，若是非连续型的级数类，则适用比较频数、比例的检验方法；其实，数据也是可以跟据不同情况，灵活处理的，如对于满意度的衡量，我们可以根据不同的需求看为连续型分值，也可以看为几个等级的级数；第二，我们还需要了解样本数据的分布特点，弄清楚样本数据是否服从某一分布，对于分布明确的，可以采用参数检验，而不清楚分布情况的则可以采用非参数检验法；第三，判断要检验差异的两组样本的关系，属于独立样本，还是属于配对样本。独立样本即指在一个总体中随机抽样对在另一个总体中随机抽样没有影响的情况下所获得的样本，样本之间相互独立；而配对样本可以是同一个体在前后两种状态下某种属性的两种状态，也可以是对某事物两个不同侧面或方面的描述，两样本不是相互独立，而是有相关性的。

最后，灵活运用检验方法。

检验方法虽然有各自特点和适用范围，但是可以对数据做稍微的处理、变化，或是换个角度分析，便可运用不同的检验方法；且各方法有适用范围，当然也有它的局限性，有时需要多种检验方法配合使用，相互补充，才能充分的挖掘信息，比如,独立样本T检验法判断AB产品对于抗过敏的功效评价在均值上是否有差异，而卡方检验可判断他们在各评价水平上的分布有无差异，假如判断出他们功效水平无差异之后，我们还想知道他们到底是同样的好还是同样的差，这时可以再使用单样本 T 检验对以与均值评价水平相近的满意度水平进行差异性检验来进行定位。此外，我们还需要合理解释检验结果。

不仅要正确识别检验结果，还需要结合原始数据及实际意义，并针对研究目的来分析说明。