显著性检验的理解

显著性检验就是事先对总体随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设(备则假设)是否合理,即判断总体的真实情况与原假设是否有显著性差异。或者说,显著性检验要判断样本与我们对总体所做的假设之间的差异是纯属机会变异,还是由我们所做的假设与总体真实情况之间不一致所引起的。 显著性检验是针对我们对总体所作的假设做检验,其原理就是“小概率事件实际不可能性原理”来接受或否定假设。所谓“显著”,就是指两种或多种处理试验结果之间,本身确实存在差异。如果是“不显著”,就说明它们之间的差异是由抽样或偶然的因素引起的,不是真正有实际差异存在。
l我们要检验抽烟人群的肺活量和非抽烟人群是否有差异, 我的原假设H0:“抽烟人群的肺活量和非抽烟人群没有差异”,我们已经知道非抽烟人群的肺活量均值是u0=150。因此H0假设就意味着:如果在抽烟人群中抽一个足够大的样本,这个样本的均值应该来自一个均值为u0的正态分布。
为什么样本均值为服从整体分布,这是根据中心极限定理推导出来的,即无限总体的随机样本的均值服从正态分布。现在我抽取了一个抽烟人群的样本,共20个样本(n=20),均值为u=149.8<150。我们现在却不能否定原假设,因为HO可以辩解,样本均值服从正态分布,当然它有可能有高度有底,抽样误差会导致你抽到这样的结果。
 
这时候该怎么办呢?到底149.8与150的差异是由于抽样误差引起,还是本身就有差异呢?
为了解决结果问题,显著性检验应运而生,在H0假设下,我们在抽样过程中,确实可以抽到149.8这个值,但是如果我们能够判断,在H0假设下,抽样到这个均值的概率很小,那么我们认为这样的小概率事件是不太可能发生的,我们就有证据认为应该拒绝H0假设。这就是显著性检验的核心思想。那么概率多小才能认为概率很小呢?这里就有显著性标准的概念了,一般用的比较多的是0.05,还有0.01。 当抽到样本均值的概率小于0.05或者0.01, 我们就认为不太可能发。我们就认为149.8与150的差异,是本身具有的差异,不是抽样带来的差异。
那我我们如何计算在H0假设下抽到某个样本均值的概率呢?比如149.8
H0假设认为,样本均值u来自一个均值为u0的正态分布。我们手里也有样本标准差S。样本的容量是n。那么这就结了,我们把这个正态曲线画出来,把我们的均值标在横坐标上,马上就得到了:在抽样中,抽到的均值小于等于(或者大于等于)这个均值(149.8)的概率。然后我们拿这个概率p去和0.05相比。
上面的例子检验方法是基于正态分布的,为Z检验,应用这种检验的一个条件是样本容量n要足够大(中心极限定理),但实际的研究中我们的样本往往很少,这时候被大量使用的t检验,Student T的分布曲线和正态分布有点像,当然公式不一样。T分布在样本量极大的时候趋近于正态分布。正态分布只要知道均值和标准差就可以画出曲线,T分布还要知道一个值叫“自由度”df,df=n-1

3 thoughts on “显著性检验的理解

Leave a Reply

Your email address will not be published. Required fields are marked *