法庭上,被告被控是个坏人,那么在法庭辩论时,控方可建立零假设 H0 :被告是好人,备选假设 H1 :被告是坏人。控方试图拒绝原假设,它的方法是:先假设原假设成立,然后在此基础上观测到对原假设是小概率的事件,从而拒绝零假设。
下面举个例子: 假如好人不喜欢身上背把刀,但坏人喜欢身上背把刀。控方对被告的随机抽样发现 10 次有 9 次被告身上背了一把刀,通过计算估计,如果被告是好人,这种抽样结果出现的概率不会超过 4%。如果法庭要求 90%的准确度,我们便可以判断零假设不成立,即被告是坏人。但如果要求 99%的准确度,我们便无法判定零假设不成立,即控方的控诉不成立。
在法官判案时,通常有两类错误:
第一类错误——错判好人:被告是好人,但被判为坏人,即实际上零假设成立,但审判中拒绝了零假设。
第二类错误——放走坏人:被告是坏人,但被漏掉了,即实际上零假设不成立,但审判结果无法拒绝零假设。 一般在做假设检验时只注重第一类错误,即尽量不要错杀好人,不轻易拒绝原假设,这和真实的法庭上的原则是一致的。
在假设检验时通过参数「显著性水平」限定了第一类错误的概率的上限。显著性水平越大,可以容许的第一类错误率越大,也就是说好人更容易被判定为坏人,零假设更容易被拒绝。实际操作中,显著性水平取值为 0.05 或者更小。
假设检验中还有 P 值的概率:在上面的例子, P 值为 5%。它相当于被告的「好人度」,如果假设检验所选取的显著性水平参数高于被告的「好人度」,那么可以拒绝被告是好人的零假设。
上面是假设检验的简单介绍,在实际进行假设检验以及使用假设检验的结果时,还需要注意两个问题,即「置信度」的真正含义和「无法拒绝」的真正含义。
1、无法拒绝? Absense of evidence is not evidence of absense
假设检验没规定犯第二类错误的概率的上限。即如果法庭判定被告是坏人,那通常被告是坏人的可能性很大,如果法庭判定被告是好人,那么被告到底是好人还是坏人是无法保证的。假设检验的测试能力指标( The powder of test )便是用来衡量抓住换人的能力(在数量上等于 1 减去第二类错误概率)。
如果假设检验拒绝零假设,通常零假设是错的概率较大,如果假设检验没有拒绝零假设,并没有说明零假设是正确的(即使在概率意义上)。将命题放在零假设上,得到无法拒绝的结论,并不是这个结论的一个证明。如果要通过假设检验证明某个命题,通常是将这个命题的反面放在零假设上,然后通过拒绝否命题的方式来证明该命题。
2、置信度并不是
即使我们只按照上面的方法来使用假设检验,而正如我们希望的那样,假设检验拒绝了零假设,我们基于此结论判断零假设不成立。此时「零假设不成立」的概率到底有多大?此事实上上犯错的概率为「零假设成立」的概率。
很多人可能就直观地认为这个概率就是显著性水平。但它不是。显著性水平=P(检验拒绝零假设|零假设成立),而这里的概率为 P(零假设成立|检验拒绝零假设)。后者并不完全等于显著性水平,它与显著性水平、检验能力和零假设成立与否的事前概率有关(具体可用贝叶斯公式推导出来)。这里便给出了一个直观的例子,显示这两个概率之间可以相距甚远。
Q. E. D.