如何理解和正确使用假设检验

作者: , 共 1369 字

法庭上,被告被控是个坏人,那么在法庭辩论时,控方可建立零假设 H0 :被告是好人,备选假设 H1 :被告是坏人。控方试图拒绝原假设,它的方法是: 先假设原假设成立,然后在此基础上观测到对原假设是小概率的事件,从而拒绝零假设

下面举个例子: 假如好人不喜欢身上背把刀,但坏人喜欢身上背把刀。控方对被告的随机抽样发现 10 次有 9 次被告身上背了一把刀,通过计算估计,如果被告是好人,这种抽样结果出现的概率不会超过 4%。如果法庭要求 90% 的准确度,我们便可以判断零假设不成立,即被告是坏人。但如果要求 99% 的准确度,我们便无法判定零假设不成立,即控方的控诉不成立。

在法官判案时,通常有两类错误:

第一类错误 —— 错判好人:被告是好人,但被判为坏人,即实际上零假设成立,但审判中拒绝了零假设。

第二类错误 —— 放走坏人:被告是坏人,但被漏掉了,即实际上零假设不成立,但审判结果无法拒绝零假设。 一般在做假设检验时只注重第一类错误,即尽量不要错杀好人,不轻易拒绝原假设,这和真实的法庭上的原则是一致的。

在假设检验时通过参数「显著性水平」限定了第一类错误的概率的上限。显著性水平越大,可以容许的第一类错误率越大,也就是说好人更容易被判定为坏人,零假设更容易被拒绝。实际操作中,显著性水平取值为 0.05 或者更小。

假设检验中还有 P 值的概率:在上面的例子, P 值为 5%。它相当于被告的「好人度」,如果假设检验所选取的显著性水平参数高于被告的「好人度」,那么可以拒绝被告是好人的零假设。

上面是假设检验的简单介绍,在实际进行假设检验以及使用假设检验的结果时,还需要注意两个问题,即「置信度」的真正含义和「无法拒绝」的真正含义。

1. 无法拒绝? Absense of evidence is not evidence of absense

假设检验没规定犯第二类错误的概率的上限。即如果法庭判定被告是坏人,那通常被告是坏人的可能性很大,如果法庭判定被告是好人,那么被告到底是好人还是坏人是无法保证的。假设检验的测试能力指标( The powder of test )便是用来衡量抓住换人的能力(在数量上等于 1 减去第二类错误概率)。

如果假设检验拒绝零假设,通常零假设是错的概率较大,如果假设检验没有拒绝零假设,并没有说明零假设是正确的(即使在概率意义上)。 将命题放在零假设上,得到无法拒绝的结论,并不是这个结论的一个证明。如果要通过假设检验证明某个命题,通常是将这个命题的反面放在零假设上,然后通过拒绝否命题的方式来证明该命题。

2. 置信度并不是

即使我们只按照上面的方法来使用假设检验,而正如我们希望的那样,假设检验拒绝了零假设,我们基于此结论判断零假设不成立。此时「零假设不成立」的概率到底有多大?此事实上上犯错的概率为「零假设成立」的概率。

很多人可能就直观地认为这个概率就是显著性水平。但它不是。 显著性水平 =P( 检验拒绝零假设 | 零假设成立 ),而这里的概率为 P( 零假设成立 | 检验拒绝零假设 )。后者并不完全等于显著性水平,它与显著性水平、检验能力和零假设成立与否的事前概率有关(具体可用贝叶斯公式推导出来)。 这里便给出了一个直观的例子 ,显示这两个概率之间可以相距甚远。

Q. E. D.

类似文章:
相似度: 0.083
BASEL 的框架要求所有使用内部模型法计量市场风险必须要进行回溯测试。回溯测试可以:
风险管理 » VaR Primer
在计算 VaR 之前,需要先明确所计算 VaR 的参数。最重要的两个参数为时间期限和置信度,前者对应所需衡量风险的时间段,后者对应风险的容忍度。
总结一下
相似度: 0.046
碎碎念 » 谣言
不知道最初来源于哪里,这个数字我最早是从 李笑来 那里看到的,我看完之后随便搜了几个数字,觉得结果也大同小异,心想为何笑来突然关注这个数字。后来才发现网上被传得到处都是,包括 我的老同学也参与了 ,最后发现其根源是下面这条「新闻」
风险管理用到的指标通常有两种计算方式,一种是事前的( ex ante ),一种是事后的( ex post )。
标准的期望 - 方差组合优化目标中有一个参数 \( \lambda\)
重新学习了下指数编制规则,这里写些学习笔记和心得。