数据统计误区

作者: , 共 682 字

假设某一天,某媒体发布一条消息,说清华大学研究生新生录取的面试过程中,每个系的女性报考者的通过率都要比男性报考者的通过率要低,然后攻击清华大学的新生录取歧视女性。你对这件事情有何看法?

魔鬼经济学中教育我们要对数据进行分析,揭露隐藏在表象世界下的真实世界。但是,对于数据的不同分析方式,会得出截然不同的结果,至少表面上看起来截然不同。

比如在上面的例子,表面上看起来女性报考者在每个系都受到了歧视,但真实情况如何呢?

为了简单起见,不妨将各系分为两大类,文科系和理工科系,

文科 理工科 全校
4/10=40% 20/100=20% 24/110=22%
30/100=30% 1/10=10% 31/110=28%

表格里面的 a/b=c%的含义为 b 人报考, a 人通过,通过率为 c%。

这个例子便显示即使数据表明在每个系,女性通过率要低于男性,在全校范围看来,女性的通过率也可能比男性高,这样看来,歧视女性报考者的说法就无法成立了。

上面是一个例子,显示出数据必须从整体来看。下面是一个例子,单从整体来看数据也是不够的。

某气象台号称它的天气预报整体准确率高达 80%。你对这个数据有何看法?

似乎 80%是足够高了。但其实不然。大多数人关注的天气也就是下雨和不下雨之分。任何一个人都能预测天气,达到 90%以上的准确率,只需要总是预测不下雨即可(显然,在北京,雨天的概率要<10%)。

想想看,你是否被人用上面的两种方法忽悠过?

注:上面的例子和数据均为作者伪造,清华大学也从没有歧视女性之说,请勿用作其它论据。

Q. E. D.

理论计算机(I)课上讲的一个问题,很有意思。
本文将证明:最佳约会策略里提到策略,忽略前 37%的对象,然后在剩下的对象里挑第一个比前 37%都好的对象,这个策略是最优的。更准确地,我们将证明:任何约会策略的成功概率都不可能超过\( \frac{u}{n}\sum_{i=u}^{n-1}\frac1i\) ,其中\( u\) 为满足\( \sum_{i=u}^{n-1}\frac1i\geq 1\) 的最大值。这个\( u\) 大约为 37%,最后成功的概率大约为 40%。