数据统计误区

作者: 张志强 , 2007-05-12 , 共 682 字

假设某一天，某媒体发布一条消息，说清华大学研究生新生录取的面试过程中，每个系的女性报考者的通过率都要比男性报考者的通过率要低，然后攻击清华大学的新生录取歧视女性。你对这件事情有何看法？

魔鬼经济学中教育我们要对数据进行分析，揭露隐藏在表象世界下的真实世界。但是，对于数据的不同分析方式，会得出截然不同的结果，至少表面上看起来截然不同。

比如在上面的例子，表面上看起来女性报考者在每个系都受到了歧视，但真实情况如何呢？

为了简单起见，不妨将各系分为两大类，文科系和理工科系，

	文科	理工科	全校
男	4/10=40%	20/100=20%	24/110=22%
女	30/100=30%	1/10=10%	31/110=28%

表格里面的 a/b=c%的含义为 b 人报考， a 人通过，通过率为 c%。

这个例子便显示即使数据表明在每个系，女性通过率要低于男性，在全校范围看来，女性的通过率也可能比男性高，这样看来，歧视女性报考者的说法就无法成立了。

上面是一个例子，显示出数据必须从整体来看。下面是一个例子，单从整体来看数据也是不够的。

某气象台号称它的天气预报整体准确率高达 80%。你对这个数据有何看法？

似乎 80%是足够高了。但其实不然。大多数人关注的天气也就是下雨和不下雨之分。任何一个人都能预测天气，达到 90%以上的准确率，只需要总是预测不下雨即可（显然，在北京，雨天的概率要<10%）。

想想看，你是否被人用上面的两种方法忽悠过？

注：上面的例子和数据均为作者伪造，清华大学也从没有歧视女性之说，请勿用作其它论据。

Q. E. D.

本文将证明：最佳约会策略里提到策略，忽略前 37%的对象，然后在剩下的对象里挑第一个比前 37%都好的对象，这个策略是最优的。更准确地，我们将证明：任何约会策略的成功概率都不可能超过

$\frac{u}{n}\sum_{i=u}^{n-1}\frac1i$ ，其中

$u$ 为满足

$\sum_{i=u}^{n-1}\frac1i\geq 1$ 的最大值。这个

$u$ 大约为 37%，最后成功的概率大约为 40%。