TCS课堂笔记:数据背后的真实
假设某一天,某媒体发布一条消息,说清华大学研究生新生录取的面试过程中,每个系的女性报考者的通过率都要比男性报考者的通过率要低,然后攻击清华大学的新生录取歧视女性。你对这件事情有何看法?
魔鬼经济学中教育我们要对数据进行分析,揭露隐藏在表象世界下的真实世界。但是,对于数据的不同分析方式,会得出截然不同的结果,至少表面上看起来截然不同。
比如在上面的例子,表面上看起来女性报考者在每个系都受到了歧视,但真实情况如何呢?
为了简单起见,不妨将各系分为两大类,文科系和理工科系,
| 文科 | 理工科 | 全校 | |
| 男 | 4/10=40% | 20/100=20% | 24/110=22% |
| 女 | 30/100=30% | 1/10=10% | 31/110=28% |
表格里面的 a/b=c%的含义为b人报考,a人通过,通过率为c%。
这个例子便显示即使数据表明在每个系,女性通过率要低于男性,在全校范围看来,女性的通过率也可能比男性高,这样看来,歧视女性报考者的说法就无法成立了。
上面是一个例子,显示出数据必须从整体来看。下面是一个例子,单从整体来看数据也是不够的。
某气象台号称它的天气预报整体准确率高达80%。你对这个数据有何看法?
似乎80%是足够高了。但其实不然。大多数人关注的天气也就是下雨和不下雨之分。任何一个人都能预测天气,达到90%以上的准确率,只需要总是预测不下雨即可(显然,在北京,雨天的概率要<10%)。
想想看,你是否被人用上面的两种方法忽悠过?
注:上面的例子和数据均为作者伪造,清华大学也从没有歧视女性之说,请勿用作其它论据。
被忽悠了。。。
其实说白了,不管哪个国家的媒体基本都是用来愚昧百姓的工具。
人都很难分清自己表象世界下的真实世界,甭说社会的了。况且有的人虽能分清,却愿意生活在比较完美的表象世界里
这个拔得高了点,我(这是一篇课堂笔记)本意是学术性,而不是如此政治化
是跑远了。。。最近心情比较浮躁,有点愤青,呵呵
反驳"数据背后的真实"
看我的算法:
文科 理科 全校
男 40/100=40% 20/100=20% 60/200=30%
女 30/100=30% 10/100=10% 40/200=20%
这和作者的统计之间,大家应该可以看出差别
ls 不清楚作者要表达的是什么意思. 你这个例子当然是对的了, 但是我们现在做的是逻辑上的驳论, 是推翻一个看似正确的常识, 不是证明一个命题.
的确,很多东西看似正确,我对此豪无异义,只是对作者提出的男女入学通过率这一例子表示怀疑,是否妥当?
见笑了
概率统计,应该是现代人的常识,可惜,基于某种原因,成了专有知识……
另,我的blog上署名 李笑来 的留言并不是我……晕。
还有,我加了你的gtalk。
恩,这里越来越好看了
老百姓一直都是 被忽悠的,数据都不透明,只给你结果,想怎么说就看当事人的需要了。我们是愚民!!!
这个话题果然每个学期都要讲
在博主推荐下,读了《魔鬼经济学》,现在读这篇blog,感觉很好,呵呵。
让我联想起一个东西 就是所谓local nature 如果把每个系的情况看成是学校整体的录取情况的局部的话,从这里可以知道,知道了每个局部的情况(在这里我定义为比如每个系的男女通过率高低情况),不一定能反映整体的情况.与之相反地即所谓local nature 整体的情况直接来源于局部情况.有意思
这组数据很有意思