TCS课堂笔记:数据背后的真实

假设某一天,某媒体发布一条消息,说清华大学研究生新生录取的面试过程中,每个系的女性报考者的通过率都要比男性报考者的通过率要低,然后攻击清华大学的新生录取歧视女性。你对这件事情有何看法?

魔鬼经济学中教育我们要对数据进行分析,揭露隐藏在表象世界下的真实世界。但是,对于数据的不同分析方式,会得出截然不同的结果,至少表面上看起来截然不同。

比如在上面的例子,表面上看起来女性报考者在每个系都受到了歧视,但真实情况如何呢?

为了简单起见,不妨将各系分为两大类,文科系和理工科系,

文科 理工科 全校
4/10=40% 20/100=20% 24/110=22%
30/100=30% 1/10=10% 31/110=28%

表格里面的 a/b=c%的含义为b人报考,a人通过,通过率为c%。

这个例子便显示即使数据表明在每个系,女性通过率要低于男性,在全校范围看来,女性的通过率也可能比男性高,这样看来,歧视女性报考者的说法就无法成立了。

上面是一个例子,显示出数据必须从整体来看。下面是一个例子,单从整体来看数据也是不够的。

某气象台号称它的天气预报整体准确率高达80%。你对这个数据有何看法?

似乎80%是足够高了。但其实不然。大多数人关注的天气也就是下雨和不下雨之分。任何一个人都能预测天气,达到90%以上的准确率,只需要总是预测不下雨即可(显然,在北京,雨天的概率要<10%)。

想想看,你是否被人用上面的两种方法忽悠过?

注:上面的例子和数据均为作者伪造,清华大学也从没有歧视女性之说,请勿用作其它论据。

  • 新年快乐 时间过得真快,转眼间奥运都快开始了。 1. Ann ...
  • 魔鬼经济学 - 揭示隐藏在表象之下的真实世界 译者: 刘祥亚作者: (美)史蒂芬·列维特 / 史蒂芬·都伯纳副标题: 揭示隐藏在表象之下的真实世界isbn: 7807281960页数: 209定价: 28出版社: 广东...
  • China Theory Day Tsinghua ITCS Theory Day (I) time: Apr. 11, 2:00-5:00pm The Institute for Theoretical Computer Science in Tsinghua University has initiated a Theory Day program, a one-day public workshop to be held...
14条留言 -> 跳到留言表格
  • At 2007.05.12 17:15, 前博客 said:

    被忽悠了。。。

    • At 2007.05.12 21:20, milo said:

      其实说白了,不管哪个国家的媒体基本都是用来愚昧百姓的工具。
      人都很难分清自己表象世界下的真实世界,甭说社会的了。况且有的人虽能分清,却愿意生活在比较完美的表象世界里

      • At 2007.05.13 10:07, zhiqiang said:

        这个拔得高了点,我(这是一篇课堂笔记)本意是学术性,而不是如此政治化

        • At 2007.05.16 05:47, milo said:

          是跑远了。。。最近心情比较浮躁,有点愤青,呵呵

      • At 2007.05.14 00:02, dudu said:

        反驳"数据背后的真实"
        看我的算法:
        文科 理科 全校
        男 40/100=40% 20/100=20% 60/200=30%
        女 30/100=30% 10/100=10% 40/200=20%
        这和作者的统计之间,大家应该可以看出差别

        • At 2007.05.14 07:35, You+XU said:

          ls 不清楚作者要表达的是什么意思. 你这个例子当然是对的了, 但是我们现在做的是逻辑上的驳论, 是推翻一个看似正确的常识, 不是证明一个命题.

        • At 2007.05.14 09:08, dudu said:

          的确,很多东西看似正确,我对此豪无异义,只是对作者提出的男女入学通过率这一例子表示怀疑,是否妥当?
          见笑了

          • At 2007.05.14 10:38, 李笑来 said:

            概率统计,应该是现代人的常识,可惜,基于某种原因,成了专有知识……

            另,我的blog上署名 李笑来 的留言并不是我……晕。

            还有,我加了你的gtalk。

            • At 2007.05.14 13:33, hungts'un said:

              恩,这里越来越好看了

              • At 2007.05.16 15:54, meil said:

                老百姓一直都是 被忽悠的,数据都不透明,只给你结果,想怎么说就看当事人的需要了。我们是愚民!!!

                • At 2007.05.17 00:40, dribblejj said:

                  这个话题果然每个学期都要讲 :D

                  • At 2007.05.18 06:49, rex said:

                    在博主推荐下,读了《魔鬼经济学》,现在读这篇blog,感觉很好,呵呵。

                    • At 2007.05.22 01:03, Reps&AG&ANT said:

                      让我联想起一个东西 就是所谓local nature 如果把每个系的情况看成是学校整体的录取情况的局部的话,从这里可以知道,知道了每个局部的情况(在这里我定义为比如每个系的男女通过率高低情况),不一定能反映整体的情况.与之相反地即所谓local nature 整体的情况直接来源于局部情况.有意思

                      • At 2007.09.10 20:45, 联搜 said:

                        这组数据很有意思

                        (Required)
                        (Required, not published)

                          B | I | U | D | 添加链接 | 插入引用 | 插入代码 | 插入表情 | | + | ?
                        guest | 注册 | BBS | 管理 | English | 繁體 | https

                        阅微堂

                        zhiqiang's personal blog
                        Loading...
                        Loading...
                        Loading...