<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>阅微堂 &#187; 数据分析</title>
	<atom:link href="http://zhiqiang.org/blog/tag/%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90/feed" rel="self" type="application/rss+xml" />
	<link>http://zhiqiang.org/blog</link>
	<description>zhiqiang&#039;s personal blog</description>
	<lastBuildDate>Wed, 08 Sep 2010 04:07:10 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.9.1</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>TCS课堂笔记：数据背后的真实</title>
		<link>http://zhiqiang.org/blog/science/tcs-classroom-notes-data-behind-the-real.html</link>
		<comments>http://zhiqiang.org/blog/science/tcs-classroom-notes-data-behind-the-real.html#comments</comments>
		<pubDate>Sat, 12 May 2007 04:34:34 +0000</pubDate>
		<dc:creator>zhiqiang</dc:creator>
				<category><![CDATA[自然科学]]></category>
		<category><![CDATA[TCS]]></category>
		<category><![CDATA[数据分析]]></category>
		<category><![CDATA[课堂笔记]]></category>
		<category><![CDATA[魔鬼经济学]]></category>

		<guid isPermaLink="false">http://zhiqiang.org/blog/588.html</guid>
		<description><![CDATA[假设某一天，某媒体发布一条消息，说清华大学研究生新生录取的面试过程中，每个系的女性报考者的通过率都要比男性报考者的通过率要低，然后攻击清华大学的新生录取歧视女性。你对这件事情有何看法？
魔鬼经济学中教育我们要对数据进行分析，揭露隐藏在表象世界下的真实世界。但是，对于数据的不同分析方式，会得出截然不同的结果，至少表面上看起来截然不同。...]]></description>
			<content:encoded><![CDATA[<p><strong>假设</strong>某一天，某媒体发布一条消息，说清华大学研究生新生录取的面试过程中，每个系的女性报考者的通过率都要比男性报考者的通过率要低，然后攻击清华大学的新生录取歧视女性。你对这件事情有何看法？</p>
<p><a href="http://zhiqiang.org/blog/374.html" target="_blank">魔鬼经济学</a>中教育我们要对数据进行分析，揭露隐藏在表象世界下的真实世界。但是，对于数据的不同分析方式，会得出截然不同的结果，至少表面上看起来截然不同。</p>
<p>比如在上面的例子，表面上看起来女性报考者在每个系都受到了歧视，但真实情况如何呢？</p>
<p>为了简单起见，不妨将各系分为两大类，文科系和理工科系，</p>
<table border="1" cellspace="1" align="center">
<tbody>
<tr>
<td></td>
<td>文科 </td>
<td>理工科 </td>
<td>全校</td>
</tr>
<tr>
<td>男</td>
<td>4/10=40% </td>
<td>20/100=20% </td>
<td>24/110=22%</td>
</tr>
<tr>
<td>女 </td>
<td>30/100=30% </td>
<td>1/10=10% </td>
<td>31/110=28%</td>
</tr>
</tbody>
</table>
<p>表格里面的 a/b=c%的含义为b人报考，a人通过，通过率为c%。</p>
<p>这个例子便显示即使数据表明在每个系，女性通过率要低于男性，在全校范围看来，女性的通过率也可能比男性高，这样看来，歧视女性报考者的说法就无法成立了。</p>
<p>上面是一个例子，显示出数据必须从整体来看。下面是一个例子，单从整体来看数据也是不够的。</p>
<p>某气象台号称它的天气预报整体准确率高达80%。你对这个数据有何看法？</p>
<p>似乎80%是足够高了。但其实不然。大多数人关注的天气也就是下雨和不下雨之分。任何一个人都能预测天气，达到90%以上的准确率，只需要总是预测不下雨即可（显然，在北京，雨天的概率要&lt;10%）。</p>
<p>想想看，你是否被人用上面的两种方法忽悠过？</p>
<p>注：上面的例子和数据均为作者伪造，清华大学也从没有歧视女性之说，请勿用作其它论据。</p>
<p></p>
<div><h2>相关文章</h2><ul><li><a href="http://zhiqiang.org/blog/review/freakonomics-reveals-hidden-under-representation-in-the-real-world.html">魔鬼经济学 - 揭示隐藏在表象之下的真实世界</a> <small>
译者: 刘祥亚作者: （美）史蒂芬&middot;列维特 / 史蒂芬&middot;都伯纳副标题: 揭示隐藏在表象之下的真实世界isbn: 7807281960页数: 209定价: 28出版社: 广东...</small></li><li><a href="http://zhiqiang.org/blog/science/computer-science/china-day-theory.html">China Theory Day</a> <small> Tsinghua ITCS Theory Day (I) time: Apr. 11, 2:00-5:00pm The Institute for Theoretical Computer Science in Tsinghua University has initiated a Theory Day program, a one-day public workshop to be held...</small></li><li><a href="http://zhiqiang.org/blog/scribble/happy-new-year-2008.html">新年快乐</a> <small> 时间过得真快，转眼间奥运都快开始了。  1. Ann ...</small></li></ul></div>    <p></p>
    <hr noshade style="margin:0;height:1px" />
    <p>&copy; zhiqiang for <a href="http://zhiqiang.org/blog">阅微堂</a>, 2007. | <a href="http://zhiqiang.org/blog/science/tcs-classroom-notes-data-behind-the-real.html">&#38142;&#25509;</a> | <a href="http://zhiqiang.org/blog/science/tcs-classroom-notes-data-behind-the-real.html#comments">14 &#26465;&#35780;&#35770;</a></p>]]></content:encoded>
			<wfw:commentRss>http://zhiqiang.org/blog/science/tcs-classroom-notes-data-behind-the-real.html/feed</wfw:commentRss>
		<slash:comments>14</slash:comments>
		</item>
	</channel>
</rss>
