总结一下
1、一个投资策略如果用过去一段时间的历史数据去模拟发现它能够持续战胜市场,这个证据足够证明它是一个好策略吗?一个基金经理过去一段时间表现很好,能证明他比别的经理要好吗?
答案是不能。因为有可能是该投资策略和基金经理的操作风格恰好符合过去一段时间的历史形势从而取得好成绩,如果不能在未来形势发生改变时修改其策略和风格,则可能导致重大亏损。书中举的例子是,某债券投资经理的操作风格是:当债券下跌时再次买入拉底平均成本,这种方法让他在 98 年之前持续战胜指数,但在 98 年的市场大跌中将之前赚得钱全亏掉了。
所以作者认为,评价一个东西好,必须在所有的「历史样本」空间里进行考虑,而不只是利用「真实历史样本」去衡量。可惜作者并没有详细说明如何产生更多的「历史样本」。而「历史」,比如股票价格并不完全是随机的,它不能简单用一个随机游走来刻画。
2、在短时间尺度内,对于投资组合的观测只能观测到其波动性,而不是报酬。如果你盯着资讯系统追看新闻,那部分新闻都只是噪声。所以应该看周刊里的深度报告而不是华尔街日报。
3、期望和条件期望:你现在 63 岁,中国的平均寿命是 73 岁,你预期还能活多少年?
肯定不是 10 年。否则你万一活到了 83 岁,你预期还能活多少年?
4、概率 vs 期望:如果要去估计投资组合,那么不光要预测赚钱的概率,还需要估计赚钱和亏钱的幅度。单独谈论赚钱的概率有多大没有意义。从概率分布的角度上来说,要考虑分布的偏度( Skewness )
5、癌症丛集:如果你在报纸上看到一则新闻说你居住的区域因为辐射较强(比如在高压线旁边),癌症病例比例比全市平均比例高 20%,你怎么看?
事实上,即使癌症病例是随机分布的,在全市所有地区都均匀的概率微乎其微,事实上,总会有些地方它的病例比别的地方要多一些。
6、如果需要研究技术指标,其中一种方法是调整技术指标的参数,然后去历史数据去测试,从中选取最合适的参数,这样做合适吗?
这样做会陷入数据探索( data bootstrap )偏差,当你的技术指标足够复杂,可选参数足够多时,完全可能跟历史情况匹配很好的指标和参数,但并不意味着它可以用来预测未来。另一个相关的名词叫做过度拟合( over fitting )。
7、数据挖掘( data mining )偏差:平均 365 个人中有 1 人在 1 月 1 日生日的可能性,但只需要 23 个人,就能找到两个人在同一天生日。事实上,当考虑因子比较多的时候,要在其中找到匹配关系实在太容易了。
8、幸存者效应:你持续不断地受到股评短信,它向你推荐黑马股,令人惊讶地你发现它的连续十次推荐都命中了。你会相信它吗?
你有可能只是 10 万个短信接收者的幸存者而已,如果你真的按照它所说的去做的话,完全可能血本无亏。
9、absence of evidence 和 evidence of absence 的区别:在癌症丛集的案例中,如果利用统计理论显示没有证据表明此区域的病例比例比平均比例要高(数字上的 20%可能只是因为随机因素导致的),但这并没有直接否认此区域的病例比例比平均比例要高。
这本书谈到的数学概念是比较简单的,作者为了让文科生也能读懂,将数学概念嵌入到了故事里面,使得文章虽然有趣,但未免拖沓了点。书里花了不少篇幅谈论哲学问题,引用了不少哲学人物和观点,我除了关于波普尔的部分大致看了看,其它全跳过去了,因为不知道作者想表达什么意思。
Q. E. D.