评论两则:关于数据挖掘和机器学习

谢益辉 2010-10-24

上周赵老师给我发了一个幻灯片让我帮忙简单翻译一下,标题How NOT to do statistics,作者Larry Shepp,沃顿商学院统计学教授,今年七月在群众大学参加统计学会议,讲了这么个题目。起初我忙活着没注意,后来打开认真看了看,我就悲剧了——我总是看到和我这个愤青脑子一致的意见(切,赤裸裸的表扬与自我表扬)。Shepp说了两件事,一件是“从非零的相关系数得出非独立或者因果关系结论的要么是骗子要么是笨蛋”,例子是伪回归(很多客观可能熟悉这个老话题),这没啥;另一件是“流行的数据挖掘方法仅依赖于统计学尤其是回归方法是没谱的”,当然这是我的翻译(“谱”是我的专用词),这事儿我之前有一定想法,不过这老爷子除了觉得数据挖掘方法应该多关注问题本身(而不是整天训练集测试集编两个程序跑来跑去),还提到了John Tukey,这事儿倒是让我有些意外,Tukey引领了探索性数据分析,在当时是对纯粹用数理方式做统计的环境的一种挑战(看,Tukey也是愤青,不过其实他数学极好),结果部分后人被带偏了,大家高呼“用数据说话”,渐渐变成了“只用数据说话”,这确实是个悲剧。去Shepp老爷子网站上看了一眼,结果看到类似的一个片子,自称有“挑衅”意味,还是关于这个问题的,只不过“挑衅”对象变了(而且已经辞世)。有点儿意思。

再一则:俺们系那位大人(圣斗士星矢中一般都把厉害的boss称为“那位大人”),正琢磨着开机器学习课,最近给研究生发邮件,其中提到Hastie那三位大人的圣经般的机器学习书,即Elements of Statistical Learning,其形容如下:

a popular, but thoroughly frustrating and actually quite bad book

厉害,厉害。咋样,是不是再次印证美帝之独立思想?你说说,俺们小的们信谁去?不用自己的脑子,就会被洪水般的意见淹没。木有春哥,木有绵羊音。