造个假数都不会造

谢益辉 2009-04-27

新华网关于学生冬季长跑的调查结果让人着实跌眼镜,一共调查了100人,报告中的结果都是xx.xx%形式的,例如“92.79%的学生认为强健了自己的身体”。这0.79个人是怎么来的?

咱们学统计的,应该对数字有一定的敏感性,比如当你看到小数位中含有667这样的数字(e.g. 0.291667)时就应该警觉:对方是否给出了样本量?如果没给的话,你就应该怀疑这个数字本来是0.29166666……如果你不知道这个比例是怎么来的,那么就拿一些整数去乘这个比例,看看哪个数字乘以这个比例能得到整数。最终你发现是24的倍数,样本量是7的倍数。然后你再想,7/24、14/48、28/96、……这一系列数字哪对更符合这个调查的背景。如:若你怀疑调查者很懒,那么不妨猜测他/她就调查了24个人。

以上只不过是低级的数字游戏,对统计来说根本没派上用场,现在很多人都琢磨着怎么建个模型整个P值去忽悠答辩委员会,而事实往往是,费尽千般心思,辛辛苦苦调查来的数据在建模之后根本没法用,要么系数是反的,要么不显著,或者有自相关,或有异方差,总之和初衷很不符,此时,离答辩往往只剩下几个星期,怎么办呢?只好眼睛一闭心一横,改数据吧!怎么改呢……【此处省略八千字】最后,王子和公主们过上了幸福生活。

我一般不相信经济学论文中的统计模型,原因之一就是数据。