造个假数都不会造

新华网关于学生冬季长跑的调查结果让人着实跌眼镜，一共调查了100人，报告中的结果都是xx.xx%形式的，例如“92.79%的学生认为强健了自己的身体”。这0.79个人是怎么来的？

咱们学统计的，应该对数字有一定的敏感性，比如当你看到小数位中含有667这样的数字（e.g. 0.291667）时就应该警觉：对方是否给出了样本量？如果没给的话，你就应该怀疑这个数字本来是0.29166666……如果你不知道这个比例是怎么来的，那么就拿一些整数去乘这个比例，看看哪个数字乘以这个比例能得到整数。最终你发现是24的倍数，样本量是7的倍数。然后你再想，7/24、14/48、28/96、……这一系列数字哪对更符合这个调查的背景。如：若你怀疑调查者很懒，那么不妨猜测他/她就调查了24个人。

以上只不过是低级的数字游戏，对统计来说根本没派上用场，现在很多人都琢磨着怎么建个模型整个P值去忽悠答辩委员会，而事实往往是，费尽千般心思，辛辛苦苦调查来的数据在建模之后根本没法用，要么系数是反的，要么不显著，或者有自相关，或有异方差，总之和初衷很不符，此时，离答辩往往只剩下几个星期，怎么办呢？只好眼睛一闭心一横，改数据吧！怎么改呢……【此处省略八千字】最后，王子和公主们过上了幸福生活。

我一般不相信经济学论文中的统计模型，原因之一就是数据。

赞赏

作为一名没有固定工作的自由职业者，我非常感谢您通过捐赠的方式来支持我的写作和开源软件开发。当然，捐赠纯属自愿。无论金额多少，都是一片诚挚的心意。支付方式如下：

微信	← 奋力支开它俩 →	支付宝
	其它爱心通道 ↓ Venmo: `@yihui_xie` Zelle: `[email protected]` PayPal: `[email protected]`

若使用 Venmo/Zelle/Paypal，请添加备注“gift”或“donation”，以免捐赠被视为我的可税收入。若使用 Paypal，支付类型请选 Family and Friends，而不要选 Goods and Services。

在不影响生活的前提下，我会将收到的捐赠以尽量大的比例回馈给开源社区和慈善机构。作为参考，2024-25 年间我共收到约三万美元捐赠，完税后我转手捐出了一万五千美元。

谢益辉 2009-04-27