如果你想掩盖数据,那么就把它们离散化吧!
不知道为什么这么多人钟爱于将连续数据离散化,例如明明有年龄数据,在分析的时候非要分成老幼青壮这样的分类变量;明明有原始的计数数据,非要搞成“0-5、6-10、……”这样的频数表。大概是数据得来不花钱吧,这样毁灭信息一点都不心疼。
某年我在某医学统计会议上专门强调了这个愚蠢的问题,结果后面还有某小师妹没理解我的意思,把我批驳了一番,依然支持离散化,我无语,只能摇摇头叹口气。去年useR! 2008会议上,Frank Harrell也提到了这个问题,他也想不通,为什么人们喜欢离散化。
如果你问一位lady:请问姑娘芳龄多少哇?姑娘回答:臣妾属于0~100岁这一组的。我想,此时这些人该能理解离散化的毛病所在了吧。