统计学的世界观

起了一个超大的题目，但我并不想啰嗦太多。今日看见 FlowingData 发了一篇简单的文章《汇总的统计数字无法告诉你数据的全貌》。图当然是一如既往地精致，不过道理其实老百姓都懂：对个体而言，我们通常都不希望被代表、被平均，比如多数人总是在拖平均工资的后腿。再比如一个人的死亡是巨大的悲剧，而一万个人的死亡只是一个统计数字。

这篇文章的表达方式有那么点别致，用了两个画面对照的手法，容易给人留下深刻印象。

视觉反差

我联想起另一个作品，就是 Chris Wild 大人的可视化统计推断工具（VIT）。这二者的区别大概在两方面：前者说的是总体，后者主要针对样本；前者更像针对寻常百姓，后者针对受过统计学训练的人。我觉得统计学出身或做统计相关工作的人士不妨看看 VIT 的例子，它们表达了可能我们多数人都容易忽略的问题，就是我们看到一个样本（尤其是图形）时，非常容易陷在这个特定的样本里出不来，而忘了它背后的随机性。换句话说，要是上帝重新掷一下骰子，你拿到手的样本可能又是另一个样。VIT 显示了大量的其它可能性，比如以后你再看一个样本的箱线图，就应该想一下，这个箱子可能会抖。¹

其实我六年前在《真理在缩水，还是上帝在掷骰子？》一文中的第一节也说过同样的问题。看 QQ 图不要那么较真，偏离对角线未必代表样本就很不正态，那些点就算来自正态分布，也是会甩来甩去的哟。

看山不是山，大概应该是统计学的世界观吧。

友情提示：如果真的觉得箱子在抖，别太得意以为自己的世界观终于正过来了。请留意一下是不是地震了。 ↩︎

谢益辉 2017-07-07