统计没有义务下结论

若某种统计分析得不出结论，有些人便会着急或恼火，什么破统计？辛辛苦苦做个t检验，结果竟然是不显著；任劳任怨做了K-Means聚类分析，聚类结果竟然不稳定，样本一会儿在这一类，一会儿在那一类……

这种现象很普遍，也很容易理解。不知道是谁制造了这样的“言必称显著”的假象，这里面肯定不止一个“谁”。我们都怕没结论可讲，尤其是没有漂亮的结论。想一想，给外行们来一句，“Statistically speaking, the difference is significant at a 0.05 level”，那是多么拽的一件事情。再不行，我搬出K-Means聚类吓死你，看我用K-Means可以把我的样本聚为漂亮的三类。再不行，小样儿你懂LASSO么？知道CART不？明白啥叫希尔伯特空间不？整个VC dimension给你瞅瞅，中不？

今天一位不明来路的陌生人给我发Email问K-Means聚类的问题，说是聚类结果不稳定（不同的初始值会收敛到不同的聚类结果），问怎样选取好的初始值，以及怎样的聚类结果是正确的。