对离散系数/变异系数的质疑

谢益辉 2005-10-31

我现在越来越觉得人是很懒惰的动物,尤其是在思考问题上。常常就被一些貌似有理的理由给说服了,而不去认真推敲——这是懒惰的一个方面。前辈们常常给我们探索出很多条路,或是遗留给我们很多物质或精神财富,我们就容易死抱着它们——这是懒惰的另个方面。

这种懒惰,体现在统计里面最明显的就是我们对各种度量指标的信任和依赖(注意这两个词分别对应着前面说的懒惰的两个方面)。举一例说明:

对于数据的概括性度量,我们可以从几种趋势、离散趋势和偏态与峰态这三个方面着手去度量,在离散趋势的度量中,统计学中有一个度量相对离散程度的指标“离散系数”,它是用一组数据的标准差与其相应的平均数之比而得来的,这种度量方法,看似在标准差的基础上进了一大步,前人对它的解释都是称其“消除变量值水平高低和计量单位不同对离散程度测度值的影响”,很动听的解释,也确实有一定的道理,但是我觉得其实这种度量方法也未必能显示出相对离散程度。请看下面的三组数据:

离散系数/变异系数

先看一、二两组数据,从右图中直观来看,我个人觉得第二组的离散程度应该比较大,而从计算的离散系数结果可知,第一组数据的相对离散程度几乎是第二组的四倍,与常理似乎不符;如果说这一点有争议的话(因为直观上的离散程度可能有主观判断的问题存在),那么看第一组和第三组数据,很明显,第三组数据只是在第一组的数据上分别都加上了2,按理说,这两组数据的相对离散程度应该是差不太远,可结果是第一组的相对离散程度是第三组的两倍多。

其实我在这里啰嗦一通,本意不在于离散系数本身,动动脑筋,我的观点一样会被打倒。我真正的目的有二:(1)有点怀疑精神,书是应该批判地读的(上学期听老程在讲台上大手一挥:“就算是中央文件,我们也是可以拿来讨论的!”嗯,很不错);(2)对于数据的度量,应该从多个角度进行,我举这个例子,其实也是走了个极端,只用一个指标度量,钻了个空子而已。