煞风景系列™之调和曲线图

谢益辉 2005-12-21

调和曲线图是D.F.Andrews 1972年提出的三角多项式作图法,所以又称为三角多项式图,其思想是把高维空间中的一个样品点对应于二维平面上的一条曲线。

设p维数据$x = (x_1,x_2,\ldots,x_p)'$,对应的曲线是:

$$f_{x}(t)={\frac {x_{1}}{\sqrt {2}}}+x_{2}\sin(t)+x_{3}\cos(t)+x_{4}\sin(2t)+x_{5}\cos(2t)+\cdots$$

上式当$t$在区间$[-\pi, \pi]$上变化时,其轨迹是一条曲线。

在多项式的图表示中,当各变量的数值太悬殊时,最好先标准化后再作图。这种图对聚类分析帮助很大,如果选择聚类统计量为距离的话,同类的曲线非常靠近拧在一起,不同类的曲线相互分开,非常直观。

书上一般都会讲调和曲线图的两点优良数学性质:一是保持线性性,二是与一般的欧式距离之间的关系。前一点倒是没什么让人惊奇的,因为保持线性性的变换太多了;第二点可以稍作研究。

上面的变换是一个连续函数,我们定义两个样本X与Y之间的距离为如下平方积分形式(事实上也是一种常用的范数):

$$d^2_{f_xf_y}=\int_{-\pi}^{\pi}|f_x(t)f_y(t)|^2dt$$

愿意复习三角函数积分的可以做一做,其实很简单的。最后可以发现这个距离与欧式距离(后者)有如下关系:

$$d^2_{f_xf_y}=\pi d^2_{XY}$$

根据这条性质我们马上可以得知前面观察图线聚类的数学依据。关于调和曲线图,有两点需要P.S.一下:

P.S.1 若样本量很大,可以想象,作出的图必然是“浓墨重彩”,混在一起分不清楚。比如1000条线缠在一起,到时候还能分清谁是谁么?所以这种图形只是适合小型样本的大致观察。

P.S.2 本图形是从余毅师兄的书上看到,以前我也不知道。师兄先是问我会不会用SAS,然后再问我怎么用软件作这种图,我便领会到这又是对SAS的畏惧和盲目崇拜的典型例子……大家觉得该怎么作呢?用得着请出SAS老爷爷么?