维希特分布(Wishart)的分布密度

谢益辉 2006-03-12

这是伟大的SEM工程之——Wishart分布篇!要用最大似然估计(ML)的话,目前似乎只有这一条路可走,今日强忍着看多元统计分析的书没吐出来,实在是佩服张尧庭老师,他简直不是人——只能说是神1……其中用到的高等代数证明我几乎一个都没看懂,汗如雨下。此分布由Wishart于1928年推导出来(因此我认为Wishart也不是人),据称有人就用这个时间作为多元统计分析的诞生时间,由此可见Wishart分布之牛X。废话少说,言归正传:

首先定义一个矩阵Xnxm=(xij)的分布,X的分布即其列向量一个个拼接起来形成的长向量的分布;若X是n阶对称矩阵,那么只需要取上三角(或下三角)部分组成长向量即可,此时

样本矩阵仍然是:

其中假定y(i)相互独立,且y(i)~Nmi, V),Y的期望记作:

此时就可以给出Wishart分布的定义了。以下二式中,(1)式是非中心Wishart分布(τ≠0),(2)式是中心Wishart分布(τ=0):

现隆重推出中心Wishart分布的密度函数:

注意当A不是正定阵时,f(A)=0,在SEM参数的最大似然估计中,似乎没看见对A的正定性的检验,这是目前我的一点小疑问。现在给出密度函数之后,可以顺便说说SEM参数最大似然估计的思路:首先将结构方程模型中的样本标准化(如果只是做ML那么事实上只需要中心化就可以了),使各个样品的均值为零,这一步其实就是为中心Wishart分布做准备(使得τ=0),那么现在容易证明A其实就是样本协方差阵S。而SEM参数估计的关键工作(或者说目的)也就在于使理论推导出的协方差阵(Σ(θ))与实际样本协方差阵S尽可能接近;理论协方差阵Σ(θ)也就是上式密度函数中的V,那么现在要做的就是知道了S来估计Σ(θ),也即知道了A来估计V,正好就顺路上了最大似然估计的“贼船”,如果最大似然估计的原理忘了请参见尾注2。还有一点需要提醒注意的是,最大似然估计本身并没有直接达到使Σ(θ)S尽量接近的目的,看估计的效果如何,还得在估计之后再对结果进行检验(拟合指数)。


  1. 我可以放话:世界上不容怀疑的事情只有两件——一是太阳从东边升起;二是张尧庭老师是神。 ↩︎

  2. 最大似然估计法(Maximum Likelihood Estimation):设 $X_1$, $X_2$, …, $X_n$ 是来自总体 $X \sim f(x; \theta)$(其中 $\theta$ 未知)的样本,而 $x_1$, $x_2$, …, $x_n$ 为样本值,使似然函数

    $$L(\theta;x_1,x_2,\ldots,x_n)=f(x_1;\theta) f(x_2;\theta) \cdots f(x_n;\theta)$$

    达到最大的 $\hat{\theta}$ 称为参数 $\theta$ 的最大似然估计值。一般地,$\theta$ 的最大似然估计值 $\hat{\theta}$ 满足:

    $$\frac{d \ln L}{d \theta}=0$$ ↩︎