这篇日志的数学理论参见朱利平和刘莉2005年的一篇论文《线性结构方程参数估计的一种简单方法》,载于《应用概率统计》。
偏最小二乘法(Partial Least Square,PLS)求解结构方程模型的基本思路是:先用PLS分别求出因变量和自变量的线性组合系数(只求第一成分!),然后根据SEM的形式,将这些线性组合拆分为潜变量,然后再计算各个潜变量的数值(因为它们都是观测变量的线性组合),连潜变量都可以计算出数值的话,我们便可以为所欲为了,下面根据这些数值分别和观测变量做回归,求出观测变量对潜变量一一回归的系数,便是测量模型的系数了,最后拿因变量的潜变量对自变量的潜变量一一回归,便得到了结构模型的系数。
记得吴老以前曾经在课上讲过,对于结构方程模型,PLS方法相对于协方差建模来说优势在于前者可以计算出潜变量的值,这句话我不敢苟同,因为我觉得这不能称之为“优势”,充其量是披着人皮的鬼扯。详细原因我没时间写,大致有这么几点:
-
为什么只取第一成分(或第一组线性组合)?按照“信息”的观点,第一成分未必提取了足够的信息。
-
为什么一个成分是由若干个潜变量相加而成?或者为什么一个成分可以拆分为若干个潜变量?这种拆分的理论依据何在?仅仅是因为知道某几个观测变量受一个潜变量影响,就硬性从一个成分中提取这几个观测变量的线性组合作为潜变量的代表?
-
既然潜变量是由观测变量线性组合而来,为什么下一步又要反过来,拿观测变量对潜变量做回归?即:拿每一个观测变量的值和几个观测变量的线性组合值做回归。这一步逻辑是如何扭转过来的?观测变量究竟是原因还是结果?
-
潜变量作为观测变量的线性组合是什么具体意思?看起来是加权求和的样子,所以大多数做满意度的人都把它奉为“满意度指标”,而这种权数的依据(协方差最大化)和真正的满意度究竟是什么关系?
欢迎力挺结构方程模型以及做满意度研究的朋友们拍砖。