一天不上论坛的后果(外一篇Logistic回归)

谢益辉 2007-12-14

昨天也不能算没上论坛,只是大致看了看,挑了几个R问题回答了一下然后就下了。导致今天上论坛一口气回了三个多小时帖子。累死了。

外一篇:关于Logistic回归

为什么计量经济学的书上至今还要赫然写着关于Logistic回归用分组的方法求频率再用自变量去拟合这些频率(OLS)?莫非Gujarati这些人不懂广义线性模型?不应该吧。Logistic回归的因变量取值是二分类的(比如0、1),表面上看来把样本分组之后计算因变量在每一组中的频率看起来更像是概率,从而拟合这些“概率”是很有道理的,但实际上问题就会出在分组上,以什么为依据分组呢?

在统计上,只要是涉及到综合,就几乎不可避免要损失信息,这是一条被人忽视的铁律(我在上周的报告中特意提到了这一点)。Logistic回归若将样本分组,求得因变量频率的同时必然也损失自变量信息,一般大家都用自变量的均值代替那一组的自变量水平,显然这是很荒谬的。

若不分组的话,可能很多人就很惊恐了:Logistic回归不是用log(p/(1-p))么?要是p=1的话岂不是这个式子就没有意义了?这样理解的人不在少数,包括我们的老杜就误解了这个问题(可能至今还没搞清楚)。

问题出在哪儿?

在于统计理论到应用的时候中间的一个重要连接不知道被谁搞丢了,那就是广义线性模型(GLM)。Logistic回归是广义线性模型的特例,而GLM通常都是采用极大似然估计来计算的,具体计算需要用到Newton-Raphson迭代,一般是无法求出显式解(closed-form)的。搞应用的人偏偏把这几句重要的话丢掉了,由于Logistic回归应用之广,大家纷纷跟风,忘了GLM这个祖宗。

有人的地方就有江湖,有指数分布族的地方就有似然函数。如果能理解到这个层次,那才算是Logistic回归入了门。很多问题包括为什么连接函数是logit的形式等等就都可以大彻大悟了。