说实在的,我对这课意见比较大。过了一周了,今天抽点时间写写吧。上周是第一次去听课,见到了传说中的田茂再老师,果然又是一位有个性的“嗔”人。据传说,此人曾经在香港用概率论知识助人赌马,收效如何就不得而知了。我猜这位老师当年一定是数学学太多了,形象思维太强,他在思考“八点到九点半”这样一个时间概念时居然用粉笔在黑板上画起时钟在那儿绕圈儿,我不禁佩服得五体投地。(形象思维的特点,在老杜和黄向阳老师讲课过程中也可以观察出,只不过没有田老师这样强烈,那二位顶多是在思考矩阵时想象着n行m列,而他居然连思考时间段都要画个钟)
言归正传。我看了看这门课用的教材,目录如下:
I. Density Smoothing
- Histogram
- Kernel Density Estimation
- Further Density Estimation
- Bandwidth Selection in Practice
II. Regression Smoothing
- Nonparametric Regression
- Bandwidth Selection
- Simutaneous Error Bar
整个课程基本就是讲光滑方法(非参数理论),与我想象的统计模型课差远了。我时常怀疑,对光滑方法这么深入的研究在统计上究竟有多大意义。就拿我去听的这堂课来说,关于直方图(Histogram)的带宽h的选择(Bandwidth Selection),从数学推导上得出这个带宽(它直接关系到密度函数的求得)与两个因素有关:一是样本量n
,二是密度函数的导函数$f'$
。我们按照黄向阳老师一贯的“看什么都不对”的眼光来审视这两个结论:
一、关于样本量:废话,有脑子的人想想就知道,样本量越大,带宽当然就可以选得越宽。
二、关于密度函数的导函数:更废话,要是都已经知道了密度函数的导函数那还要推导密度函数干嘛?这不扯的么?典型的本末倒置啊。于是有人发明了所谓的Plug-in方法来弥补这点缺憾,我想问,难道你心里不觉得悬乎么?你咋知道正态分布与未知的总体分布相近呢?这不又是扯的么?
三、我们在推导密度函数时,最后得出的结论竟然是要用自己推导自己,绕了个大圈,沿途观赏了伟大的Taylor展开、伟大的高阶无穷小、伟大的MSE、伟大的依分布收敛、伟大的XXX……最后还是绕回自个儿家了。从这个意义上讲,阿基米德说给他一根棍子他就能撬动地球,那我也可以,只要你给我一根能撬动地球的棍子就可以了(撬不动的话我就怪棍子,怪你给我的棍子不能撬动地球)。
唉,统计模型,多好的课啊,无限广阔的统计新天地,干嘛不讲讲SEM、PPR、Resampling、MCMC、Bootstrap、Neural Networks……若有幸田sir能看见我的啰嗦,也请提提批评意见。
另:这门课上认识了冯伟广的师兄孟鹏辉,嗯,算是一大收获。