下午听Simply Statistics组织的一个网络视频讨论,主题很俗套啦,讲在数据科学冲击下统计学家如何解决身份迷失的问题。嗨,这叫嘛问题。我之所以听听是因为几个演讲者我基本都认识而且也感兴趣:Alyssa Frazee跟我都是坚定的等号党,当年去Hopkins访问时忘记是她还是Hilary Parker请我吃午饭了(我忘带钱包);Chris Volinsky是我在AT&T实习时的大老板;Jenny Bryan是R粉,耳闻已久,去年useR会议上初见,挺有激情的一个老师,昨天晚上还问我我的名字怎么念,于是我录了个MP3发给她,然后今天我在视频中听见了一声响亮的“益辉鸡”,本鸡感到不胜荣幸;Emory统计系的那个系主任我不认识,也可能是这个缘故,我感觉他讲的最无趣(更不幸的是用时比别人都长好多),隐约感觉他表面上想表示重视评职称时软件贡献的作用,但心里好像并不这样想,其实我倒是觉得如果一个学术单位根本看不起软件开发的作用的话,去那种地方也没什么意思,混业界会舒服许多,不用挤破头发论文;这评职称的过程也一样充满官僚主义和偏见,对所有人都“公平”的标准实质上很可能就是不公正。
Chris大人提到了他面试别人的一些经历,其中着重对比了统计系学生和其它系(例如计算机)学生来面试的表现,他讲他现在面试基本上只问一个问题:假设你有大量移动通讯设备的数据(AT&T就干这个的),你想研究什么问题?他想考察的是面试者提出问题和解决问题的能力。统计系学生通常会想,哦我的博士研究的主题是时间序列中的某某模型,那你有没有时间序列某某模型能用得上的数据?也就是拿着锤子找钉子。外系学生来思维就会开阔一些,问你有没有手机的地理位置信息、通话是否因为信号不好断掉的信息等等,提出跟业务有关的现实问题,而不是上来就想我能不能用我博士论文里的数学模型。
在论文方面他也做了比较:统计系学生一般只有一两篇很专的论文,计算机系的学生会有各种会议论文,主题跨度相对大一些,不像统计系学生蜗牛角上钻点事。不管他的经验和对比是否可靠,好歹我们知道一个面试官心里在想什么以及要找什么样的雇员,应该还是有一定启发的。
他在片子里列举有用的统计模型时专门提到了非参,我倒是有点好奇,非参对他们有啥特别的用处呢(纯问题,无价值判断的意思)。在Twitter上问了他一下,不过估计明天万圣节他已经陪孩子装神弄鬼去了,所以没见回复。
在Ames村办大学时,我觉得我的两位导师大人一直都是在培养Chris想要的这种学生,从数据和问题出发,而不是从模型出发。不过我并没有学会这种能力,还是一个码农脑子,很少对数据直接发生兴趣。大约两年前系里把博士两门核心理论课测度论和概率论扩展成三门了,我感觉完全是在逆行,仿佛我们在理论上浪费的时间还不够多似的。理论不是不重要,就像Donoho大人在《数据科学五十年》中所说,他相信历史上统计的重大突破都源自(数学)理论,(下为我自己的引申,非Donoho大人的意见)然而按着所有可怜兮兮的博士生的头,让他们花大量时间硬啃将来没有什么软用的勒贝格测度和Radon-Nikodym引理、从盘古开天辟地起搞清楚每一个定理的来源、掌握中心极限定理的三种证明方法,似乎有些不妥当。知识一直在爆炸在细化,人生却是有限的,越往后的博士生岂不是越可怜。
视频会议的评论页面里,有听众提出,要不给计算机系强制增加统计课吧(大概也有给统计系强制增加计算机课的意思),让那些无知的计算机学生搞清楚我们伟大的统计理论,别光在那儿算算算。我是最烦这种内心优越嘴上喊着对别人好的人了,学了统计就觉得统计无比重要,你连个正态分布都不懂还敢跑支持向量机,然而人家算算算还真用不着你的正态分布。类似的还有要给中学生增加统计课的呼吁者,到底着毛线急啊。记得Norm Matloff曾经写过,那些教中学统计课的老师的统计根底都差得要死,那么早让学生接触扭曲的统计学,到底是在帮他还是害他。
说到底,还是有人的地方就有浆糊。人都想守着自己的山头,并且蹲在山包包上翘首以盼有人来继承山大王的衣钵。也许守的是珠穆朗玛峰,也许守的只是个土包而已。