原文刊登于ICSA。本文由COS翻译组策划翻译。译者是密西根大学的冷静、新加坡国立大学的尤晓斌和中国人民大学的霍志骥,全文最终由采访者施涛和被访者郁彬审核、修改、定稿,个别地方对英文原文作了补充。本翻译征得了ICSA、郁彬和施涛的同意和支持,在此表示诚挚的谢意。此外,陈丽云、高涛、肖楠、牟官迅、邓一硕、姜晓东、邱怡轩、魏太云对译文也提出了一些修正建议,在此一并表示感谢。
郁彬是加州大学伯克利分校统计系和电子工程与计算机科学系的Chancellor’s Professor。她曾在威斯康星麦迪逊和耶鲁大学都任过教,并且曾经是贝尔实验室的技术研究成员。她在2009年到2012年间担任加州大学伯克利分校统计系系主任,还是北大微软统计和信息技术实验室的创办者和主任之一。
她在顶尖的科学期刊上发表了70余篇论文,涉及统计、机器学习、信息论、信号处理、遥感、神经科学和网络研究等领域。她还在许多期刊中担任编委,比如统计年刊(Annals of Statistics)、美国统计学会会刊(Journal of American Statistical Association)、机器学习研究期刊(Journal of Machine Learning Research)和技术计量学(Technometrics)。
她是美国艺术与科学学院(American Academy of Arts and Science)的院士。2006年当选Guggenheim Fellow,2012年作了伯努利协会的图基纪念演讲(Tukey Memorial Lecturer)。她还是泛华统计协会2012年首届许宝騄奖的三位获得者之一。她也是AAAS(American Association for the Advancement of Science,美国科学促进会)、IEEE(Institute of Electrical and Electronics Engineers,电气和电子工程师协会)、IMS(Institute of Mathematical Statistics,数理统计协会)和ASA(American Statistical Association,美国统计协会)的会士。
她是IMS的主席。她担任过Statistical and Applied Mathematical Sciences Institute的国家科学委员会的联合主席,现在是Institute for Pure and Applied Mathematics的科学顾问组,以及布朗大学Institute for Computational and Experimental Research in Mathematics的执政委员会。
2013年2月13日,郁彬在她位于伯克利埃文斯教学楼的办公室里接受她以前的学生、现于俄亥俄州立大学任教的施涛的采访。以下是采访的全部内容。
早年生活
施:非常感谢您接受采访。我想我们可以先聊聊您的早期生活,以及您是怎么开始进入数学领域而后转入统计研究的。
郁:谢谢你来采访我。那就从我对数学的兴趣说起吧。我在文化大革命时期长大,那个时候我的家庭受到了很多迫害。我在文化大革命期间的经历对我在很多事情上的看法有很大影响,那个时候也遇到了很多很重要的人,他们成为了我的人生楷模。其中有我的保姆钟志英,她没有接受过正式教育,但是却智慧而聪颖,人非常善良。在我父母被红卫兵关起来的时候,她用自己的积蓄养活了我和我姐姐。
三、四年级的时候,我的一个表哥给了我一本数学书,那本书第一次激发了我对数学浓厚的兴趣。我不厌其烦地用书上的附表进行指数和对数的运算,乐在其中。在那个动荡的年代,沉浸在数学题中的我仿佛找到一个避难所,远离了纷扰,安全而宁静。
在哈师大附中,我对数学的兴趣得到了进一步发展。在初二时,我遇到了一个极富才华的数学老师陈建业。就是他开始了师大附中的数学竞赛。他还在1978年夏天,我即将去北京上高中的时候给我单独辅导了高中数学。由于陈老师的影响,或许也是为了圆他上北大数学系的梦,我在1980年高考后以优异的成绩进入了北大数学系。
在决定专业之前,我母亲曾经劝过我:“对于女孩来说,学生物或许更好。”但我说我想去学数学,她便没有再说什么。我妈妈一直都很支持我。
大学生活
北大数学系80级一共有150个学生,其中20个女生。女生有3个宿舍。所有女生都又善良又聪明。我觉得那段生活十分惬意,是我生命最好的时光之一。每个星期,我们有6小时的数学分析课和6小时的习题课。大部分内容是数学,有少量基础的物理。就是这些了,基本上学了四年的数学。(我在现在的研究中还在努力吸收其他领域的知识。)
第一节数学分析讨论课对我来说很难,因为我不知道该怎么解那些题。但是,我真的非常喜欢数学,而且我们的教授很棒。我们和教授交流得不多——那时普遍都这样——但是和研究生助教交流得很多。我读了一些英文版的数学书以扩展视野,还做了很多吉米多维奇上的题目。
在这段时间,哈尔滨的陈建业老师跟我通了信,鼓励我毕业后出国留学。于是在大三上完了大学要求的英文课后,我和一群朋友组成了一个英语俱乐部,自主学习英语,希望有一天可以在美国学习。后来有了一个陈省身中美数学交换项目,我记得这个项目从1983年开始,持续了5年。
申请研究生项目
在北大84年的研究生考试中,我的数学成绩是第一名。但是我选的导师在口试中却没有录取我。所以我转向了概率和统计,而不是一开始想做的泛函分析。虽然这是被迫做出的决定,但它是一个很棒的决定,使我大受裨益。在我的家族里有许多勇于担当社会责任的了不起的人,所以我也想像他们那样在社会上有自己的影响力。虽然我当时对统计并不了解,但是我能感觉到它是一门经世致用的学问。后来我又得到一个机会参加陈省身的交流项目,虽然北大数学系开始没有让我加入这个项目。当时两位从AMS来的教授面试了我们,其中一个是丘成桐教授。在面试中我向他们解释了从研究生课程泛函分析学到的紧算子,通过了面试。我继续研究概率和统计。1984年的陈省身交换项目一共有15个学生,其中何旭铭和我最后学了统计。(刘军在1985年参加了该项目)。
因为这个项目我们拿到了AMS的推荐信,而有了这个我们申请美国的好大学会相对容易些。我申请的那一年,Le Cam是伯克利的招生委员会主席。我被录取了,并且得到了一笔奖学金。我和Le Cam 有通信交流。我想阅读一些关于统计的材料,于是他寄给我Bickel 和 Doksum写的那本书,那是我在某种意义上第一本统计书籍。虽然我在北大上过回归分析,但是我当时除了“回归”二字对统计完全没有概念。
施: 看起来你是误打误撞才去美国学了统计,而不是数学或生物。
郁: 也不完全是误打误撞。生物完全是我妈的想法,不是我的。我可以说的是,我得到的并不是一开始想要的,但其实这种情况在我的生活中时有发生。
施: 对,在任何人的身上都时有发生。
郁: 是的,你不一定能得到你想要的,但这没什么。
施: 从过去来看,我们当然不可能预料到后来会发生什么,但是从现在往回看,正是这些意外之事塑造了我们。
郁: 就是这样——我觉得我开始转到统计之后都很开心。
求学伯克利
郁: 我在1985年8月来到伯克利。当时我一个好朋友已经在这里学数学了。在她的热心帮助下,我很快在伯克利安顿下来。
在伯克利的研究生时光是我人生中一段非常美妙的时光。因为英语的问题,第一年过得很困难,即使我在陈省身南开数学学院学了一年英语也还不够。在第一学期,我选了理论统计(210A)和概率(205A)。210A不难,我觉得就是微积分的延续。概率则相对困难,好在后来遇到了同学Per Mykland,他对概率很在行,在205这门课上热心帮助我。
在第一年快结束时,我们考了预备考试。整个夏天我们都在做往年的试题。你之前问了我是否提前完成了考试,我已经不记得了。我想我在概率上反而做得更好,大概是因为我更担心概率所以花了更多时间在上面。
施: 是和我们那年一样的考试形式吗?10道题?
郁: 是的。做对三道就通过。我刚也说到,我的概率考得更好。这不过是因为付出越多,收获越多。第二年一开始,我便开始找导师。我一直和Lucien Le Cam 教授走得比较近,他也很照顾我,这对一个中国留学生来说意义很大。我说服了他收我做学生。他当时虽然还在教书,但已经快退休了。他说他并不想再收学生了,如果我真的想和他工作,我必须自己找我的题目。我想我需要的是一个可以交谈的人,一个我可以自如地把我的想法与之交流的人,而Lucien正是这样的人。于是我看了他的书(他那厚厚的书),其中一章讲的是经验过程(empirical process)。我只是觉得其中的数学推理太美了。经验过程的理论是现在高维统计和机器学习里用到的聚集理论(concentration theory)的近期开端。我说我可以试着将VC (Vapnik-Chervonenkis) 类的结果推广到马尔科夫链。Le Cam 教授说他以前的一个学生做过,但是没有成果,所以如果我能取得一些进展就太好了。在Lucien的帮助和支持下,我先读了David Pollard的书,一本很给力的书,然后以此考了我的资格考试。在当时经验过程理论并不在课程安排之内。Deb Nolan 也在我的资格考试委员会之中。有一次突然意识到如果马尔科夫链回到原来的状态,它就变成独立同分布,于是这个问题迎刃而解。后来我觉得我们可以把结果推广到混合过程(mixing process)。在1987年春天,我记得,我利用Bernstein的blocking techniques完成了这个将经验过程中的VC理论推广到马尔科夫链和另一个弱相关的课题。后来在法国的Pascal Massart在他的博士论文中完成了那个相关情形的证明。Le Cam 是他的论文独立读者。我和他都认为Massart已经完成了和我想做的事情。但是一两年之后David Pollard 来做访问的时候指出两者是不同的。Massart 用的是bracket version of entropy,而我用的是VC version。这是两条平行的路线。于是我最终将经验过程 用在了我的论文里。本来当时想如果Massart 已经做过的话我就该再找一个题目的。
1987年夏天,我回国和在国内读建筑史的男友结婚,他是85级的研究生。一年后,他也到伯克利来了,去的是建筑学院。我的美国朋友得知我要和一个两年都没见面的人结婚后相当惊讶。可能这个决定确实有点冒险,但是现在回头看,这确实我一生最好的决定。
Terry Speed在1987年从澳大利亚来到了伯克利。他在雷曼研讨会上就信息论和Rissanen提出的最短描述长度(MDL, Minimum Description Length)原则进行了演讲。他的办公室在埃文斯楼327,我的在315。我看他人很友善,于是在走廊遇到他时和他攀谈起来。我说我对她的演讲很感兴趣但是有些地方没听懂。在来美国之前,我读了一本很薄的讲数学史的书,有一章讲的是香农(Shannon)。我认为信息论的一些观点十分新奇。Terry 说“到我办公室来,我给你一些论文读读看”。于是我看了几篇Rissanen 的论文。他后来找Lucien Le Cam 谈了谈。Lucien很慷慨,他提出和Terry 一起带我。于是我虽然拿Lucien的经费,但是也开始和Terry 一起工作。
和Terry一起,我开始接触信息论,MDL和模型选择。所以我在模型选择上的兴趣就是从那时开始的(我现在在研究稀疏模型比如Lasso)。我对简单强烈的偏好。在我的工作中,我总是想找到简单的东西。当然无论是统计还是其他,只有通过理解才能真正达到简单。Jorma Rissanen 是IBM 在San Jose的研究中心的成员,他是MDL和算术编码(arithmetic coding)的提出者。他可以说是我第三个导师。他每个月都会跟我还有Terry 在伯克利吃一顿午饭及讨论MDL。
Terry 在我身上投入了非常多的时间。他和我一起去图书馆找Fisher的论文一起读,而且我几乎每周六都会去他家吃午餐。现在想起来,那段时间培养了我的批判性思维,提高了我的学术修养。从他身上,我学到的远远不仅是技术知识。我对应用统计的兴趣也在那个时期得到了增强。他所有的数据项目都给我讲,而那时他刚刚进入生物信息领域。他说有两个领域一直很吸引他,信息论和生物。他选择进军生物。因为我在北大打下的良好的分析功底,我从事统计和信息论交叉部分的理论研究。在他几年前发表的作品集里,有一章是讲极限理论的,里面所有的论文都是和我合作完成的。我们一起研究将MDL优化理论扩展到非参的情形中,并且在回归模型选择和密度估计(直方图和核密度估计)中用到了MDL。在Terry 的帮助下,我学习了最小值-最大值(Minimax)理论并将之转移到MDL理论上。还有,我将Stone 的论文中提到的柏松化也运用到了MDL和直方图中。我和Terry写的关于回归的模型选择中MDL,AIC和BIC的一致性和非一致性的论文让我对模型选择有了深刻的理解。那篇论文是2006年我和我的学生赵鹏发表于JMLR的关于Lasso模型选择的一致性的论文的前身。(和Terry 完成了这篇论文一年后,我很自然地想到了Lasso的一致性问题。)
Terry是一个很棒的导师,对我的影响很大。和他一起工作的时光十分有价值。我曾经和他在Donnar 实验室做过一个根据利波蛋白质(lippo-protein)对人进行聚类的暑期项目。我选择了EM并把它用在了项目中。那是我第一个应用研究。我们并没有把论文写出来。Ron Crauss 博士是一个很赞的合作者。我们每隔几周就见一面。我上了Terry 所有的应用课程,学到了很多。Terry 后来的学生几乎都是研究生物信息的,比如Rudy Guerra, Mary Sara McPeek 和Hongyu Zhao。这么牛的教授和来自全世界的顶尖的学生汇聚在同一个部门,我身处其中,感到十分荣幸。
不久后我开始写我的学位论文,并完成了它。我开始找工作。我想如果我能在美国找到一个教职工作,我会很高兴,所以我申请了20多个大学。Terry 觉得这有点疯狂。1990年,我最终去了威斯康星麦迪逊,原因有很多,其中之一是为了我丈夫能有好的工作前景。
图1上 郁彬和伯克利统计系“Bootstrap”足球队队员。图1中 郁彬和她的母亲及导师Terry 和Sully Speed夫妇在毕业典礼上。图1下 郁彬和导师Le Cam。
早期职业生涯——助理教授
施: 你没有做过博士后研究就在威斯康星大学当了助理教授,请问你在从和导师一起工作到独立做研究的转变中经历了些什么?你认为其中最具挑战性的一点是什么?
郁: 我先讲讲我为什么要选择威斯康星大学吧。一个原因是我从Terry那里学到了很多英式的经验统计的东西,很为之着迷。我觉得统计学最激动人心也最富有挑战性的事情是如何将一个现实问题整合到一个数理模型中。每次遇到的问题都是不同的,而我恰好喜欢新鲜事物。我逐渐发现, 数学其实是一门很自由的启发式的语言,而不仅仅像我在北大受到良好训练的ε-δ语言那样(拘谨而严苛)。我相信世界上的事情都是有内在联系的,所以我决定去威斯康星向来自英国的George Box 学习。我在研究生期间读了很多他写的东西,非常喜欢。但不巧的是,当我过去的时候,虽然他还在学校,但是处于退休状态,所以我并没有很多机会和他交流。
威斯康星麦迪逊的统计系非常友好,也有着很深厚的英国学派背景,因为他们的创始人George Box 就是英国人。我非常喜欢他们在研讨会中发言提问的方式。部门内分给我两个导师,Grace Wahba 和Tom Kurtz。Grace是一个很好的榜样。她是在光滑样条法及其应用领域最有成就的教授之一,但为人却很谦逊。有Grace 在威斯康星证明女性科学家的实力,我好好做自己就够了。(她在计算机科学学者引入机器学习概念之前就开始进行机器学习类似的研究了。)
施: 你是什么时候开始觉得自己因为女性身份受到不同的对待,从而感觉到有了证明女性可以有和男性一样的,或者更好的,成就的责任或者说渴望?
郁: 其实在高中的时候就开始了。我母亲曾经建议我学生物,因为“对女生来说学生物更好”。在本科的时候到没什么特别的事情。在考研究生的时候,我和我的朋友都感到很不公平,因为我是入学考试中的数学第一名,但是没有在第一轮就被选上参加陈省身的交流项目。
在伯克利读研究生的时候,我的两个导师都是女性的支持者,所以我并没有觉得被区别对待。当我在威斯康星当助理教授的时候,这个问题在统计系之外的范围又出现了。在当时的女校长Shalala 的带领下,我们争取到了女性职工的带薪产假。 之后伯克利在1991年底,或者1992年初(记不清了),打电话给我(邀请我回去)。于是我递交了申请,接受了面试,得到了助理教授的职务。我当时想的是,即使我在伯克利得不到终身教授的职位,这五年的时间也应该会是一个很好的学习机会。加上我的丈夫也很喜欢加州,所以我们决定回去。 在当时我已经申请了去耶鲁大学做访问学者,于是我1993年春天先在耶鲁待了一个学期。David Pollard 那时就在那里,John Chang、Andew Barron、Kathyrn Roeder 和Joe Chang也是。我当时感觉到Hartigan,就像Terry一样,拥有我所希望拥有的特质。他是一个全能型统计学家,对统计有着广泛而深厚的理解。
施:你是什么时候回到伯克利任职的呢?
郁:我在1992年就被录用了,但是到1993年才去。因为刚才提到的耶鲁的事情,我在威斯康星继续待了一学期,在耶鲁待了一学期,然后才回到伯克利。
施: 在讨论您回到伯克利后的事情之前,我还想问一个问题。根据您从学生转变为教授的经验,您觉得有什么是现在事业刚刚起步的助理教授和高级研究者应该小心的?
郁: 也不能说“小心”吧。有些人从小就知道他们他们要干什么,但我不是。我的好奇心很强,喜欢和喜欢的人呆在一起。在我成长过程中,我不能真正依赖什么东西,除了我自己能控制的,比如我的好奇心。我加入一个集体的原因,不会是我想成为向他们一样的人,而是想要给他们带来我所拥有的东西。我相信这可以促进智慧知识的多样性,可以使科学界变成一个更好的地方,大家一起合作,一起创造。
所以我想告诉刚刚工作的年轻人的是:多“冒险”,而不是“小心”。如果你在一个像统计学这样受欢迎的领域工作,没有什么大的危险。说到底,你能否享受生活还是取决于你自己是否高兴,而不是你是否让体制高兴。并且只有你高兴了,你的所在的体制才能高兴。当然,你必须遵守一些职业上的规矩,但是你也有很大的空间选择是否遵循传统的做法,尤其是你们最优秀的年轻人。在现在这个大数据时代,我很推荐你们参与一些跨学科的研究。
我认为我的职业生涯就像一个随机游动。我有一个方向,以及一个生活的原则。然后我有了很多随机的扰动,它们不受我控制,我也不想控制。在威斯康星,我向应用方面的尝试没有什么进展。我联系了一些人,但是没有得到任何的合作机会。我最后成为了一个信息论的研究群体成员,我至今很感激这个机会。起因是Rissanen邀请我参加一些质量很高的小型的会议,在那里我遇到了顶尖的研究者,比如Tom Cover、ImreCsiszar、Jacob Ziv、Sergio Verdu,于是我就融入了这个群体。就在最近,我加入了一个普渡大学领头、主要是信息论社区的成员参加的NSF科技中心,就这样回到了这个群体。
回到伯克利
当我从耶鲁回到伯克利时,我开始了信息处理的研究。来自EE系的Martin Vetterli在Neyman 研讨会上就小波分析和信息处理的做了一次演讲。演讲之后我和他交谈了一下,后来他邀请我去参加他的小组会议。Grace Chang,当时Martin的学生,因为Martin要回瑞典在EPFL工作而成为了我带的第一个博士生(我们俩联合培养)。我们一起做的研究是关于小波分析法图像子带去噪的,这也是我被引用最多的文章之一。
施: 所以当你回到伯克利的时候,你仍然对应用统计有很大的兴趣,但是这些合作研究更自然地发生了。
郁: 是的。因为Martin,我对信号处理更感兴趣了。这和信息论也有关系,所以衔接得很自然。与此同时,我开始和Terry 和Dave Nelson 一起研究生物信息问题(物理图谱和基因图谱的绘制)。
施: 我认为合作很难凭一个人的意愿就能发生,而是需要在机会出现时,主动去抓住它。
郁: 是的,但是也要有这个能力去抓住它。如果Martin 但是没有那么慷慨地接纳我这些合作也不会发生。他还将我介绍给了他以前的学生,Antonio Ortega,南加州大学的教授。我们一起研究了子带和小波图像压缩,我们第一个成果是关于信号处理的。后来,我决定离开生物信息领域。当时我的研究纯粹是出于我的好奇心。我告诉我自己,我必须知道很多很多东西,因为现实中遇到的问题是多种多样的,涉及到很多知识。我不可能用一个钥匙打开所有的锁。有时候我们需要研发的方法,这样会更令人激动。
我后来对MCMC(马尔科夫链蒙特卡洛方法)产生了兴趣,写了三篇和MCMC有关联的文章。其中一篇文章是关于MCMC密度估计的理论分析的——这个分析和当时关于相关的数据经验过程的研究工作自然有关系。另外两篇MCMC的论文是关于MCMC收敛诊断的——如果马尔科夫链不收敛,就得不到后面的分布。我开始和Per Mykland 讨论在MCMC诊断状态空间的固定状态或者固定集合中使用 recurrences(这也和我的研究有关),还在一个会议上见到了和我有类似想法的Luke Tierney。我们齐力在JASA发了一篇三个人的文章,这也是我最好的文章之一,至今还接到了关于它的反馈。我继续进行信息论的研究,研究了一点数据压缩,后来因为和Vetterli的小组的交流,我开始转向信号处理。
贝尔实验室
1997年我取得伯克利终身教职之后(一切并没有想象中顺利,不过还是有惊无险),我申请了暂时离职,加入了贝尔实验室。因为那时候我女儿出生了,我想也许贝尔实验室的工作对我们的家庭来说会好一些。1998年夏天我来到实验室的时候,他们的统计研究组相当强大。Bill Cleveland是统计部门的领头人,Diane Lambert, MarkHansen, Colin Mallows 和 Jim Landwerll也都在那。他们的团队已经与AT&T实验室分开了。第一年一切都很顺利,我们一直在招人。到了第二年形势开始急转直下,先兆是50多岁数学中心的主任选择了退休。我当时听说他已经没办法保障现有的研究项目。紧随的不好消息是管理层在不提前通知研究学者的情况下关闭图书馆。而我呢,开始想念学校里的氛围,想念学生,想念学校的这群同仁。我时常站在咖啡厅前那条悠长得走廊里,担忧过隙白驹,岁月不饶人啊!
在贝尔实验室的时候,我和Diane Lambert, Bill Cleveland 相处十分愉快,他们是很好的上司。我完全不敢想象,在业界里,到哪去找比他们还棒的上司!而 Mark Hansen呢,我更愿意称他为“玩伴”而不仅仅是同事。我们开始着手一些有趣的工作,而且彼此给对方以信心。现在,Mark在多媒体领域已经是一个成功人士。我记得当时他用贝尔实验室网站的数据合成了一首歌,在我听来像是 New Wave的歌。这便是数据之美啊!我们相互支持,坚信这种动力能激励我们各自从事的工作!
我和Mark共事的第一件事就是为贝尔实验室招人,随后我们俩一起在MSRI(Mathematical Sciences Research Institute)组织了一场会议——关于非线性回归和分类的。我们一同引导大家讨论boosting和最优化。在会议中我认识了Amy Braverman,其后我同她在遥感和其他统计领域有着长期合作。而在那得第一篇文章就是和你一同协作的,关于运用多角度卫星MSIR数据来识别极地上空的云层。这其实是我第一次用真实的数据做研究。而你呢,当时也勇敢的读完上千页的JPL(Jet Propulsion Laboratory) MISR组的数据收集和使用手册。我们当时同宾夕法尼亚州立大学气象系的Eugene的合作也十分愉快。我现在的团队还在继续使用MISR的数据做高清(千米级的)气溶胶反演(aerosol retrieval),通过这些数据来监测诸如北京等一些城市的污染情况(运用空气污染指数 AOD —— Aerosol Optical Depth, 气溶胶光学厚度)。这个项目是同北大教授姜明及学生共同合作的。
我感觉我身边的合作者对我的工作给予深刻的影响。慢慢地你会觉得,这么多有趣的人在跟你从事着同样的工作,想来就觉得激动人心。你同他们一起进行科学研究,彼此分享和合作构筑想法,或许这就是科研工作最浪漫的地方了!
施: 你能说说研究所和高校院系之间的差别吗?
郁: 我觉得我的在贝尔实验室的经历不太推广到其他研究所。贝尔实验室是个很特别的地方。AT&T在电信业的垄断地位使它有足够的利润。这使他们可以不受限制地雇佣了很多在不同领域具有世界水准的科学家。在贝尔实验室,人才在不同领域,不同部门之间流动是很容易的。
施: 看来即便学校也很难形成这样一种人才的组织模式啊!
郁: 我觉得这是最适合跨领域研究的组织架构。在贝尔实验室这里即便一流人才也很恭谦,有时跟典型的高校教师比起来,都很难看到自我意识。起码我所在的团队是这样的。在这里不乏一流的统计学者,Colin Mallows,为人很低调。像Tukey,Shannon都在这里工作过。连新近组成的AT&T团队都是当年获得Netflix奖那个团队的一部分。他们的使命就是解决问题,其他的研究所很难做到这种程度。贝尔实验室太特别了,在这里我得到很多支持,最终朝着跨学科研究开足马力。当我从事语音压缩研究的时候,Bill Cleveland找到我和其他同事说有个断层摄影术(tomography)的课题要给我们做。近期出版了一本关于贝尔实验室的书,我很愿意把它推荐给大家,尤其推荐给大量从事跨学科研究的人!这本书叫:Bell Labs and the Great Age of American Innovation (by John Gertner).
施: 看来把这些不同领域的人放到同一间房间是个好主意?
郁: 太对了!到了午餐时间大家都一起出来吃饭了——一个很好的习俗。仔细想想,能跳出现有的学术领域是一种优势所在,而跟Mark的接触更使我获益匪浅。我们都想跳出固有的思维定势,而且我们做到了!
与此同时,我在贝尔实验室开始一段和Peter Bühlmann的长期合作。Peter是我很要好的朋友。我们一同研究机器学习里的bagging 和 boosting。当时是1999年,Peter邀请我去ETH和他一起研究bagging,然后我们就开始了合作。我们写了两篇关于boosting的文章,比如说我们发现了L2 Boosting抗过拟合的原因是an incorrect measure of the complexity by the iteration number。我们最近也和几个年轻的研究人员合作写了篇关于因果图模型的文章。
Leo Breiman对我的影响是引领我走向机器学习的重要因素。他是一个独具一格的人。在机器学习走进统计学家眼界的头几年中,可以说他是不折不扣的拓荒者!某次在埃文斯楼的楼道里,他和我谈论起抗过拟合。随着我和 Peter 完成了几篇关于boosting的文章后,我真正找到了我的兴趣所在,这便是统计机器学习 (statistical machine learning)。看来,在大量可用数据需要研究的情况下,把统计分析和计算机应用相结合是很明智的做法。这十来年我对这一领域的研究仍然兴趣不减,你看这个领域不断囊括其他学科诸如自然科学,信息学和社会科学的问题。至此我开始结合批判思维和机器学习,以求更大的突破。
重返伯克利
施: 当你从贝尔实验室回来的时候,你已经涉及了不少应用领域。那时候可能你已经能对这些项目应付自如了吧?
郁: 没错。我觉得贝尔实验室给我自由发展的空间,但不得不说在伯克利的经历也相当重要,因为伯克利迫使我自己找到自我。当时我是在系主任John Rice鼓励下返回伯克利的。我在贝尔实验室时Michael Jordan加入了伯克利统计系和计算机系。他也写信鼓励我回来。回来之后,我仍然继续坚持我在贝尔实验室的工作内容——跨学科研究和统计机器学习。
图2 郁彬及学生2003:Dave Graham-Square, Gang Liang, Peng Zhao, Bin Yu, Tao Shi。
图3 郁彬及学生 2006。 后排:David Purdy, Jing Lei, Ethan Anderes, Guiherme Rocha;前排:Kei Kobayashi, Nicolai Meinshausen, Bin Yu, Vincent Vu, Nate Coehlo, Xing Wang。
施: 你也开始带了不少学生吧?
郁: Rebecka Jornsten是我第一个统计的学生,她曾跟我一同在贝尔实验室呆了一年。她是个相当有天赋的学生。我们一起研究生物芯片图像压缩,但我觉得芯片和生物信息是热门领域,而我更喜欢安静地长时间思考一个问题。之后我也花了不少时间在物理图谱项目上。但当我们最终把成果发布在Annals上时,这些相应的技术已经飞速进步,我们的理论已经没有什么影响。我意识到紧随热门技术明显不合我的个性,我决定转向神经科学。
施: 您说的这点很重要。我很好奇你怎么判断一个问题是否是非常倚重于相应技术的短期问题?
郁: 有的人就是比较擅长这方面,但我不适合。我们必须对自己和这个外在的世界有所认识,才能做出最适合自己的决定。千万不要因为别人都在做一件事你也跟着做。其实我非常喜欢在冷门的领域里做研究,没准那天就变得热门了呢!然后通常这个领域变热门的时候,我就想悄悄离开。说实话,我可能是喜欢超前的感觉,而不是跟着风向做研究。有时候我们也会赌错方向,但没有关系,起码我的好奇心得到满足了。
之前我说过,我的第一个大的合作项目就是你参与的和JPL的合作研究,现在我们还在气溶胶反演(aerosol retrieval)方向继续做合作研究。紧随其后的一个合作是关于神经科学的。之所以对神经科学会感兴趣是因为在贝尔实验室的时候,我无意读到一篇Dan Yang组里的文章,这篇文章用LGN-cat数据重构一副有趣的图像——一只睡着的猫所能看到的东西!我简直不敢相信,我在这幅图里看到了树枝!
回到伯克利后,我联系了当时在UC Davis的Bruno Olshhausen,通过他我在2005认识了一位专注前沿视觉神经学尖端的神经学科学家——Jack Gallant。因为拿到了NSF的基金和Guggenheim Fellowship,此后一年我没有在统计系从事教学工作,而来到Jack的实验室做研究。从那时起我们便开始长时间的合作研究。其后的7,8年内,我们仅仅发表了两篇文章,还有一篇正在撰写。不过我觉得因为我们同事都还要推进其他的研究课题之前的研究,想要一个有质量的新成果,就应该是这样的速度。我们合作的关于视频重现的成果在2011年年末就吸引了很多媒体的关注,其中之一就是列入时代周刊的50大最有影响的发明。
第一年(2006)里我主要跟着Jack和他的学生学神经科学的东西,此外在统计方面我为他们提供一些专业见解,我们彼此构建了一种互信有效的合作关系。Jack是个非常优秀的科学家,他很直率。
对于那些想要从事跨学科研究的人而言,如何找到合适的合作者非常重要。当然,你还必须知道如何同别人合作。我实在不喜欢浅尝辄止的研究方式,这能出什么结果呢?在一切都进入轨道之后,我开始觉得研究的质量和水平是唯一的标准(言下之意是相对时间,选题等其他因素),特别是随时间推移回头来看这些学术成果的时候,质量显得特别重要。短期来看,也许我们能从浅尝中得到回报,但学术研究就像是马拉松一样,不是一次亢奋的短跑。渐渐地,人们开始对你有所了解,也对你的学术研究水平有一个很准确的审视。
近期我仍然和我的学生、我的同事一同研究稀疏模型和谱聚类,我对这些课题相当感兴趣。我们大家总能形成一个整体,一同解决各种研究中碰到得问题。我常鼓励我的学生尽力研究一些理论。显然我们遇到的数据问题都会同时涉及这两方面的内容,还有计算。
图4 郁彬2009年的团队。后排:Yuqing Wang, Hongwei Li, Harry Kim, Bin Yu, Chinghway Lim, Kyle Jia;前排:Garvesh Raskutti, Karl Rohe, Yuval Benjamini。
施: 兼备理论和应用,这好像是统计学独有的特点吧?其他的学科比如说物理,或者数学,或者生物,它们要么很理论,要么很应用。所以我觉得统计学最迷人的地方可能就是它把二者都结合到一起了。
郁: 也不能完全这么说吧。其他学科也一样的,不过也许对它们来说应用结合理论的确比较难些。我总觉得我不属于某个特定的领域,因为我没有在某一个特定的学术领域里呆太长时间;有时候我也会觉得我分身乏术。但最终我意识到,我们手头上要解决的问题决定了我们的研究是“T”型——既要有深度又要有广度。
图5 郁彬2012年的团队。后排:Hanzhong Liu, Antony Joseph,Thibault Vatter,Geoffrey Schiebinger, Adam Blonaiarz , Ling Hong, Trine Abrahamsen, Taesup Moon, Xiangyu Chang, SiQi Wu, Hau-tieng Wu;前排:Toshiyasu Matsushima, Xiaoling Lu, Yuval Benjamini , Bin Yu, Hongwei LI, Guoqiang Cai。
施: 这也是大家都感兴趣的一个问题:你有那么多的项目要做,那么多学生要带,还有其他的职责,你是怎么安排你的时间的?
郁: 我有时感觉我有些事情太多,不过还好。人的状态总有起伏,有时候我觉得得心应手,有时候则不然。我一直在接新的研究课题,同新的人合作,挺具挑战的。不过我觉得有一样很重要的东西帮我应付这一切——那就是未雨绸缪。千万不要等到事情来临了才想要怎样应对危机,一切都迟了。预先做好计划,这样压力就小一些。我碰到让我好奇的东西时,我就争取马上学一点。我认为所有事物总有它们内在的联系,千丝万缕,而且都是殊途同归的。表面上看我好像是随随便便选个东西就开始做,其实不然。我的好奇心连接着这些东西。我觉得看到的事物都是相互联系的。既然我是这样的人,我的选择也应该是条理相连的。
统计现在的地位
施: 上面我们已经了解到你从年轻到现在的成长过程。除了从你的亲身经历中学习,能听听您关于统计学现状的看法也令人受益匪浅。除此之外,您也可以谈谈关于我们统计人如何适应其他的领域,对于社会我们有什么样的责任。
郁: 统计学作为一个需要很多知识的领域,我们正处于它的黄金时期。但是我认为,统计学需要更广义的解释。从整体上来看,很多其他领域的人正在做着与我们相同的工作。
施: 所以,问题在于我们如何定位自身,对吗?我们作为统计学家到底是什么样的身份,同时统计学这个领域最后将走向何方?
郁: 我想如果我们挺身面对挑战,就可以成为数据科学的领路人。因为我们拥有传统强项——批判性思维,同时拥抱机器学习、数据库和计算问题。但是我想我们已经很难垄断这一领域了。因为在这个领域有很多方面的问题,我们要与他人共舞。但是像批判性思维这如此独特的传统我们应该继续保留。同时,我们也应该学习新的技能,比如计算能力。在最近的一个神经科学的项目中,我带领一个研究团队,在队伍中,我们有一流的机器学习博士后,有一流的应用统计学研究生。如果没有机器学习的帮助,那个数据总体将变得更难处理,我们的进步也不会如此之快。当你尝试一些事情的时候,不应该花很久才能完成,所以我们也应当关心计算速度的问题。这就是我们遇到的挑战。
我们也应当打破陈规想问题。我更愿意把机器学习当做统计的一部分。它和数据科学都是统计的分支。在我看来,统计是一个兼容并包的领域,它尝试的回答和数据有关的问题Fisher和Neyman提出了解决他们面对的问题的框架,这些问题都源于当时的具体背景,我们应当向他们学习。我们可以让遇到的问题做导向,但是也要有所坚持——统计界的优良传统。
在理论方面,我觉得应该多看看非常规的数学方法来使我们有更合适的描述数据的结构。因为在更高的维度,我们需要一种描述问题并能互相传达意思的语言。我想,整个科学界正处于一个统一的阶段,而统计学因为能够与非常多的领域接触,所以能渗透到更多的角落。
作为一个集体(统计界),如果每一个个体都能拿出热情,追随上面的一些有意义的想法,那么队伍将会更加的发展壮大。我们应该努力解决社会中的重要问题,而不是让绩效考核或者晋升制度决定我们的工作。上面的话意味着在大学中,年轻的研究者应该是虚心以及合作的。学生不应该认为统计学就是研究生院所学的那点东西,不是的。因为每天都有新的数据出现,所以我需要不断的学习。它们来自于新的科学,新的社会问题,它们需要数学的可计算的解。
无论在科研方面,还是在高维数据,都和计算、数据库相关。一组高维的数据看起来是什么样子?我们怎样猜想数据结构?我们有流型(学习),有稀疏(矩阵),但这仅仅是开始。这时我们就需要新的方法了,而这正是相关的非传统数学方法的用武之地。我们需要大量的有用数学方法。另一方面是计算。如果我们能够融合这些方面,那统计学将前途无量。但这需要统计学家们敢冒风险,承担责任。我觉得这是很有趣的过程。
即使你冒些险,你也不会真正的“失败”,因为你有一张“安全网”。你有统计学的博士学位,那最坏也不会太差不是~我之前有一些学生离开了学术研究工作,生活过得很好。他们在其他的领域做出贡献。我没有被录为研究生去研究泛函分析,这在当时看起来是失败,但它让我进入我现在非常喜欢的统计领域。所以,人们并不能清楚的成功与失败的明确界限。敢于冒险,人的生命只有一次,你应该好好利用以免后悔莫及。
施: 在科学和工程领域对数据分析有巨大的需求。同时,你还和媒体研究者有一定的合作。统计在一些和政治相关的新闻中有时名声不太好,在许多方面人们想要篡改或者捏造结论。
郁: 这就是为什么我们要介入的原因。你可以看看去年Nate Silver的事迹。他去年通过数据来预测美国大选,结果做的很好。统计界的名声因此大振。在年轻的时候,我常常避免和社会科学有牵连,但是当我更年长一些,也更智慧一些以后,我觉得这更多的是一种责任。但是,你不能在社会科学与自然科学中坚持相同的原则,这两个是不同的领域。你要做的事是让状况变得更好。我觉得这个想法是实际可操作的。当然我和El Ghaoui的组在媒体新闻分析方面的工作并不能和神经科学或者遥感中的科学水准保持一致。这些方向确实不一样,不管你是不是正在努力在你的工作方向让他变得更客观。
施: 非常同意。我们不能用统计中像最优、一致收敛或者其他方法来评判。只要我们所作所为能都让百姓更好地从数据中获得信息,那它就是好的。
郁: 嗯,并不是说一致性是完全无关紧要的,只是说还有许多东西等待着我们去考虑进去。我觉得这些问题着实是充满多样性的。应用统计就像是生活的一面镜子,错综复杂。用Neyman的话来说就是‘其虽复杂,但并不无乐趣’。这就是我所认为的奇妙所在。
施: 我对你任系主任和后来当选为IMS的主席的经历很感兴趣。我觉得承担更多的服务工作是一种责任。同时,你觉得从这些管理工作中学到了什么?
郁: 这确实是为他人及社会服务。作为长者,你不能让年轻一代做这些事。这有点像回报。积极的方面就是可以推进你所感兴趣且非常重视的方向,可以更多地与人交流,听百家之言。这在做交叉学科的研究时有莫大的帮助。为了能与人更好的交流,我还得拥有人际交往的能力。在任主席和系主任的时候,对我最大的收获就是学会与更广泛的人打交道,也更能够听到不同的声音。非常感谢各种各样的看法。如果你观察自然的话,就能够发现多样性于生态系统是非常的关键。在学术中也是一样。像种族问题,性别问题的核心都是人知识观点的不同,或者研究人员所身处的环境不同,我觉得多样性是好事而且是必需的。
统计在中国
施: 既然这篇访谈会登在ICSA的出版刊物上,那一定有很多很多中国大陆以及香港台湾的读者。请您对这些区域的统计发展谈谈看法。
郁: 台湾和香港的情况我不是很熟悉,在这里就不讲了。在过去的十年里我每年在中国大陆呆过大概2个多月,也在北京大学工作并和姜明教授共同执导微软信息技术与统计实验室,大陆的情况我还是可以谈上一谈的。在大陆统计变成了一级学科,这是很大的进步。北京大学现在成立了由陈松蹊、耿直为主任,陈大岳为副主任,王永雄为顾问主席的统计科学中心,我在那里担任科学委员会主席。我们招聘了一批非常棒的年轻人,在这里也鼓励其他人申请。这还刚刚开始,相比于其他更大的像生物,物理,数学等学科,统计还不算很大。我现在最大的希望就是在产业中的需求能够极大地推动统计的繁荣,让其走在科学研究的前沿。
施: 和中国的研究者交流,我确实发现中国的高科技公司对于能分析大数据的人才有很大的需求。同时,在生物与物理的研究范围,他们也希望能够更有能够设计实验,并能够实验数据的人才。对此,您觉得中国的大学能做些什么?
郁: 我觉得这些正在发生。北京大学正在讨论一个数据科学中心的项目。任何明显的改变都曾经是缓慢的进程。但是,一旦有经济的需求出现,进展会快很多。中国或者是美国的统计研究人员,应该提高计算能力。如果你已经在很高的水平上了,只要你有想法,很容易就能找到合作者。但如果你是一位初学者,而且还从未接触过数据,那你觉得有谁会雇佣一个统计本科生来给一个计算机本科生提供建议呢?给学生配备好的计算训练一直是一个问题。最终,我希望我们的毕业生能够向计算机专业的学生一样。当然,这是最后的目标,到那时我们将同时拥有批判性思维和计算技术。我并不担心我们的数学能力,但这可不是因为那不重要。我们一直在有意识地培养学生这方面的能力,所以这还不是当务之急。而批判性思维与计算能力的结合才是统计学学生的弱势。
施: 我完全同意你的看法。在数据时代,批判性思维是我们的拿手好戏。
郁: 我们需要找到合适的方式培养学生。
施: 这也是我的问题所在。我觉得批判性思维可并不能从书本上获得,更像是从经历中得到的。比如,你得有人来批评你,展现给你不一样的想法,引导你走不一样的路。如果缺少这样的人,那该怎么办?
郁: 这些事情我也很困惑。我有一个同事她更倾向于在线教育。我很高兴看到在线教育能够帮助更广泛人群学习。有人说没有师傅(导师)想要培养批判性思维难上加难。培养活动至少应该有反馈,或者说聊天的空间。这个问题也是教育界的前沿话题。我们怎样利用现代科技?我正在尝试着教会学生如何思考,同时在教师评价的鼓励批判性思维一项中我获得了6.5(满分7分)。但并非所有学生都喜欢这样的课。有人觉得这可不算是传统学业中的一部分。我希望,这种课被越来越多的人接受,因为这种课教给学生工作和研究中所需要的重要技能。
施: 你在先前曾经提过,你想在数学中找到规律性,找到可预测性,而不是找反例。比如我觉得我的想法不一定正确。
郁: 这是循序渐进的过程。就像我感觉到作为系主任会遇到各种不同的观点。如你所言,如果没有身边的人,是不可能形成批判性思维的。如果所作所为都是‘正确’的,那就毫无批判性思维可言。批判性思维并不是中国传统文化中的主要部分,中国人有趋同的传统,这在一些情况下是适用的,但是在科学中不是这样。有时候我觉得这是西方文化的一部分。在中华文化中我们有叫做‘思辨’和‘传承’的理念,但这更多的是听取别人的意见而不是提出问题。我的孩子在Black Pine Circle School上学,接受苏格拉底 Socratic 思想训练。我在读苏格拉底 Seminar 的书,并且想要将其中的一些想法带进我的教学。当时想要成为一名合格的批判性思维的老师,还要有经验及尝试。
当我用批判性的角度与学生讨论,我不是不赞成,但是有些学生会这么认为。我的任务就是将这些学生培养成批判性思想者(critical thinker)。首先他们得能够建立信心。 学生应该因材施教。如果把学生看成三个层次,那中间一层的学生最难教。 最好的学生顺其自然就好,较差的学生要给予足够的建议,而中间的学生应该在辅以批评和鼓励的情况下给予适量的建议。这些就非常的个性化了。我仍在探索。必须有足够的安全感才能够打开交流的渠道。仅仅有交流的内容还不够,必须能够有交流的渠道。
另外一件重要的事就是要吸引好的学生向统计学的方向发展。有一批非常优秀的数学本科生自动的继续学习数学去了。这是无可非议,但我们也应该采取行动。不管怎么说,统计并不像物理数学那么有传统光环。你看机器学习领域经常用新名字。以前我很反对用新名字。但是,我现在在神经科学领域工作,我的想法改变了。我觉得当一个学科有一个新的名字的时候,它自动的吸引了注意力。我并不是说我们非得这样,当不得不说,既然我们都是人类,就自然而然的对新的东西感兴趣。好多人以为统计学就仅仅是计数,并不知道我们多做的各种有趣的事。要不就是我们联起手来改变这个认识,虽然这很难,要不就是拥抱数据科学。这仅是个人观点,并不代表IMS。我说这这些话的原因是因为关于统计广泛的误解。既然我们已经在干这些事了,那我们以后便自称数据科学家好了。我们在大数据时代如何自我命名也是非常值得探讨的。
施: 是的。我有些同事很少关注统计年刊(Annals of Statistics)。他们觉得出版刊物只关心学术理论成果,但实际上不是这个样子的。
郁: 这是大陆的困境之一。统计是一级学科,而数据科学却完全不是一门学科。在某些情况下,我们可以说我们做的是数据科学。我们是统计学家并且研究数据科学。至少我们应该表明这一点。
施: 我看了最近中国教育部关于学科的排名。中国人民大学的统计系排名第一,北大排在第二,厦门大学紧随其后。人大统计系正在做许许多多的工作,并让学生参与其中。很高兴看到能有如此进步。
郁: 他们做的很多是应用统计。这很好,至少我们可以说我们在做数据分析。
施: 在看网络上的评论时,我觉得很神奇的是人们对关于统计局的文章或数据都不是很信任,不管统计局说什么,无论好坏,大家都不相信他们。
郁: 嗯,数据质量是一个大问题。这和抄袭不无关系。对于统计,如果我们不能相信数据,一切无好根基。可能理论会比应用统计发展的更快,但是公司更重视实际中的数据。他们作假难,毕竟这关系到他们的利润。这就是为什么我认为经济中的需求可以极大地促进统计科学的发展。
施: 很好,非常感谢您能抽空分享您的想法。
郁: 也非常感谢你能抽空来伯克利采访。
发表/查看评论