【COS编辑部按】
受访人:褚挺进老师
采访人:王小宁
整理:王小宁
褚挺进老师现任中国人民大学统计学院讲师, 于2012年获得美国科罗拉多州立大学统计学博士学位。他主要从事空间统计和数据挖掘方法的研究, 已在重要学术期刊上发表多篇论文, 包括统计学顶级期刊The Annals of Statistics和Journal of the Royal Statistical Society, Series B。
问:您最初学的数学,为什么在读PhD转为统计呢?统计学有什么吸引您的地方?
褚:我一开始做得是数学,然后感觉自己又解决不了什么巨大的数学问题,所以感觉做偏数据和偏应用的比较好一点。然后大家都说统计是处理数据的科学,所以选择了统计。当然,另外一个原因是那时候学长们都说统计比较容易找工作。统计学吸引我的地方是它的应用价值比数学要强点,统计虽然有一些理论推导但是比数学少多了。
问:您觉得国内的统计学和国外的统计学教学模式有什么区别?
褚:我感觉在国内的本科生把研究生的课程都上了,甚至国外没开的课都开了,我觉得我们的同学的统计基础比国外的学生强多了。我记得那边没有非参数统计这门课,并且那边的研究生也不会上测度论,他们的那边的研究生学的概率论大体上是我们的本科关于概率论的介绍。我们当时研究生的课程主要有数理统计、概率论、回归分析、实验设计、抽样技术和时间序列,博士的话和老板做一些研究写paper,研究的理论基础主要会用到数学分析、高等代数和实变函数。
问:听说您念PhD时就已经发了四大的文章,您分享下其中的故事么?您觉得发出一篇好文章最重要的是什么?
褚:其实也没有什么故事啦。刚开始的时候是和导师一起做的,起初是做一些模拟,做的多了发现里面有很多值得研究的地方,那篇论文做了1年多。我认为发论文最重要的是要有想法,要让别人知道这是一件很有意义的事情。先要明白之前别人做过的东西,你发现了其中的不足,然后再去改进。另外,在学科的交叉处比较容易出成果。我主要是搞空间统计的,把经典的统计的理论拿到空间统计中来进行分析,就比较容易写出来东西。当然了,不能排除投稿的随机性,这得看自己的运气了。
问:您认为统计研究对编程要求高吗?您对本科生做科研有什么建议?
褚:要求不高。我们要做的事情和计算机系做的是不一样的。我主要是用R和matlab 。至于给本科生的建议,我认为如果本科生想搞科研的话,可以将学年论文和毕业论文的路子顺着下来,做的东西不要相差太多,要有连贯性,问题不要取的太大。有时认为很不大的问题可能很复杂,所以会耽误一些无谓的时间。有时本科生也可以做一些实际的数据分析问题,比如去外面搞一些数据做一个Application,也是很有价值的。
问:您在人大任教有两年了,您认为人大统院学生的优势和劣势在哪里?能为我们提些建议吗?
褚:我觉得大家都很好啊!学生都比较活跃,分析的数据比较多,了解的统计方法很多,甚至比我还多。大家参与竞赛的机会也比较多,比如小创、大创等。现在我们的课程设计涉及的范围很广,同学们可以得到很多的锻炼。但是我发现应用的时候,由于对应用领域的不熟,导致拿到数据后到处套方法,所以建议大家要明确你应用的方向,知道自己要干嘛,把想要精通的行业知识要了解下。需要的话去相关学院学一些其他的课程也是挺好的。比如想搞金融,就可以侧重了解金融领域的知识,了解数据的背景。只关注数据而忽略数据背后的故事是万万不行的。
问:那您觉得在实际应用层面最困扰自己的问题是什么?
褚:我有时一直在想统计在互联网行业中应用。他们需要数据分析的学生,理论上我们是分析数据的,但是管理者大多是计算机背景的,所以到了那里有时我们学的很多的统计方法派不上用场,但是你想生存在那个环境中,就会被动的变成他们的一员,补习大量的计算机知识,或许最终变成“码农”。我不知道这里面的决策是不是互联网公司管理层的意见还是他们的方法确实好,当然我们都不想承认第二种方法,或是其他的原因,这个我们都说不准。
问:现在deep learning很火热,您怎么看这件事情?
褚:我不太清楚这一块,做计算机的人确实做出了很多的东西。相比起来,学统计的人应该学习学计算机的人的编程能力外,还要学习一下他们的营销能力。你如果去和商学院的人去讲高维,他们可能不太懂。但是搞计算机的人却很擅长炒概念。大数据的概念现在买菜的大妈都知道,国家主席也经常提,可见他们的营销能力之强。我有时甚至觉得他们是比Marketing的人还Marketing。
问:给我们推荐两本书吧!一本是统计相关的,一本是远离统计十万八千里的。
答:我建议大家看一下关于统计案例的书,但是这一类的书很少,可以关注我们大数据硕士班的关于统计数据并行运算的书(注:正在编写),这些书对于我们以后进入业界进数据分析是很有帮助的。十万八千里的书,推荐一本钱穆老先生的《中国历代政治得失》。
问:褚老师您对统计之都了解多少?请您对我们的工作批评指正!
褚:听说很多啊,COS上面会有很多关于统计的文章,在网上搜集统计资料或文献时也会经常把链接转到统计之都上面去,还有组织的每年的R语言会议影响也很大。可是最近那个网络是不是有点慢,我最近总是上不去(小编表示不只您一个人上不去,我们正在努力解决……)。
发表/查看评论