本页面为2009年春季中国人民大学统计学院《主文献研读》博士生课程网页,旨在提供课程信息通知、加强师生交流与讨论,请选课的同学定期注意页面的更新。请各位教授的弟子帮忙在课前预告或课后总结(Email给页面负责人),若老师同意公开课件,这里也可以上传课件;或以加密的方式上传。谢谢!

本页面负责人:谢益辉;联系方式见上面的作者信息。

一、课程安排

第一讲 杜子芳教授:统计学的根本问题与发展脉络

相当一部分的《女士品茶》……请杜老师的学生补充一下。

第二、三、四讲彭非教授:生命统计模型的演变及研究

参考文献:

Heligman L. et Pollard J. H. (1980), The age pattern of mortality, Journal of the Institute of Actuaries (Oxford), part I N° 434 (june) , Vol. 107, pp.49 80.

Pollard J.H. (1982), The expectation of life and its relationship to mortality, Journal of the Institute of Actuaries, 109, p. 225-240.

请彭老师学生补充一下。

第五讲 金勇进教授:缺失数据问题研究

主要参考书:

  1. 《缺失数据的统计处理》,金勇进、邵军著,中国统计出版社,2009,1
  2. 《缺失数据统计分析》,R.Little & D.Rubin著,孙山泽翻译,中国统计出版社,2004,9
  3. 其他参考文章:针对不同方法,上述两本书中列有参考文献

课程总结

(具体内容论述可参考《缺失数据的统计处理》一书)

一、关于缺失数据

  1. 常见的数据缺失模式为:单变量数据缺失、多变量数据缺失、单调数据缺失、数据缺失一般模式。也有书上说6种,另外两种为文件匹配模式,因子分析模式
  2. 缺失机制描述了缺失数据与数据集中变量值之间的关系, 处理缺失数据方法的性质依赖于这些机制中变量之间相依关系的特征。
    • 完全随机缺失(MCAR)
    • 随机缺失(MAR)
    • 取决于协变量的缺失(CDM)
    • 非随机缺失(NMAR)
    • 取决于随机影响的缺失(REDM,常见于纵向数据中)
    • 取决于前期的缺失(常见于纵向数据中)
  3. 主要统计处理方法:对缺失数据的统计处理,有三大类方法:加权法、插补法、参数似然法。

二、对缺失数据的研究几个研究阶段

  1. 启动期(1915-20世纪50年代)
    • 最先提出缺失数据问题的人是Bowley(1915),1926年又进一步强调控制各种误差源的必要;Deming(1940)提出对多变量逐一加权(Raking)方法;Hansen(1943)提出按照入样概率的倒数加权;Politz-Simmons(1949)提出著名的按被调查者在家时间加权的Politz-Simmons法。总体上看,研究成果不多,水平也有限。
  2. 发展期(1950-1995)
    • 提出处理缺失数据的各类方法。我们书中介绍的基本方法几乎都是在这个时期提出的;如校准加权,多重插补,EM算法,等等;
    • 研究从理论层面向应用层面拓展,注重调查的操作层面,对实施调查中怎样减少缺失数据有许多的讨论;
    • 出现一批在该领域研究有代表性的著作,例如:Kalton的《Compensation for Missing Survey Data》;Little RubinStatistical 的《 Analysis with Missing Data 》;Groves(1989) 的《 Survey Errors and Survey Cost 》;Lessler和Kalsbeek(1992)的《调查中的非抽样误差》。最为经典的,由一批专家共同完成的《 Incomplete Data in Sample Survey 》(1983-1985)一套3本的著作中,介绍了缺失数据有关理论、方法和案例的比较研究,是该领域研究的必读书目。
  3. 1995年以后的第三阶段
    • 方法的深入研究和不断完善时期。这个时期并没有提出对缺失数据进行处理的全新思想,但有许多方法的改进和扩展,进行了方法的比较研究。大量现代统计方法在缺失数据研究领域的应用,带动了这一领域的蓬勃发展。如Jackknife和 Bootstrap方法在缺失数据领域中的应用。至今,缺失数据的问题研究仍是国际前沿的热点问题之一。

三. 目前的前沿性研究

  1. 已有方法的改进和扩展
    • 例如,以往研究主要集中在可忽略的缺失机制,不可忽略的缺失机制仿佛是个禁区,因为研究的难度大。现在已经有一些学者开始涉足。
  2. 近年来对纵向数据缺失问题引起更多的关注,因为处理纵向数据缺失的场合越来越多。
  3. 方法的比较研究
    • 关于多重插补稳健性问题研究;热卡插补和回归插补的效果比较研究;在不同缺失数据比例下对各种插补方法进行的比较;对总均值插补法、分层均值插补法、热卡法和回归插补法等进行的比较研究。
  4. 应用研究
    • 随着理论的发展,缺失数据处理方法的应用领域也在不断拓宽。如将插补法推广应用到单位无回答;将多重插补应用到小样本调查;关于小样本调查多重插补估计量的合并问题;多重插补在不完全纵向数据中的实现;讨论缺失数据的领域也越来越广泛,从传统的社会调查到医学、生物等。
  5. 方差估计
    • 处理缺失数据的一个重要问题是,经过处理后(如插补、加权)估计量的方差是什么?没有缺失数据,估计量已经有完整的方差估计公式,有缺失数据后,原来的公式不再有效。现在,在许多场合下,不够专业的人士用完全数据的方差公式使用在经过缺失数据处理后的数据集上,这样是有问题的。在存在缺失数据情况下,方差估计有三类方法:(1)直接推导法;(2)多重插补法;(3) 重抽样方法。

大力感谢陶然撰写了本次课程小结!

第六、七讲 高敏雪教授:关于发展的统计描述与分析

参考文献:《经济发展的前沿问题》(美)结拉尔德·M·梅尔等 上海人民出版社

第六讲幻灯片下载:

第七讲小结:待发。

第八讲 张波教授:正倒向随机微分方程及其应用

有关随机微分方程及其在金融保险中的应用研究的(发表在随机过程及其应用、随机分析及其应用、数理金融等国际著名学术期刊上)最新文献

第九讲 赵彦云教授:国际竞争力研究

《国际竞争力统计模型及其应用研究》,赵彦云等中国标准出版社2005年

第十讲 赵彦云教授:创新活动统计调查和创新指数研究

《中国创新指数报告》纪宝成 赵彦云主编 中国人民大学出版社2008年

第十一讲 王晓军教授:养老金精算前沿问题研究(1)

国外文献

第十二讲 王晓军教授:养老金精算前沿问题研究(2)

国外文献

第十三、十四讲 何晓群教授:六西格玛管理与统计应用

[1]THomas Pyzdek.孙静译 六西格玛手册.北京: 清华大学出版,2003

[2]何晓群 六西格玛管理丛书 1–6册 北京: 中国人民大学出版社2003

第十五、十六讲 易丹辉教授:待定

请易老师的学生张同学或周同学或欧(老师?同学?)尽快确定吧,俺们翘首以盼呐。

第十七、十八讲 袁卫教授:待定

请刘同学看能不能确定内容,俺们也“望穿秋水”中……

二、考试安排

俺不知道。

发表/查看评论