编者按:本系列推送为2018年10月15日至10月17日在弗吉尼亚州举行的“十字路口的统计:数据科学时代的挑战和机遇”研讨会的报告,该报告由Xuming He组织并由指导委员会(成员为James Berger, Xuming He, David Madigan, Susan Murphy, Bin Yu和Jon Wellner)审核,由吴喜之老师翻译,已得到译者授权。
报告正文由“统计和数据科学的作用/价值”、“科学和社会应用中的挑战”、“基础研究”、“专业文化与社区责任”、“博士教育”五部分组成,计划分三期推出。第一期内容为报告摘要和第一部分“统计和数据科学的作用/价值”。
什么是未来?未来的数据分析能够涉及巨大的进步,克服真正的困难,并为科技的各个领域提供出色的服务。会是这样吗?这完全依赖于我们,依赖于我们是愿意选择解决实际问题的坎坷道路,还是选择由不真实的假定、武断的准则及脱离实际的抽象的结果构成的平坦的道路。谁来应对挑战?——JOHN W. TUKEY (1962), “FUTURE OF DATA ANALYSIS”
执行摘要
我们的世界越来越依赖数据和计算来创造知识、做出关键决策以及更好地预测未来。数据科学已成为一个新的领域,通过集成和开发来自统计、计算机科学及实际领域的想法、概念和工具来支持这些数据驱动的活动。数据科学现在推动着生物学、天文学、材料科学、政治科学和医学等多元化领域,更不用说全球经济的广阔领域、政府的主要活动以及日常社交和社会功能。
统计领域正处于十字路口:我们要么通过拥抱和引领数据科学而蓬勃发展,要么拒绝并变得无关紧要。从长远来看,要繁荣发展,我们必须重新定义、扩展和转变统计领域。我们必须发展并成长为从数据中收集和提取有用信息的跨学科科学。随着各数据科学实体在校园、行业和政府中快速建立,成功转型的机会窗口有限,我们绝不能错过。为实现这个变革,我们现在必须通过重新构想我们的教育计划、重新思考教师的招聘和晋升以及加速必要的文化变迁。
我们的领域受益于对毕业生日益增长的需求,但一些新领域提供了更相关的训练,而至少相对而言,统计教育停滞不前。此外,在领导位置上缺乏统计人员,我们并没有主导校园或其他地方的数据科学对话。如果我们现在不站出来,我们就有可能失去资源、人才,甚至失去统计的未来。今天,我们的毕业生很容易找到工作,这反映出数据科学家对市场的绝望,不应该让我们感到轻松。
学术院系必须采取大胆和战略性的步骤来领导和推动转型,然而,我们现有的大多数教师都准备不足,无法引领道路。使问题更加复杂的是,那些尚未接触到统计可以解决实际问题的天才学生正倾向于那些更明显地这样做的学科,从而扼杀了将产生急需的未来统计领袖的关键教师渠道。我们需要重新思考我们如何聘请统计教师、如何资助他们的工作、以及用于规范和奖励学术生涯发展的指标。统计领域正在扩大,并将继续这样做,但战略性的及不断变化的资源分配必须仍然是学术院系的高度优先事项。统计学家需要与现实世界的问题合作,以影响外部世界,超越具体的问题解决,以区别于领域科学家,并开发基于经验证据和理论研究的一般工具,在程式化模型下,为数据科学提供见解。
理论可以为实践提供关键的支架。例如,Stein关于James-Stein估计的开创性理论工作是思想开放的和根本的;它引导我们进行规范化,这在当今的大数据问题中非常有用。理论分析还提供了经验上成功的自助法、广义估计方程和序贯蒙特卡罗的见解和支持。另一方面,如果统计中的理论工作既与实践无关,也无源于实践的动机,那么,前面引用的Tuky(1962)的话,“不真实的假定、武断的标准和抽象的结果”,那么大多数此类工作的仅有的实际目的将是在简历中生成一个条目(并牺牲从审稿者到编辑的大量工作)。优雅和深度是数学中合理的治理指标;偶尔统计理论也可以优雅而深入,但不管怎样,我们的指标是不同的。良好的统计理论必须指导和加强实践,否则我们在浪费我们的时间和精力——时间和精力可以更好地花费并且在数据科学时代推动统计工作是十分必要的。
统计是一门基础学科,对数据科学至关重要。与我们的计算机科学和领域科学的伙伴合作,我们可以在我们的基础上构建并转换统计成为Fisher、Box、Tukey和Breiman最初设想的学科。统计包括实践、计算和理论,但这些组成部分之间的平衡已经严重扭曲,而且缺乏联系。在必须继续推动理论界限的同时,更多的统计人员需要投入于实践以证明我们对社会的价值,为基础研究方向提供信息,并有效地教学,使学生学习实用技能。现在,更新基本概念、基础设施、教学模式和适应新的数据科学时代的文化的时机已经成熟。更具体地说,我们总结我们的主要调查结果和建议如下:
1.实践的中心作用
今天,我们紧迫地需要以相关的计算和理论为支撑,把实践放在学科的中心。统计和数据科学的研究和教育必须着眼于解决现实世界的问题,总体上必须投入科学和领域问题,对统计以外的领域产生可衡量的影响和贡献。随着数据科学的迅速成熟,这是行业转型以拥抱和引领以数据为中心的世界的关键时期。统计领域的领导人需要做更多的工作,以加快转型,并将这一领域推广到广大科学界和公众领域。
2.强调影响
该专业需要在学术成就评估中更加重视统计研究的科学和社会影响。NSF等政府机构应鼓励统计学家和其他科学家之间的研究伙伴关系,以确保基础研究在科学、工程和社会方面具有良好基础。ASA和IMS等专业组织也应促进这一点。主要大学的晋升和任期研究评估需要更广阔的视野,不仅要衡量专业内的影响,还要衡量在应用领域的影响。社区需要重视软件/平台开发的重要性。当前过分强调出版物的数量对专业是有害的。对于实践和理论而言,质量和影响应该是主要的评估指标。
3.为更好的实践做研究
为了使统计研究有效地支持科学与现实世界中的数据问题,毋庸置疑,统计研究的表述必须反映和捕捉现代数据问题中存在的现实。例如,基础研究在动态建模,因果分析和关于依赖性及异质性的推断方法中是需要的。
4.迎接重大挑战
该领域已准备好接受重大研究问题,以开发经过实践证明的统计调查过程,包括问题制定、数据处理以及统计和机器学习方法/算法,用于分析新兴数据类型(例如文本,图像,关系型数据)、开发支持和推进此类工作的相关理论、发展计算平台,这些计算平台考虑了统计效率、计算、通信和存储成本以及人员参与成本之间的各种平衡。我们必须解决统计和数据科学所有研究领域的研究协议、评估指标和基础架构开发方面的问题。
5.更广泛的方法评估指标
方法论的发展需要较少关注单一目标下的最优性,而应更多地关注涉及稳定性/稳健性、可再现性、公平性、计算可行性、经验证据和在领域科学中已证明的影响的适当指标。
6.训练现代技能
我们必须培养在批判性思维、建模、计算和交流等方面有重要技能的下一代统计学家和数据科学家。我们需要重新构想我们的博士学位课程,以适应统计学的必要转变。
背景
“十字路口的统计:数据科学时代的挑战和机遇”研讨会于2018年10月15日星期一至10月17日星期三在弗吉尼亚州阿灵顿的万豪水晶门户酒店举行。此次研讨会聚集了约48位领先的研究人员和教育工作者,利用数据科学时代前所未有的机遇和挑战,为统计领域制定10-20年的愿景。2018年9月10日至10月2日举行了两次研讨会前网络研讨会,数百名在线参与者参加了此次研讨会。网络研讨会和研讨会由来自Knowinnovation的促进团队协助,目的是寻求社区的广泛投入,并牢记以下三个目标:
-
识别需要新的统计基础,方法论和计算思想的新兴研究主题;
-
应对不同应用领域中数据驱动的重要挑战,并促进跨学科合作以应对重要的科学挑战;
-
创建一个充满活力的研究社区,在统计的不同子领域之间保持适当的平衡,包括对基金会的投资。
该项目由NSF赞助,由指导委员会和一组主题负责人组织。这个由六名成员组成的指导委员会由James Berger, Xuming He, David Madigan, Susan Murphy, Bin Yu和Jon Wellner组成,负责项目的总体规划。十名主题负责人负责主持和总结在线论坛和研讨会上的讨论。主题负责人包括David Banks, Alicia Carriquiry, David Higdon, Jennifer Hill, Nicholas Horton, Michael Jordan, Marianthi Markatou, Dylan Small, Marina Vannucci和Ming Yuan。
本执行摘要由Xuming He, David Madigan, Bin Yu和Jon Wellner编写。该报告的第一版是由Xuming He组织并由指导委员会监督的大量撰稿人提供的。我们的撰稿人代表不同的统计人员小组,他们共享报告中讨论的核心价值,但不一定在每个细节上都达成一致。指导委员会有意选择在报告中包含挑衅性言论,以鼓励更广泛社区的讨论和辩论。
该报告旨在能让广泛的统计和数据科学领域的主要利益相关的读看到,包括学术院系,大学行政管理部门和资助机构。
在第1节中讨论了统计和数据科学的作用和价值之后,本报告重点关注与新兴研究和应用中的数据驱动挑战相关的两个目标。第2节从科学和社会应用引起的数据挑战中确定新兴研究主题,第3节讨论基础研究中的许多新兴领域。执行摘要中还总结了如何应对这些数据驱动的挑战并促进跨学科合作。第4节(专业文化和社区责任)和第5节(博士教育)涉及创建充满活力的研究社区并保持适当平衡的第三个目标。
1. 统计和数据科学的作用/价值
2002年,NSF举办了一个研讨会,讨论统计学界未来的挑战和机遇;参见Lindsay Kettenring, and Siegmund(2004)。那时,统计界看到了越来越多的大规模数据的出现带来的快速变化和持续增长。从那时起,该领域的发展加速了,包括统计领域的本科和研究生课程的规模以及统计领域与其他领域之间相互作用的广度。同时,公共和私营部门都接受了大数据,因为越来越多的人认识到大数据可以深入了解生物过程的本质、精密医学、气候变化、社会和经济行为、风险评估和决策。数据科学已将自身展示为一种自然的跨领域发现方法。
毫无疑问,被认为是从数据中学习的统计学在数据科学中具有中心地位。实际上,一些统计系最近更名为统计和数据科学系(例如,耶鲁大学,卡内基梅隆大学和UT奥斯汀分校)。全国各地的大学(例如,密歇根大学)现在都为本科生提供数据科学专业,并且越来越多的机构以各种名称提供了数据科学硕士学位课程,这些机构来自各个领域,例如商学院,信息学院和计算机科学学院。统计界认识到,我们正处在十字路口,拥有前所未有的机会,使其自身现代化成为数据科学的主要参与者。
1.1 统计作为数据驱动的学科
自从统计学作为一个领域诞生以来,它就一直受到科学技术进步的影响。今天,在几乎每个学科中都需要收集和分析数据的情况下,这一点可能尤其如此。随着数据驱动的科学范式成为一种新规范,我们有机会改变自己的领域,并在数据科学中发挥领导作用,尤其是在统计思维与计算思维之间的相互作用上。正如Wender(2017)在国家科学院的报告所讨论的那样,大数据既有希望,也有危险。统计数据正处于以数据为中心的世界的中心,可以帮助私营和公共部门的科学家和领导者实现大数据的真正潜力。
为了融入当今重要的社会和科学计划,我们绝不能将研究局限于纯粹的知识好奇心,也不能将对下一代统计学家和数据科学家的培训仅限于传统课程,无论它们曾经多么成功。10月的研讨会以三位在精密医学领域最前沿的数据科学家(Simon Tavaré)、微数据的使用(Julia Lane)和天文数据(Robert Lupton)的演讲为开端,并继续讨论了许多数据挑战。我们同意,虽然统计数据本身就是一个领域,但它与应用的紧密联系必须继续并加强,这些应用自然包括来自物理科学、社会科学、医学、工程、金融、工业、治理、体育和艺术的各种数据问题。
统计和数据科学的核心价值在于它如何促进科学和社会的理解与发现。合理的数据收集实验设计可提高效率和数据质量。统计过程控制导致制造质量的提高。不确定性的统计量化在确认分析和减少错误发现的风险中起着至关重要的作用。重采样方法和贝叶斯计算在广泛的应用中很有用,因为它们可以容纳复杂的模型。对于统计和数据科学而言,持续证明其对现实世界问题的价值很重要。
统计学发展了作为数据分析指导原则的基础和理论。计算方法和软件开发对于实践同样重要。我们工作的影响不应局限于任何单个应用程序,统计的进步可以对许多应用产生重大影响(例如,Bootstrap、MCMC和贝叶斯计算、类似LASSO的压缩感知方法、一般的适用于大数据的非参数化方法,例如随机森林和深度神经网络)。
许多成熟的统计方法已被“商品化”—有免费的,高质量的软件可以执行许多统计分析。这些方法通常可以提供价值,但需要统计学家扮演新角色。我们需要训练下一代的数据科学家,他们具有在问题表述和对统计概念的正确解释等方面的关键技能。
新理论、方法和方法的动机可能源于由新的调查领域驱动的大规模协作调查,这些调查通过现代传感和数据收集技术以及最先进的数据存储和计算平台而得以实现。这些调查几乎影响了所有领域,并改变了统计与之相关的方式。从农业到社交网络,从遗传学到商业分析,统计学家和数据科学家都处于独特的位置,可以帮助科学家解决有关数据发现的重要问题。
统计人员和统计学如何协助和进行科学研究有很多方式。它们包括:
-
通用方法和软件(例如,回归,用于设计实验的DOE软件)的应用
由于改进的软件和数据平台,在线帮助(例如堆栈交换)、开放源代码的用户支持的灵活通用软件环境(python,R),通用工具的使用近来有迅速的强大正面效果。统计方法和软件已经出现爆炸式增长,现在可供所有用户使用(R包,python)。大数据科学家显然从这种把统计提供给应用的模式中受益。此外,由于他们具有从现代(数据密集型,HPC和网格)平台访问数据的技能,因此可以将已开发的方法和软件应用于新出现的问题。
-
作为大学环境中的顾问或自由职业者
统计人员和数据科学家可能会专注于特定类型的问题或各种类型的问题,通常是多学科团队努力的一部分。这是统计学和数据科学在以后几十年需要产生影响的领域—因此,我们应该牢记这一点来进行激励、培训和开展研究。统计人员和数据科学家可以而且应该在国家实验室、国家项目(例如大型天气观测望远镜,DARPA),主要行业(例如制药公司,保险公司)和政府(例如美国人口普查,USDA)中发挥积极作用)。
-
作为学术研究人员
在这种环境下,研究与教学自然融合。但是,协作/多学科科学的深度可能会受到其他约束的限制。一个主要的约束是教师需要以主要作者的身份出版大量出版物。学术院系需要找到鼓励研究人员参与大规模,多学科科学工作的方法。对学术成就的评估需要不限于只考虑本领域的出版物数量。应该强调对实际领域科学和数据科学实践中的领导作用的可衡量的影响。为了使我们的领域在未来十年中蓬勃发展,迫切需要这样的变革。
1.2 统计与人工智能
在许多技术和科学领域,“人工智能”(AI)一词已开始被广泛地用来描述使用数据分析和基于数据的决定来代替传统的计算机编程,这往往是在补充甚至取代人类的判断。
大约在1955年,人工智能的最初目标是在软件和硬件方面模仿人类的智慧。这一目标仍然是一个崇高的愿望,但可以说,这一目标远未实现。在接下来的几十年中,人工智能研究人员致力于实现这一目标,探索了一系列方法,包括逻辑推理、约束满意度、规划、概率推理和从数据中学习。后者通常被称为“机器学习”(ML),这个术语在20世纪80年代开始被自我认定为人工智能研究人员的研究人员所广泛使用。然而,到20世纪90年代,ML的方法和理论原理显然与统计方法和原则密切相关,即使不是一模一样的,ML和统计之间的区别开始消失。这两个传统的研究人员对跨越旧边界的问题做出了重大贡献。对ML产生了粗略的表征,强调分类、预测、非参数和计算效率。
这些新兴理念直接适用于工业中新出现的问题,20世纪90年代和2000年代,ML在关键任务领域,如欺诈检测、供应链建模、推荐系统、诊断、个性化搜索、广告展示、工业机器人和物流。这些应用依靠开发平台来收集和处理日益大量的数据,这项活动需要计算机科学其他分支,特别是分布式系统和数据库的专门知识。工业界开始使用“数据科学”一词来指能够以这种方式混合统计、数据库和分布式系统的个人和研究团队。同时,科学界的研究者,尤其是天文学,基因组学和地球科学的研究者,开始建立用于大规模数据分析的平台,并经常与业界共享资源(通过开源软件的出现),并且他们的企业通常也被称为“数据科学”。最后,整个企业不仅涉及平台,而且与大规模数据有关,“数据科学”也在挑战新环境中开始涉及应用统计的一些经典问题(例如,缺失数据、可视化和因果关系)。
在过去十年中,这些趋势发生了哪些变化,以至于被贴上了“AI”的标签?主要的变化是,数据集在计算机视觉、语音识别和语言翻译等领域出现,这些领域具有足够的规模和范围,可以构建系统,利用这些数据来模拟人类的感知和语言技能。实现这一点的算法是ML算法,这些算法与20世纪80年代相比变化不大,其中最重要的算法是神经网络中的反向传播,该算法在80年代开发,其根源在于20世纪50年代在最佳控制、信号处理、优化和统计。平台已经改变,但是这些变化是工业和科学中大规模数据分析的更大趋势的一部分。简而言之,新的数据集的出现使得计算机视觉、语音识别和语言翻译的经典AI中心取得了显著进展,这引发了整个企业的扩张,以反映其模仿人类的初衷。
Jordan(2019)将经典的模仿人类的人工智能与智能增强(intelligence augmentation,IA)区别开来。在智能增强(IA)中,计算机用于增强人类的感知,认知和决策能力,如搜索引擎和图像处理;在智能基础设施(intelligent infrastructure, II)中,网络的设备需要与多个人类决策者一起做出大量近乎同时的决策,例如在现代交通、商业、医药和金融系统中。统计原则在IA和II中至少与AI一样重要。此外,在II中,统计原则将需要与微观经济学原则相融合,以便相互作用的决策者可以有效地合作以应对稀缺性并确保公平和机会的获取。
数据科学、机器学习和统计在它们要解决的问题方面有着基本相同的目标。这些领域的研究人员从不同但相互重叠的角度开发了方法论和方法。统计学并不认同模仿人类来构建自主学习系统的总体目标,而是侧重于不确定性下的推理和决策过程中涉及的科学、数学、计算和社会问题。这些交错领域之间正在发生一些交互和协作,并且还需要更多。对于深度学习的最新突破,人类的印记或参与以及计算能力是必不可少的,但是对于某些任务(例如病理报告解读),我们可以想象,随着时间的推移,人类将在人类前进到下一个挑战时,机器将扮演更重要的角色。
发表/查看评论