编者按:本文翻译自2018年10月15日至10月17日在弗吉尼亚州举行的“十字路口的统计:数据科学时代的挑战和机遇”研讨会报告。该报告由Xuming He组织并由指导委员会(成员为James Berger, Xuming He, David Madigan, Susan Murphy, Bin Yu和Jon Wellner)审核,由吴喜之老师翻译,已得到译者授权。本翻译工作首发于统计之都网站和微信公众号上。

报告正文由“统计和数据科学的作用/价值”、“科学和社会应用中的挑战”、“基础研究”、“专业文化与社区责任”、“博士教育”五部分组成,计划分三期推出。第二期内容为第二部分“科学和社会应用中的挑战”和第三部分“基础研究”。

我们首先讨论由科学、工业和社会中的复杂领域问题引起的数据挑战,然后讨论需要基础统计研究来应对大数据挑战的许多新兴应用。所谓“应用”,不仅仅意味着要使用现有的方法来解决问题,更重要的是,我们的目标是运用统计理论和原理来开发新的及在实际中有用的方法。

2. 科学和社会应用中的挑战

2.1 数据挑战

新兴的数据问题将推动数据挑战。数据科学和IT市场的生态系统正在迅速进化,从而创造了具有可能无法预料的创新的新跨度。Netflix建立了电视内容推荐系统,然后对其进行反向工程,以创造新的流派来吸引观众。同样,YouTube也为小众表演者创造了新的机会来发现他们的艺术并将其商品化––比如业余乐队的一个音乐家表演吸引了万分之一的美国人,YouTube和其他载体便可以将他们的音乐卖给三万个客户,并且他们可以辞去日常工作。我们脚下的大地正在变化,我们必须比前几代统计学家变得更加敏捷和富有企业家精神,以实现统计学的转变。国家科学院的报告“海量数据分析的前沿”讨论了大数据带来的许多挑战。

复杂的领域问题伴随着不同的数据形式:数字、图像/视频、语音和文本、以及这些形式的集成。统计的转变是由大胆的实践和跨学科研究驱动的,这些学科在计算和理论的支持下来解决此类数据问题。相关的理论和计算是始终需要的,但与过去相比,在很大程度上,有价值的学术成就将建立在在实践和跨学科研究的基础上。

具体来说,在新时代,我们看到以下数据挑战:

  1. 数据的复杂方式多种多样:数量、速度、多样性、有效性,如果包括对抗性训练,甚至用V代表Vendetta(仇杀队)

  2. 在许多情况下,可用数据并不是总体的有代表性的样本

  3. 通常,观察到的数据是许多不同数据生成机制的叠加

  4. 一些特定的解决方案可以推广,而某些则不能。我们可以在类似问题上借用其强项及获得启发,但是每种分析都必须适合于实际情况,以实现最大的收益

  5. 欧盟的“通用数据保护条例”对分析施加了紧迫性,因为人们可能会反复随意地选择加入或退出研究,并且分析人员可能需要不断进行昂贵的重新计算

  6. “通用数据保护条例”还要求透明性和可解释性。如果某人被拒绝贷款,那么分析师必须能够解释原因——他们需要再稳定工作两年,或者他们每年需要多赚5000美元。定义可解释性的含义是当前的研究

  7. 可重复性:数据的清洁程序和处理需要成为可重复性管道的一部分。我们需要制定一套通用标准

  8. 公平性:负责任的数据分析必须解决公平性问题。当数据涉及人群的时候,抽样或测量中的偏差会导致歧视。我们必须教育所有人在数据分析中关于确保公平性的需要;参见,例如,Dwork et al(2012)

相应的文化和人类结构需要与这些数据挑战保持一致:

  1. 基础设施:需要考虑到与数据分析有关的“费用”,包括组织大量数据和理解数据结构。这需要物理基础设施(数据库、在线存储库、数据管理、GitHub和共享软件)以及具有适当知识/培训的数据“专家”

  2. 随着问题空间变得越来越复杂(例如,基因组学或社交网络中的因果推理),需要多学科团队,甚至需要确定一个可处理的问题

  3. 数据挑战通常是依赖于领域的;不同的领域(从物理科学到社会科学)需要具有不同技能/专业知识的统计学家和数据科学家。重新构想的统计教育计划需要用这样的技能来训练我们的学生

统计本身产生于科学家需要量化地使用测量、观察和实验以更好地理解科学现象的需要。天文学、赌博和遗传学等初始应用领域推动了统计理论、概念和方法的开发和使用。自Breiman(2001)以来,我们在将机器学习作为统计的一部分方面取得了进展。在数据科学时代,新兴应用非常丰富。在接下来的几个小节中,我们讨论了选定的几个,并不做出列表是详尽无遗的任何暗示。

2.2 精准健康/医学

精确的健康/医学研究需要对多模式、多尺度、多视角、异质和相依赖数据进行集成和推断;预测和不确定性量化以解决临床医学最大问题;将根据疗效数据(即临床试验数据)获得的结果外推至有效性数据和个别患者的治疗。

由于生物医学研究技术的进步以及捕获和存储大量数据的整体能力的提高,生命科学,医学科学以及公共卫生领域的研究已经发生了重大转变。这些变化将科学生产力的瓶颈从数据生成和收集转移到了数据管理、分析和解释。生物医学和生命科学中数据的爆炸式增长可以用来构建更精确,更准确的疾病分类以进一步发展精确的健康/医学概念,从而有可能彻底改变诊断,治疗和临床决策的制定,以导致进行更个性化的治疗并改善患者预后。例如,降低基因组测序的成本会增加可用的遗传数据,这些数据可用于了解许多疾病的根本原因。此外,电子健康记录可用性的提高提供了对临床数据的访问,而各种移动设备提供了生活方式和其他类型的数据,可用于促进疾病的更准确诊断和治疗。

因此,精密医学是一种新兴的疾病治疗和预防方法,它可以解决个体差异并整合一系列个性化数据,包括基因组、表观遗传、环境、生活方式和病史数据。它着重于将个体分为对疾病的易感性和可能的治疗反应不同的亚群。

为了实现精确健康的承诺,我们需要克服许多科学挑战,这些挑战来自考虑所使用的多个数据源的特征—每个人被收集的数据历史记录,包括医疗记录、健康概况、可穿戴设备、它们所接触的环境、遗传信息等。这些包括不同的数据类型,例如,数值、文本和图像数据(多模式数据)、多分辨率、多视角依赖数据,具有许多不同类型的相关性,例如时间、空间和局部相关。此外,数据中可能存在测量误差和偏差、异质性(局部和空间环境异质性)以及个体变异性和总体异质性。所有上述数据特征都带来了需要解决的基本挑战。

精确健康的基本挑战之一是识别治疗效果的亚组。这是实现精确健康益处的重要一步,因为它提供了关于具有特定特征的个人对特定治疗在疗效或不良反应下如何作出反应的证据。不同的治疗效果不仅包括各亚组发生的治疗效果的数量差异,还包括治疗效果的质量差异。此外,根据研究目标,亚组的特征可能是探索性、数据驱动性或确认性。区分治疗效果的亚组鉴定方法背后的一个关键思想是鉴定可以推动治疗效果改变的预测协变量(生物标志物)。数据驱动的方法通常用于亚组识别,考虑到这一挑战对精确健康的重要性,需要新的方法。一个基本问题是开发用于子组后选择的推断方法。在精密医学研究中需要纳入适当的统计程序和对事后选定子组进行确认分析。

在精密医学领域中出现的其他挑战包括需要开发一种方法来测量一系列疾病的风险以及开发数据集成方法以使人们能够解决重要的推断性问题。数据集成是当前活跃的研究领域,许多科学领域都对此做出了贡献。在生物统计学领域,通过各种形式的荟萃分析在一定条件下进行数据整合。尽管过去和现在在数据集成领域有很多活动,但仍有一些基本问题有待解决。需要开发具有良好统计属性和相关高质量软件的方法,特别是针对各种大规模、高维数据的方法。此外,还需要回答何时不能集成数据集/数据源问题的方法。需要询问何时在分析中合并其他数据没有什么用处,以及如何证明这一行动的合理性。

如果能够获得针对上述挑战的可靠且经过充分测试的解决方案,则其影响将是实质性的,而且将在许多层面上产生影响。在个人层面,它将促进更有效的健康管理,并更好地了解影响健康的外部、非生物因素,以及更好地了解疾病的生物学、社会、环境和其他决定因素;根据个体基因组和表观遗传信息提出更好的治疗方法,并为个体提供更好的自我指导管理;允许个人管理符合其需求的成本效益;并帮助减少不必要的治疗处方。在公共卫生层面,它将更好地了解不同环境因素对健康的影响;提供饮食、运动和其他相关因素对健康影响的更准确归因;增进对健康干预措施副作用的了解;提高新产品开发的有效率;通过提前识别最有可能从特定治疗中受益的个人并确定可能遭受不良事件的个人,从而降低医疗保健成本。

2.3 物理科学中的统计

对于物理科学中出现的复杂数据问题,需要一种新的统计方法。应用程序中的常见主题包括时空数据、不确定性量化、错误设定的逆问题、组合跨尺度的信息(例如,物质科学中的原子尺度到大尺度尺度,人口统计学中从家庭到城市到都市区域)以及使用能够模拟特定的物理现象。

物理科学中的现代研究通常利用新颖的数据源、各种子系统苛刻的计算模型以及为推进科学而需要获取的详细专家知识。这样的研究是多学科的,需要在物理科学、计算建模、数据管理和统计分析方法的多个方面具有专业知识。应用领域众多。部分列表包括天文学和宇宙学、地球物理学、水文学、高能物理、材料科学、预测化学、核物理和粒子物理学。

对于复杂数据的类型和物理科学中出现的问题,迫切需要新的统计方法和计算思想。迄今为止,现代统计推断中的许多工作都是由技术行业或生物医学研究中相对较好的问题驱动的,但是下一代数据(如遥感、卫星图像、天文学、粒子物理学、地球科学、现代成像和探索材料动力学的诊断设施)更加复杂,需要新的统计方法以及规模算法。复杂性源于于底层物理系统的复杂性和测量过程的复杂性(例如,从低信噪图像中解波的对象的形状,由于非线性、物体模型不正确以及计算不正确的卷积内核而导致的偏差;这些都非常重要,因为物理上有趣的参数来自平均数以千万到数亿次的测量)。

与物理科学应用中的新统计方法开发相关的常见主题包括:

•处理时空数据;

•不确定性量化方法,将物理观测与要求苛刻的计算模型相结合,以进行统计推断;

•不适当的逆问题(例如,根据材料与激光或中子束的相互作用来推断材料结构);

•利用大量低信噪比进行推理;

•利用通过搜索空间和/或时间收集的非代表性“机会”数据;

•结合不同类型的测量,这些测量通常来自不同的物理系统,并且通常处于不同的空间和时间分辨率水平(例如,在宇宙学中——超新星的亮度、宇宙微波背景的波动以及遥远星系的畸变);

•将不同分辨率的信息联系起来(例如,从材料的分子成分中推断散装材料的特性,从化学结构推断化合物性质);

•使用基于物理学的知识在未经测试的新体制(例如极端温度、极端应力条件、极端环境下的材料相互作用)下产生外推预测;

•使用数据(和其他类型的证据)在竞争模型之间进行选择,并通过模型组合产生更可靠的预测;

•开发有效利用可用数据源、计算模型、计算资源和统计分析方法的途径,以便做出可靠的科学推断;

•并开发统计方法,以更好地理解和预测罕见的高后果事件(例如流星撞击、桥梁倒塌、特大风暴)。

正如许多人所指出的(包括国家科学院的报告,“海量数据分析的前沿”),大数据中的挑战不仅仅是由于规模:它们还涉及复杂性(物理科学中遇到的复杂性类型本质上是不同于诸如人的数据、遗传和技术数据)。实际上,数据的庞大与数据异质性有很大关系。科学进步将越来越多地源于使用复杂物理过程的可解释模型获得的知识。统计人员和数据科学家必须与领域科学家紧密合作,以了解问题,挑战和科学目标。解决物理科学中特定问题的现有方法可能会忽略统计学家可以识别的数据分析机会。此外,重要的是跨领域转移技术,重点放在可推广的方法上。如果从解决单个问题的方法中得出可推广的方法,科学将进步得更快。

2.4 统计与量子信息科学

量子信息科学研究量子理论和技术,以开发量子器件,用于信息处理、传输、计算、测量和基本理解,而经典方法的效率要低得多,或者根本无法做到。它包括量子通信、量子计算和量子计量学,其中量子通信利用量子资源进行安全通信和其他与密码学有关的任务。量子计算通过使用量子设备而不是遵循经典物理学并被经典计算机使用的电子设备来执行计算;量子计量学利用相干量子系统来增强物理量测量的性能。全球范围内都在进行深入研究,以发掘利用量子特性的许多技术,这些技术可能会导致功能更强大,更普遍的量子设备得到更好的计算、通信和加密。现在,量子技术的发展正处于关键点,正在以超越传统设备的能力来构建量子通信设备和量子计算机,例如量子退火器、量子模拟器和量子密码设备。一方面,统计可以在量子信息科学中发挥关键作用,例如量子设备的认证及其在科学研究中的用途。另一方面,量子计算在革新计算统计和加速机器学习算法方面具有巨大潜力。量子技术发展和基于量子的计算技术(用于统计和机器学习)的统计方法迫切需要,并且量子科学和统计之间的相互作用可能是少数几个最重要的新兴应用之一。量子信息科学利用诸如叠加和纠缠等怪异的量子特性来发明新的量子设备,以实现比相应的经典技术更快的计算、更安全的通信和更好的物理测量。它利用新的量子资源来完成传统技术无法完成的任务。这些量子资源还可能提供不具有经典对应物的数据收集和处理新手段。所有这些将为统计和机器学习提供新的理论、方法和计算技术。

2.5 匿名数据的统计分析

根据最近的一项估算,人类平均每天会产生2.5×1018字节的数据;参见https://www.domo.com/learn/data-never-sleeps-6.几乎所有这些数据都以这样或那样的形式记录,但是当前的法律和法规框架需要进行重大改革,以解决数据收集和使用的道德问题。像1964年的“民权法”一样,某些领域(例如住宿、教育和就业)的道德规范已经制定了五十多年,但目前没有机制来规范使用数据的公司。另外,公众对用户隐私缺乏兴趣。

有一些关于数据匿名化的统计研究,例如统计披露限制、差异性隐私或数据清洁。差异隐私(DP)试图通过注入采样以外的其他噪声来最大程度地降低隐私对个人数据集的影响。截至2018年,人们对获得常用统计算法的差异隐私版本有极大的兴趣,这是一个蓬勃发展的研究领域。DP框架在行业中也有重要用途。例如,苹果公司利用局部差异隐私来了解其用户的行为,而无需跟踪特定用户的使用模式。参见https://www.apple.com/privacy/docs/Differential_Privacy_Overview.pdf.数据清洁是指试图对数据进行匿名处理的一大套做法,以保护对象的身份或其在公开发布的数据集中的机密属性,或确保公平对待每个对象。这可以通过以多种方式进行数据屏蔽,如通过删除(或变换)可能包含标识信息的变量,或者随机生成其分布接近实际数据集的新数据来实现。

随着对隐私的日益重视,数据清洁和差异隐私,或它们的改进版本,都可能成为数据分析的主要工具。但是,仍然存在许多问题和挑战。参见,例如,Bambauer et al.(2014)和Mervis(2019)的《科学》杂志文章。后者讨论了在普查数据上使用DP的可能弊端,包括在对DP过滤(普查数据)后没有足够的信息用于社会科学研究。显然存在一个问题,即如何进行研究以在隐私和数据准确性之间取得平衡?特别是对于统计学家和数据科学家来说,一些关键问题包括:

•各种不同水平的隐私问题能否建成统计模型?当前差异隐私框架旨在最大限度地减少所有用户的数据泄漏。实际上,某些人愿意分享比其他人更多的个人信息,尤其是如果这样可以为他们提供更准确的建模和分析。

•差异性隐私与其他隐私定义的关系如何?更具体地说,是否存在ϵ差异隐私还可以保证其他诸如k匿名的隐私概念的条件?此设置还需要数据集的背景分布,尤其是变量的相关性上,做出假定。

•我们如何正确考虑隐私保护机制引入的附加随机性,无论它们是DP还是别的?这是否需要新的统计推断工具?

•还有其他类似的方法可以简化数据的匿名化吗?这些方法中的任何一种是否提供DP以外的更多功能?

上述问题必须通过经验和理论研究来解决。研究中使用的理论模型和模拟模型需要捕获现实的关键方面,例如,有关普查数据并考虑到实际相关的目标和目标受众。当前的人口普查局使用的隐私保护方法需要与诸如DP等新方法进行系统比较,并明确定义相关和实际目标。提倡DP进行普查的统计研究人员需要了解使用普查数据进行研究和提出政策建议的社会科学家的关注。DP的普查决定应与社会科学研究员和其他利益相关者协商。

3. 基础研究

统计理论的基础研究为我们在统计实践中的工作提供了宝贵的指导和深入的了解。过去20到30年间,统计学基础研究的两个主题涉及一般经验过程的理论以及半参数和非参数模型下限工具的系统开发。随着我们对集中度不平等的理解的迅速发展,推动了经验过程的理论发展。

统计的一个成功案例包括非常通用的可验证Efron的非参数自助法的自助法极限定理,以及在各种问题中更通用的可交换加权的自助法。这些结果已得到进一步开发,以产生适用于海量数据的可扩展自助法。

其他成功案例包括对基于Talagrand(1994)的基础工作的新的浓缩约束技术对模型选择方法的理解,以及非参数贝叶斯方法的巨大发展。半参数和非参数模型的下界和用于构造有效估计量的方法的开发也在持续发展。这些方法开始在因果推理和模型后选择推断方面产生回报。

我们对应用和数据挑战的强调绝不降低统计学基础研究的价值。相反,它更令人信服和迫切地主张对统计学和数据科学的基础研究进行更多的投资。需要新的理论范式来支持和指导新的统计实践,以应对新的数据挑战。我们理论的发展需要摆脱简单化的模型和假设,采用新的框架来反映当今的领域问题和数据现实,从而允许非独立同分布样本以及异构总体和数据源。基础研究的评估指标应包括创新,质量和影响力。在本节中,我们将讨论一些重要的新兴主题。

3.1 模型与算法的作用

传统的统计思维集中在数据生成建模上。简单和可解释的模型通常是黄金标准。但是对于现代应用程序而言,现实往往过于复杂,以至于无法用简单的模型来描述。尽管完全摒弃建模在这些应用程序中的作用将是一个错误,但当今的科学和社会问题促进了对现代应用程序建模的重新校准。

正如George Box的名言所说的:“所有模型都是错误的,但有些模型是有用的。”模型是对现实的近似,它们为特定目的而被开发。通常,数据分析的目的是制定详细的决策,然后建模应反映出这一目标。一个典型的例子是分类,在许多应用中,判别建模是生成建模的更合适的替代选择。在大数据分析中,不建议为所有目的都使用一个模型,无论它多么复杂和适应。在某些应用程序中,可解释和可扩展的局部模型可能是首选,如何跨局部模型有效地借用信息需要进行新的研究。

随着计算机科学思想的注入,数据分析中经常采用算法观点。支持向量机就是一个例子。可以将其视为分类算法。但是,将支持向量机与平滑度正则化绑定在一起并重现内核Hilbert空间,已经对如何工作以及如何对其进行了改进产生了深刻的见识。

许多统计工作都使用生成模型来激励和分析数据分析程序。这样的模型对于设计新程序以及理解和比较现有程序可能是有价值的。但是,我们绝不能止步于此,因为任何关键地依赖于生成模型的推论工作,无论如何谨慎选择,都可能与相识脱节。

在实践中,建模的一个相关挑战是稳健性。需要开发健壮性的新概念,以解决数据科学的统计和计算方面的问题。大部分早期的稳健性文献都是在参数模型的背景下进行的,其中否认了模型的真实性。在这些文献中,统计方法被设计为在给定参数模型的邻域中很好地工作,但是邻域的概念通常在范围上受到限制。稳健性需要一种不同的方法,不仅用于建模,而且还用于数据质量、计算限制等。Yu(2013)主张在统计和数据科学中的稳定性对数据和模型/算法扰动的重要性,以及具有可重复性、稳健性和可解释性的自然连接的重要性。

3.2 不同约束条件下的统计效率

传统的统计效率集中在如何充分利用给定的样本上。虽然这仍然至关重要,但越来越经常地,还需要考虑到其他资源限制因素。最值得注意的之一是计算资源。随着数据量的增加,需要注意任何推断技术的计算方面,并且计算效率应该与旨在推断的统计效率一起考虑。这种需求促使我们在过去几年中研究多项式时间可计算方法的分布推断和极小极大限。尽管取得了一些初步的成功,但到目前为止,我们还没有一个统一而通用的统计框架来解决统计和计算效率之间的关系和平衡。

一个相关的约束是空间。完整存储或分析海量数据集通常不切实际。自从大数据出现以来,计算机科学家就一直在处理这个问题,并提出了许多非常有用的想法来以有限的内存进行存储和查询。值得注意的例子包括随机投影,其中大量变量的主要特征可以通过少量的随机测量来保留,而数据流式传输中的内存非常稀缺,因此我们只能存储单个数据,并且希望以在线形式进行推断。然而,这些非常重要的问题却很少受到统计界的关注。

3.3 数据驱动范式中的推断框架

在许多现代科学应用中,首先收集数据,然后在看到数据后制定科学问题或假设。这种数据驱动的科学范式给统计推断带来了新的挑战。在这种情况下,对经典统计推断的作用的误解可能会导致“呼吁应用较少的能力,放弃对有效的统计方法的研究。”相反,“应该有动机创造统计推理,将目前没有考虑的非正式数据分析活动整合在一起”(Buja和Brown对Lockhart et al。(2014)的讨论)。

此类活动通常以大规模探索性数据分析的形式出现,并且可能涉及交互式数据分析的多次迭代。它们在许多应用中至关重要,并且非常成功。然而,从统计的角度来看,如何在一个更正式的推理框架中适当地考虑这些活动仍然是一个巨大的挑战。一个相关的挑战是如何实现科学的可重复性/可复制性,并传达来自这些复杂数据分析管道的数据驱动发现的不确定性。

Taylor and Tibshirani(2015)提出了一种选择推理的新方法,其中感兴趣的参数可能与数据有关。但是,对无模型结构参数的统计推断仍然是任何验证性分析的重要组成部分;感兴趣的参数可以是科学中的固有数量,也可以是所研究人群的平均治疗效果。在模型选择之后进行基于模型的推断时,我们必须开发适当的推断方法,以解决模型选择中的不确定性。重要的是,我们应更多地注意许多有用但特别的过程,例如数据拆分,并描述何时及为什么这些方法可行以及如何对其进行改进。

3.4 观察研究与实验设计

对原因及后果进行推断,即因果推断,是日常生活和公共政策的核心。因果推断问题的一些示例如下:双膦酸盐是否会导致食道癌?街道上的人口密度(跨时间和邻域)如何影响犯罪率?房东有种族歧视吗?

在线和其他电子活动留下的数据痕迹“数据耗尽”提供了非常大的数据集,可能为因果推断提供了新的机会。这样的数据集的示例包括运输数据集(例如,纽约市出租车数据、Waze/Google地图数据、公共交通数据、Strava数据、交通事故数据)、健康数据集(例如,Medicare/Medicaid数据,保险索赔数据),住宿数据(例如AirBNB数据)、公共安全数据(例如Shotspotter枪声数据、警察公共联系数据、CCTV、远程信息处理)、交易数据(例如金融交易、零售)、教育数据(例如学生水平的管理数据、学校水平的管理数据)、就业数据(例如ADP薪资数据)、公众与政府数据的交互(例如在 https://catalog.data.gov/dataset/311-data-in-development 的311数据)以及大规模传感器数据(例如,起搏器数据,Fitbit数据)。

需要法治因果推断的新方法,以充分利用这些大数据集进行因果推断。可以从新研究中受益的因果推断的挑战性问题包括:

  1. 如何整合来自各种数据源的因果关系证据?我们如何调和得到截然不同结果的观察研究结论?

  2. 我们如何量化与因果效应估计相关的真实不确定性?

  3. 我们如何利用低精度,低偏差数据和高精度,中等偏差数据的优势?

  4. 我们是否可以结合使用无效测试,阴性对照等来建立更好的模型或帮助验证假设?如何将这些准实验设备纳入推断?

  5. 已针对相对简单的因果假设(如治疗引起比对照组更高的影响)开发了诸如空试验,阴性对照和多个对照组之类的准实验装置。如果我们想检验复杂的因果假设,例如关于一组基因如何共同作用以调节蛋白质X的生成量该怎么办?如何将这些准实验设备用于有关大型机制模型的复杂因果假设?

  6. 如果您具有高维度的结果,可以使用观测数据来帮助定义对于帮助确定未来实验的最佳测试统计量最重要的低维度结构吗?

基于观察性研究进行因果推理的另一个重要挑战是,是否有可能区分模型或程序的成功使用和不成功使用,这是Freedman(1991)提出的一个老问题。对于统计学家和数据科学家来说,这是一个至关重要的问题,因为因果推理在观察研究比随机实验更常见的社会科学和其他领域中流行。这也是统计学家比其他许多人都有更好见解的地方。

3.5 有限人口抽样设计:模型辅助有限采样

抽样调查中通常采用有限的人口抽样,但是至少在最近之前,统计方法已经不在统计的主流范围之内。Cassel,Sarndal,and Wretman(1977)以及Sarndal,Swensson,and Wretman(1992)的书开始在统计理论的框架内系统地处理这些方法。Meng(2018)最近发表的有关采样在大数据中的作用的有启发性的论文应被视为Neyman(1934)所倡导主题的延续。在数据科学时代,这些主题的进一步发展,特别是与两相和多相设计相关的工具,以及模型辅助采样背景下的两阶段和多阶段设计,可能会在使用采样来衡个体子集的昂贵协变量时及使用诸如子采样、“草图”、和“分而治之”方法来减少与大数据计算有关的困难时变得越来越重要。

适用于独立同分布的许多工具采样(包括对相关经验过程方法的系统性理解,例如类似于Talagrand(1994)的简单随机采样的有限采样指数范围)对于大多数更复杂的采样设计尚未出现。

3.6 大规模非凸优化

大数据通常由异构数据或子群体组成。大数据分析的一个重要目标是将每个对象聚集到一个亚人群中,并为每个亚人群提供个性化的处理。这个基本概念是精准医学(第2。2节)和精准营销的基础。这种聚类分析是在高维设置下进行的,其中包括高维变量、潜在因素以及具有数据真实性的环境(如粗尾,缺失值和有偏采样)之间的相互作用。一旦了解了亚群,寻找个性化的治疗方法和预期的反应仍然是一项挑战。如此复杂的系统的现实建模对于精密医学和市场营销以及其他应用极为重要。一种工作模型是在高维环境中采用专家模型的混合。这涉及选择变量,潜在因素及其相互作用以进行聚类,并分别进行处理分配,这通常会导致复杂的大规模非凸优化问题。了解用于此类统计模型的算法和方法在智力上具有挑战性,并且在实践中很重要。

深度学习(将在3.7节中进一步讨论)可以看作是一类现代的高维非参数模型,在许多机器学习问题中都取得了巨大的成功。已经针对诸如此类的大规模非凸优化问题开发了许多启发式算法,例如具有动量的随机梯度方法。但是,关于算法收敛和统计特性的理论很少。这阻碍了我们对问题的理解以及对那些需要关联和因果研究的学科科学(如经济学和社会学)的成功应用。在最坏的情况下,这些高维优化目标函数的情况非常吓人,包括指数级数量的局部最小值,但在大多数典型情况下对统计问题是良性的。理解所使用算法的统计属性(与经典统计中的全局最小值相反)对于大数据的统计实践非常重要。

混合模型和深度学习算法只是统计学家和数据科学家在分析高维非凸优化问题的统计和算法属性方面面临的新挑战的两个实例。其他示例包括Z2同步化、矩阵完成和解决许多工程问题中的二次系统。概率工具和统计模型在理解典型案例的算法复杂性以及所得基于算法的对象的统计属性方面起着至关重要的作用。

3.7 深度学习

今天,似乎有一种对深度学习的热情的海啸;参见LeCun,Bengio,and Hinton(2015)。由于该技术在某些图像分类和自然语言处理任务中已达到超人的性能,因此,现在正投入大量资金来更广泛地部署该技术。媒体宣传了关于在其它信息处理任务中开发超人性能时可能出现的技术未来的猜测。伴随着这股热情的浪潮对统计领域提出了巨大的挑战,因为轻信的媒体报道促使许多非统计爱好者相信,你不再需要统计了。这种信念是错误的;大量的深度学习炒作是基于前瞻性推测,而数百年来的统计数据却取得了坚实的成果,其中一些成就重塑了地球上的生活,例如公共卫生和农业。尽管如此,统计人员应该尽其所能来提高深度学习的研究质量,就像他们致力于改善其他领域的研究一样。

深度学习的成功源于对机器学习通用任务框架的持续使用。在这种框架下,人们被赋予了标签化的训练和测试数据,并且试图通过人们想要的任何设备来改进预测模型,并通过测试集预测误差来对所提出的模型进行评分。通过反复试验,逐渐提高了性能。无需理论指导。

统计学家对深度学习研究人员的经验成功和经验态度的反应不应是对统计理论的布道式宣讲。统计研究人员应该参与深度学习人员当前正在做的事情,并提出建设性的可操作建议,以改善当前相关任务和数据集的实际性能。

尽管深度学习/公共任务框架范例是成功的,但它也面临着巨大的挑战,而统计学研究可能会有所帮助,就像统计学研究已经能够在许多其他领域为研究做出贡献一样。挑战包括:

  1. 深度学习研究是毁灭性的昂贵。现在正在使用1800万个cpu小时并专用于500+gpu数月撰写论文。

  2. (和1相关)标准算法(例如,随机梯度下降)收敛速度非常慢。

  3. 该方法需要大量数据,而大多数科学和工程研究人员永远不会拥有这些数据,该领域的趋势是向更大的数据需求扩展。

统计人员可以通过改善以上三个核心问题中的任何一个来为深度学习的进步做出贡献,所有这些都涉及统计人员的核心专业知识。实验设计、随机线性代数、新颖的统计训练算法都在这项工作中占有一席之地。

发表/查看评论