这部分介绍 Judea Pearl 于 1995 年发表在 Biometrika 上的工作 “Causal diagrams for empirical research”,这篇文章是 Biometrika 创刊一百多年来少有的讨论文章,Sir David Cox,Guido Imbens, Donald Rubin 和 James Robins 等人都对文章作了讨论。由于 Judea Pearl 最近刚获得了图灵奖,我想他的工作会引起更多的关注(事实上计算机界早就已经过度的关注了)。
一 有向无环图和 do 算子
为了避免过多图论的术语,这里仅仅需要知道有向图中“父亲”和“后代”的概念:有向箭头上游的变量是“父亲”,下游的变量是“后代”。在一个有向无环图(Directed Acyclic Graph;DAG)中,记所有的节点集合为 $\overrightarrow{X} = (X_1,…,X_p)$
。这里用 $P(\cdot)$
表示连续变量的密度函数和离散变量的概率函数。有两种观点看待一个 DAG:一是将其看成表示条件独立性的模型;二是将其看成一个数据生成机制。当然,本质上这两种观点是一样的。在第一种观点下,给定 DAG 中某个节点的“父亲”节点,它与其所有的非“后代”都独立。根据全概公式和条件独立性,DAG 中变量的联合分布可以有如下的递归分解:
$$P(x_1,…,x_n) = \prod_{i=1}^{p} P(x_i \mid pa_i ),$$
其中$pa_i$
表示$X_i$
的“父亲”集合,即所有指向$X_i$
的节点集合。
Figure 1: An Example of Causal Diagram
**例子:**在 Figure 1 中,联合分布可以分解成为
$$\begin{eqnarray*}&&P(X_1, X_2, X_3, X_4, X_5, X_6, X_i, X_j)\\&=& P(X_1)(X_2)P(X_3\mid X_1) \\& &\cdot P(X_5\mid X_2)P(X_4\mid X_1, X_2)P(X_i\mid X_3, X_4) \\&& \cdot P(X_6\mid X_i) P(X_j\mid X_4, X_5, X_6).\end{eqnarray*}$$
如果将 DAG 看成一个数据生成机制,那么它和下面的非参数结构方程模型是等价的:
$$\begin{eqnarray*}X_i = f_i (pa_i, \varepsilon_i), i = 1, \cdots, p.\end{eqnarray*}$$
注意,这个联立方程组是“三角的”(triangular)或者“递归的”(recursive),因为 DAG 中没有环,方程组中也就没有反馈。计量经济学中的联立方程组模型 (simultaneous equation model: SEM),并不在这个讨论的框架下。DAG 用于描述数据的生成机制,而不常用于描述系统均衡时的状态;后者主要是 SEM 的目的。这样描述变量联合分布或者数据生成机制的模型,被称为“图模型”或者“贝叶斯网络”(Bayesian network)。
显然,一个有向无环图唯一地决定了一个联合分布;反过来,一个联合分布不能唯一地决定有向无环图。反过来的结论不成立,对我们的实践有很重要的意义,比如 Figure 2 中的两个有向无环图,原因和结果不同,图的结构也不同;但是,我们观测到的联合分布$P(X_1, X_2)$
可以有两种分解$P(X_1) P(X_2\mid X_1)$
和$ P(X_2) P(X_1\mid X_2) .$
因此,我们从观测变量的联合分布,很难确定“原因”和“结果”。在下一节图模型结构的学习中,我们会看到,只有在一些假定和特殊情形下,我们可以从观测数据确定“原因”和“结果”。
用一个 DAG 连表示变量之间的关系,并不是最近才有的。图模型也并不是 Judea Pearl 发明的。但是,早期将图模型作为因果推断的工具,成果并不深刻,大家也不太清楚仅仅凭一个图,怎么能讲清楚因果关系。教育、心理和社会学中常用的结构方程模型(structural equation model: SEM),就是早期的尝试;甚至可以说 SEM 是因果图的先驱。(注意,这里出现的两个 SEM 表示不同的模型!)
DAG 中的箭头,似乎表示了某种“因果关系”。但是,要在 DAG 上引入“因果”的概念,则需要引进 do 算子,do 的意思可以理解成“干预” (intervention)。没有“干预”的概念,很多时候没有办法谈因果关系。在 DAG 中 $do(X_i)=x_i’$
(也可以记做 $\check{x_i’}$
),表示如下的操作:将 $DAG$
中指向 $X_i$
的有向边全部切断,且将 $X_i$
的取值固定为常数 $x_i’$
. 如此操作,得到的新 $DAG$
的联合分布可以记做 $P(x_1,…,x_n\mid do(X_i)=x_i’)$
可以证明,干预后的联合分布为
$$P(x_1,…,x_n\mid do(X_i)=x_i’) = \frac{P(x_1,…,x_n)}{P(x_i\mid pa_i)}I(x_i = x_i’).$$
请注意,$ P( \cdot \mid do(X_i)=x_i’ ) $
和 $ P( \cdot \mid X_i=x_i’ ) $
在绝大多数情况下是不同的。
例子:考虑如下的两个 DAG:
在 Figure 2 (1) 中,有$ P(X_2 = x_2\mid X_1 = x_1) = P(X_2 = x_2\mid do(X_1) = x_1) $
。由于$X_1$
是$X_2$
的“原因”,“条件”和“干预”$X_1$
,对应的$X_2$
的分布相同。但是在 Figure 2 (2) 中,有$ P(X_2 = x_2\mid X_1 = x_1) \neq P(X_2 = x_2\mid do(X_1) = x_1) = P(X_2 = x_2) $
. 由于$X_1$
是$X_2$
的“结果”,“条件”(或者“给定”)“结果”,“原因”的分布不再等于他的边缘分布,但是人为的“干预”“结果”$X_1$
,并不影响“原因”$X_2$
的分布。
根据 do 算子,便可以定义因果作用。比如二值的变量 $Z$ 对于 $Y$ 的平均因果作用定义为
$$\begin{equation*} ACE(Z \rightarrow Y) = E\{ Y\mid do(Z)=1 \} – E\{ Y\mid do(Z)=0\} , \end{equation*} $$
上面 do 算子下的期望,分别对应 do 算子下的分布。这样在 do 算子下定义的因果模型,被已故计量经济学家 Halbert White 称为 Pearl Causal Model (PCM; White and Chalak 2009)。Pearl 在其书中写到:
“I must take the opportunity to acknowledge four colleagues who saw clarity shining through the do(x) operator before it gained popularity: Steffen Lauritzen, David Freedman, James Robins and Philip David. Phil showed special courage in pringting my paper in Biometrika, the journal founded by causality’s worst adversary – Karl Pearson.” (Pearl, 2000)
在书中 Pearl 论述了 RCM 和 PCM 的等价性,即
$$\begin{equation} P\{Y\mid do(Z) = z\} = P\{ Y(z) \}, \end{equation} $$
其中,$Y(z)$
表示潜在结果。要想说明两个模型的等价性,可以将 潜在结果嵌套在 DAG 所对应的数据生成机制之中,所有的潜在结果$Y(z)$
都由这个非参数结构方程模型产生:
$$Y(z) = f( \{ pa_Y\backslash Z\} (Z=z), Z=z , \varepsilon_Y ) .$$
其中,$ pa_Y\backslash Z$
表示$Y$
除去$Z$
的父亲节点。上面的方程表示:将$Z$
的值强制在$z$
时,DAG 系统所产生的$Y$
值。这个意义下,do 算子导出的结果,就是“潜在结果”。
二 d分离,前门准则和后门准则
在上面的叙述中,如果整个 DAG 的结构已知且所有的变量都可观测,那么我们可以根据上面 do 算子的公式算出任意变量之间的因果作用。但是,在绝大多数的实际问题中,我们既不知道整个 DAG 的结构,也不能将所有的变量观测到。因此,仅仅有上面的公式是不够的。
下面,我将介绍 Judea Pearl 提出的“后门准则”(backdoor criterion)和“前门准则”(frontdoor criterion)。这两个准则的意义在于:(1)某些研究中,即使 DAG 中的某些变量不可观测,我们依然可以从观测数据中估计出某些因果作用;(2)这两个准则有助于我们鉴别“混杂变量”和设计观察性研究。
下面的讨论中,“可识别性”这个概念将被频繁的使用。因果推断中的识别性,和传统统计中的识别性定义是一致的。统计中,如果两个不同的模型参数,对应不同的观测数据的分布,那么我们称模型的参数可以识别。这里,如果因果作用可以用观测数据的分布唯一的表示,那么我们称因果作用是可以识别的。
前门准则和后门准则,都涉及了 d 分离(d-seperation)的概念。
定义(d 分离): 设 $X$
,$Y$
,$Z$
是 DAG 中不相交的节点集合,$\pi$
为一条连接 $X$
中某节点到 $Y$
中某节点的路径 (不管方向)。如果路径 $\pi$
上某节点满足如下的条件:
- 在路径
$\pi$
上,$w$
点处为$V$
结构 (或称冲撞点,collider),且$w$
及其后代不在$Z$
中; - 在路径
$\pi$
上,$w$
点处不是$V$
结构,且$w$
在$Z$
中,
那么称 $Z$
阻断 (block) 了路径 $\pi$
。进一步,如果 $Z$
阻断了$X$
到 $Y$
的所有路径,那么称 $Z$
d 分离 $X$
和 $Y$
,记为 $(X\bot Y|Z)_{G}$
。
下面介绍 Pearl (1995) 的主要工作:后门准则和前门准则。
**后门准则:**在 DAG 中,如果如下条件满足:
$Z$
中节点不能是$X_i$
的后代;$Z$
阻断了$(X_i,X_j)$
之间所有指向$X_i$
的路径(这样的路径可以称为后门路径);
则称变量的集合$Z$
相对于变量的有序对$(X_i,X_j)$
满足后门准则。进一步,若$Z$
相对于变量的有序对$(X_i,X_j)$
满足后门准则,其中 $X_i$
和 $Y_j$
是$X$
和$Y$
中的任意节点;那么称变量的集合$Z$
相对于节点集合的有序对$(X,Y)$
满足后门准则。
Pearl (1995) 证明,若存在一个变量集合$Z$
相对于$(X,Y)$
满足后门准则,那么$X$
到$Y$
的因果作用是可以识别的,且
$$P(y\mid do(X)=x) = \sum_{z} P(y\mid x,z)P(z).$$
为了理解因果图的概念,下面的简短证明是很有必要的。
**证明:**在 Figure 3 (a) 中,
$$\begin{eqnarray*} P(y\mid do(X) = x) &=& \sum_z P(y, z\mid do(X = x))\\ &=&\sum_z P(y\mid x, z) P(z).\# \end{eqnarray*} $$
从上面可以看出,上面的后门准则和可忽略性假定下 ACE 的识别公式一样:都是用 $Z$
做调整 (adjustment),先分层再加权求和。这条结论在 Rosenbaum and Rubin (1983) 之后提出,且流行病学家也都用这样的调整方法控制混杂因素,因此对很多统计学家和流行病学家来说并不新奇。比较新颖的结论是下面的前门准则。
**前门准则:**在 DAG 中,称节点的集合 $Z$
相对于有序对 $(X,Y)$
满足前门准则,如果
$Z$
切断了所有$X$
到$Y$
的直接路径;$X$
到$Z$
没有后门路径;- 所有
$Z$
到$Y$
的后门路径都被$X$
阻断。
此时,如果$P(x,z)>0$
,则$X$
到$Y$
的因果作用可识别,为
$$ P(y\mid do(X)=x) = \sum_{z} P(z\mid x) \sum_{x’} P(y\mid x’,z)P(x’). $$
**证明:**Figure 3 (b) 中蕴含了条件独立性,将在推导中用到:$Z\bot U|X, Y\bot X| (Z,U)$
。
$$\begin{eqnarray*} &&P(y\mid do(X) = x) \\ &=& \sum_u P(y\mid x, u) P(u) \text{ (backdoor criterion of $U$ for $X$ and $Y$)} \\ &=& \sum_u \sum_z P(y\mid x, z, u) P(z\mid x, u) P(u) \text{ (total probability)}\\ &=& \sum_u \sum_z P(y\mid z, u) P(z\mid x) P(u) \text{ (independence)}\\ &=&\sum_z P(z\mid x) P(y\mid do(Z)=z) \\ &&\text{ (backdoor criterion of $U$ for $Z$ and $Y$)} \\ &=&\sum_z P(z\mid x) \sum_{x’} P(y\mid x’, z) P(x’) \\ &&\text{ (backdoor criterion of $X$ for $Z$ and $Y$).} \# \end{eqnarray*} $$
这个前门路径看似很难理解,证明似乎很不直观,恰似变魔术。但是它其实是很显然的,在前门路径的 DAG 中,我们有:(1)$X$
对$Z$
的因果作用可识别,因为 $Y$
阻断了它们之间的后门路径;(2)$Z$
对$Y$
的因果作用可识别,因为$X$
阻断了他们的后门路径;(3)$X$
对$Y$
的作用,仅仅通过$Z$
而产生。这三点蕴含着$X$
对$Y$
的因果作用可识别—这样看来,这个结论就不奇怪了!
Pearl 在书中讲了一个非常有趣的例子,来说明前门准则的用处。
**例子:**我们关心吸烟$X$
和肺癌$Y$
之间的因果关系。由于一个潜在的不可观测的基因 $U$
的存在,吸烟和肺癌之间有一条“活”的后门路径,因此不借助其他的条件,我们无法识别吸烟与肺癌的因果关系。如果我们有这样的知识“吸烟 $X$
仅仅通过肺部烟焦油的含量 $Z$
来影响肺癌 $Y$
”,那么吸烟对肺癌的因果作用就可以估计出来了。不过,这里需要两个条件,也就是在证明中使用的两个条件独立性,他们表明:(1)吸烟 $X$
和肺部烟焦油的含量 $Z$
之间没有“活”的后门路径(或者没有混杂因素);(2)吸烟 $X$
对肺癌 $Y$
的作用仅仅来源于吸烟 $X$
对肺部烟焦油 $Z$
的作用,或者说,吸烟 $X$
对肺癌 $Y$
没有“直接作用”。
**例子:**在 Figure 1 的 DAG 中,$(X_i,X_j)$
之间的后门路径被 $\{X_3,X_4\}$
或者 $\{X_4,X_5\}$
阻断,而前门路径被 $X_6$
阻断。上面的两个准则表明,要识别从 $X_i$
到 $X_j$
的因果作用,我们不需要观测到所有的变量,只需要观测到切断后门路径或者前门路径的变量即可。
三 回到 Yule-Simpson’s Paradox
在第一节中,我们看到了经典的 Yule-Simpson’s Paradox。记 $T$
为处理(吃药与否); $Y$
为结果(存活与否), $X$
是用于分层的变量(在最开始的例子中, $X$
是性别;在这里我们先将 $X$
简单地看成某个用于分层的变量)。悖论存在,是因为 $T$
和 $Y$
正相关;但是按照 $X$
的值分层后, $T$
和 $Y$
负相关。分,还是不分?—–这是一个问题!这在实际应用是非常重要的问题。
不过,仅仅从“相关”(association)的角度讨论这个问题,是没有答案的。从“因果”(causation)的角度来看,才能有确切的回答。解释 Yule-Simpson’s Paradox,算是因果图的第一个重要应用。
下面,我将以上面的 Figure 4 中的四个图为例说明,三个变量之间的关系的复杂性。
图(a):根据后门准则, $X$
阻断了 $T$
到 $Y$
的后门路径,因此,根据 $X$
做调整可以得到 $T$
对 $Y$
的因果作用。如果实际问题符合图(a),那么我们需要用调整后的估计量。
图(b):$X$
是 $T$
的“后代”且是 $Y$
的“父亲”。很多地方称,此时 $X$
处于 $T$
到 $Y$
的因果路径上。直观的看,如果忽略 $X$
,那么 $T$
和 $Y$
之间的相关性就是 $T$
对 $Y$
的因果作用,因为 $T$
和 $Y$
之间的后门路径被空集阻断,我们无须调整。如果此时我们用 $X$
进行调整,那么得到的是 $T$
到 $Y$
的“直接作用”。不过,什么是“直接作用”,我们将会在后面讨论;这里只是给一个形象的名字。
图(c):和图(b)相同, $T$
和 $Y$
之间的相关性就是因果作用。但是,复杂性在于 $X$
和 $Y$
之间有一个共同的但是不可观测的原因 $U$
。此时,不调整的相关性,是一个因果关系的度量。但是,如果我们用 $X$
进行调整,那么给定 $X$
后,$T$
和 $U$
相关,$T$
和 $Y$
之间的后门路径被打通,我们得到的估计量不再具有因果的含义。这种现象发生的原因是,$(T, U, X)$
之间形成了一个 $V$
结构:虽然 $T$
和 $U$
之间是独立的,但是给定 $X$
之后,$T$
和 $U$
不再独立。
图(d):这个图常常被 Judea Pearl 用来批评 Donald Rubin,因为它存在一个有趣的 $M$
结构。在这个图中,由于 $V$
结构的存在,$T$
和 $Y$
之间的后门路径被空集阻断,因此 $T$
和 $Y$
之间的相关性就是因果性。但是由于 $M$
结构的存在,当我们用 $X$
进行调整的时候, $U$
和 $W$
之间打开了一条“通路”(它们不再独立),因此 $T$
和 $Y$
之间的后门路径被打通,此时 $T$
和 $Y$
之间的相关性不再具有因果的含义。
我个人认为,因果图是揭开 Yule-Simpson’s Paradox 神秘面纱的有力工具。正如 Judea Pearl 在他的书中写到,不用因果的语言来描述这个问题,我们是讲不清楚这个悖论的。当然,因果的语言不止因果图,Judea Pearl 的解释始终不能得到 Donald Rubin 的认可。
四 讨论
用一个图来描述变量之间的因果关系,是很自然和直观的事情。但是,这并不意味着 Pearl 的理论是老妪能解的。事实上,这套基于 DAG 的因果推断的语言,比传统的 Neyman-Rubin 模型要晦涩很多。DAG 在描述因果关系的时候,常常基于很多暗含的假定而并不明说,这也是 DAG 并没有被大家完全接受的原因。传统的因果推断的语言,开始于 Jerzy Neyman 的博士论文;Donald Rubin 发展这套“潜在结果”的语言,并将它和缺失数据的理论联系在一起,成为统计界更多使用的语言。
在实际中,人们对于图模型的批评从未中断。主要的问题集中在如下的方面:
- 现实的问题,是否能用一个有向无环图表示?大多数生物学家看到 DAG 的反应是“能不能用图表示反馈?”的确,DAG 作为一种简化的模型,在复杂系统中可能不完全适用。要想将 DAG 推广到动态的系统,或者时间序列中,还有待研究。
- Pearl 引入的 do 算子,是他在因果推断领域最主要的贡献。所谓 “do”,就是“干预”,Pearl 认为干预就是从系统之外人为的控制某些变量。但是,这依赖于一个假定:干预某些变量并不会引起 DAG 中其他结构的变化。这个假定常常会受到质疑,但是质疑归质疑,Pearl 的这个假定虽然看似很强,但根据观测数据却不可检验。这种质疑并不是 Pearl 的理论独有的缺陷,这事实上是一切研究的缺陷。比如,我们用完全随机化试验来研究处理的作用,我们要想将实验推广到观察性的数据或者更大的人群中去,也必须用到一些不可验证的假定。
- 很多人看了 Pearl 的理论后就嘲笑他:难道我们可以在 DAG 中干预“性别”?确实,离开了实际的背景,干预性别似乎是不太合理的。那这个时候,根据 Pearl 的 do算子得到的因果作用意味着什么呢?可以从几个方面回答这个问题。
- 很多问题,我们不能谈论“干预性别”,也不能谈论“性别”的“因果作用”。“性别”的特性是“协变量”(covariate),对于这类变量(如身高、肤色等),谈论因果作用不合适,因为我们不能想象出一个可能的“实验”,干预这些变量。
- 上面的回答基于“实验学派”(experimentalists’)的观点,认为不可干预,就没有“因果”。但是,如果认为只要有数据的生成机制,就有因果关系,那么算出性别的因果作用也不奇怪。(计量经就学一直有争议,以 Joshua Angrist、Guido Imbens 等为首的“实验派”,和以 James Heckman 为首的“结构方程模型”派,有过很激烈的讨论。)
- 有些问题中性别的因果作用是良好定义的。比如,我们可以人工的修改应聘者简历上的名字(随机的使用男性和女性名字),便可以研究性别对于求职的影响,是否存在性别歧视等等(已有研究使用过这种实验设计)。
- 一个更为严重的问题是,实际工作中,我们很难得到一个完整的 DAG,用于阐述变量之间的因果关系或者数据生成机制,使得 DAG 的应用受到的巨大的阻碍。不过,从观测数据学习 DAG 的结构,确实是一个很有趣且重要的问题,这留待下回分解。
在结束时,留些一些思考的问题:
- 在何种意义下,后门准则的条件,等价于可忽略性,即
$ X\bot Y(x)|Z $
? - 在第一节的 Yule-Simpson’s Paradox 中,我们最终选择调整的估计量,还是不调整的估计量?
发表/查看评论