nep7x

这部分介绍 Judea Pearl 于 1995 年发表在 Biometrika 上的工作 “Causal diagrams for empirical research”，这篇文章是 Biometrika 创刊一百多年来少有的讨论文章，Sir David Cox，Guido Imbens, Donald Rubin 和 James Robins 等人都对文章作了讨论。由于 Judea Pearl 最近刚获得了图灵奖，我想他的工作会引起更多的关注（事实上计算机界早就已经过度的关注了）。

一有向无环图和 do 算子

为了避免过多图论的术语，这里仅仅需要知道有向图中“父亲”和“后代”的概念：有向箭头上游的变量是“父亲”，下游的变量是“后代”。在一个有向无环图（Directed Acyclic Graph；DAG）中，记所有的节点集合为 $\overrightarrow{X} = (X_1,…,X_p)$ 。这里用 $P(\cdot)$ 表示连续变量的密度函数和离散变量的概率函数。有两种观点看待一个 DAG：一是将其看成表示条件独立性的模型；二是将其看成一个数据生成机制。当然，本质上这两种观点是一样的。在第一种观点下，给定 DAG 中某个节点的“父亲”节点，它与其所有的非“后代”都独立。根据全概公式和条件独立性，DAG 中变量的联合分布可以有如下的递归分解：

$$P(x_1,…,x_n) = \prod_{i=1}^{p} P(x_i \mid pa_i ),$$

其中 $pa_i$ 表示 $X_i$ 的“父亲”集合，即所有指向 $X_i$ 的节点集合。

vtivg

Figure 1: An Example of Causal Diagram

**例子：**在 Figure 1 中，联合分布可以分解成为

$$\begin{eqnarray*}&&P(X_1, X_2, X_3, X_4, X_5, X_6, X_i, X_j)\\&=& P(X_1)(X_2)P(X_3\mid X_1) \\& &\cdot P(X_5\mid X_2)P(X_4\mid X_1, X_2)P(X_i\mid X_3, X_4) \\&& \cdot P(X_6\mid X_i) P(X_j\mid X_4, X_5, X_6).\end{eqnarray*}$$

如果将 DAG 看成一个数据生成机制，那么它和下面的非参数结构方程模型是等价的：

$$\begin{eqnarray*}X_i = f_i (pa_i, \varepsilon_i), i = 1, \cdots, p.\end{eqnarray*}$$

注意，这个联立方程组是“三角的”（triangular）或者“递归的”（recursive），因为 DAG 中没有环，方程组中也就没有反馈。计量经济学中的联立方程组模型（simultaneous equation model: SEM），并不在这个讨论的框架下。DAG 用于描述数据的生成机制，而不常用于描述系统均衡时的状态；后者主要是 SEM 的目的。这样描述变量联合分布或者数据生成机制的模型，被称为“图模型”或者“贝叶斯网络”（Bayesian network）。

显然，一个有向无环图唯一地决定了一个联合分布；反过来，一个联合分布不能唯一地决定有向无环图。反过来的结论不成立，对我们的实践有很重要的意义，比如 Figure 2 中的两个有向无环图，原因和结果不同，图的结构也不同；但是，我们观测到的联合分布 $P(X_1, X_2)$ 可以有两种分解 $P(X_1) P(X_2\mid X_1)$ 和 $ P(X_2) P(X_1\mid X_2) .$ 因此，我们从观测变量的联合分布，很难确定“原因”和“结果”。在下一节图模型结构的学习中，我们会看到，只有在一些假定和特殊情形下，我们可以从观测数据确定“原因”和“结果”。

用一个 DAG 连表示变量之间的关系，并不是最近才有的。图模型也并不是 Judea Pearl 发明的。但是，早期将图模型作为因果推断的工具，成果并不深刻，大家也不太清楚仅仅凭一个图，怎么能讲清楚因果关系。教育、心理和社会学中常用的结构方程模型（structural equation model: SEM），就是早期的尝试；甚至可以说 SEM 是因果图的先驱。（注意，这里出现的两个 SEM 表示不同的模型！）

DAG 中的箭头，似乎表示了某种“因果关系”。但是，要在 DAG 上引入“因果”的概念，则需要引进 do 算子，do 的意思可以理解成“干预” （intervention）。没有“干预”的概念，很多时候没有办法谈因果关系。在 DAG 中 $do(X_i)=x_i’$ （也可以记做 $\check{x_i’}$ ），表示如下的操作：将 $DAG$ 中指向 $X_i$ 的有向边全部切断，且将 $X_i$ 的取值固定为常数 $x_i’$ . 如此操作，得到的新 $DAG$ 的联合分布可以记做 $P(x_1,…,x_n\mid do(X_i)=x_i’)$ 可以证明，干预后的联合分布为

$$P(x_1,…,x_n\mid do(X_i)=x_i’) = \frac{P(x_1,…,x_n)}{P(x_i\mid pa_i)}I(x_i = x_i’).$$

请注意， $ P( \cdot \mid do(X_i)=x_i’ ) $ 和 $ P( \cdot \mid X_i=x_i’ ) $ 在绝大多数情况下是不同的。

例子：考虑如下的两个 DAG：

ji9fu

在 Figure 2 (1) 中，有 $ P(X_2 = x_2\mid X_1 = x_1) = P(X_2 = x_2\mid do(X_1) = x_1) $ 。由于 $X_1$ 是 $X_2$ 的“原因”，“条件”和“干预” $X_1$ ，对应的 $X_2$ 的分布相同。但是在 Figure 2 (2) 中，有 $ P(X_2 = x_2\mid X_1 = x_1) \neq P(X_2 = x_2\mid do(X_1) = x_1) = P(X_2 = x_2) $ . 由于 $X_1$ 是 $X_2$ 的“结果”，“条件”（或者“给定”）“结果”，“原因”的分布不再等于他的边缘分布，但是人为的“干预”“结果” $X_1$ ，并不影响“原因” $X_2$ 的分布。

根据 do 算子，便可以定义因果作用。比如二值的变量 $Z$ 对于 $Y$ 的平均因果作用定义为

$$\begin{equation*} ACE(Z \rightarrow Y) = E\{ Y\mid do(Z)=1 \} – E\{ Y\mid do(Z)=0\} , \end{equation*} $$

上面 do 算子下的期望，分别对应 do 算子下的分布。这样在 do 算子下定义的因果模型，被已故计量经济学家 Halbert White 称为 Pearl Causal Model (PCM; White and Chalak 2009)。Pearl 在其书中写到：

“I must take the opportunity to acknowledge four colleagues who saw clarity shining through the do(x) operator before it gained popularity: Steffen Lauritzen, David Freedman, James Robins and Philip David. Phil showed special courage in pringting my paper in Biometrika, the journal founded by causality’s worst adversary – Karl Pearson.” (Pearl, 2000)

在书中 Pearl 论述了 RCM 和 PCM 的等价性，即

$$\begin{equation} P\{Y\mid do(Z) = z\} = P\{ Y(z) \}, \end{equation} $$

其中， $Y(z)$ 表示潜在结果。要想说明两个模型的等价性，可以将潜在结果嵌套在 DAG 所对应的数据生成机制之中，所有的潜在结果 $Y(z)$ 都由这个非参数结构方程模型产生：

$$Y(z) = f( \{ pa_Y\backslash Z\} (Z=z), Z=z , \varepsilon_Y ) .$$

其中， $ pa_Y\backslash Z$ 表示 $Y$ 除去 $Z$ 的父亲节点。上面的方程表示：将 $Z$ 的值强制在 $z$ 时，DAG 系统所产生的 $Y$ 值。这个意义下，do 算子导出的结果，就是“潜在结果”。

二 d分离，前门准则和后门准则

在上面的叙述中，如果整个 DAG 的结构已知且所有的变量都可观测，那么我们可以根据上面 do 算子的公式算出任意变量之间的因果作用。但是，在绝大多数的实际问题中，我们既不知道整个 DAG 的结构，也不能将所有的变量观测到。因此，仅仅有上面的公式是不够的。

下面，我将介绍 Judea Pearl 提出的“后门准则”（backdoor criterion）和“前门准则”（frontdoor criterion）。这两个准则的意义在于：（1）某些研究中，即使 DAG 中的某些变量不可观测，我们依然可以从观测数据中估计出某些因果作用；（2）这两个准则有助于我们鉴别“混杂变量”和设计观察性研究。

下面的讨论中，“可识别性”这个概念将被频繁的使用。因果推断中的识别性，和传统统计中的识别性定义是一致的。统计中，如果两个不同的模型参数，对应不同的观测数据的分布，那么我们称模型的参数可以识别。这里，如果因果作用可以用观测数据的分布唯一的表示，那么我们称因果作用是可以识别的。

前门准则和后门准则，都涉及了 d 分离（d-seperation）的概念。

定义（d 分离）: 设 $X$ ， $Y$ ， $Z$ 是 DAG 中不相交的节点集合， $\pi$ 为一条连接 $X$ 中某节点到 $Y$ 中某节点的路径（不管方向）。如果路径 $\pi$ 上某节点满足如下的条件：

在路径 $\pi$ 上， $w$ 点处为 $V$ 结构（或称冲撞点，collider），且 $w$ 及其后代不在 $Z$ 中；
在路径 $\pi$ 上， $w$ 点处不是 $V$ 结构，且 $w$ 在 $Z$ 中,

那么称 $Z$ 阻断 (block) 了路径 $\pi$ 。进一步，如果 $Z$ 阻断了 $X$ 到 $Y$ 的所有路径，那么称 $Z$ d 分离 $X$ 和 $Y$ ，记为 $(X\bot Y|Z)_{G}$ 。

下面介绍 Pearl (1995) 的主要工作：后门准则和前门准则。

nu3vb

**后门准则：**在 DAG 中，如果如下条件满足：

$Z$ 中节点不能是 $X_i$ 的后代；
$Z$ 阻断了 $(X_i,X_j)$ 之间所有指向 $X_i$ 的路径（这样的路径可以称为后门路径）；

则称变量的集合 $Z$ 相对于变量的有序对 $(X_i,X_j)$ 满足后门准则。进一步，若 $Z$ 相对于变量的有序对 $(X_i,X_j)$ 满足后门准则，其中 $X_i$ 和 $Y_j$ 是 $X$ 和 $Y$ 中的任意节点；那么称变量的集合 $Z$ 相对于节点集合的有序对 $(X,Y)$ 满足后门准则。

Pearl (1995) 证明，若存在一个变量集合 $Z$ 相对于 $(X,Y)$ 满足后门准则，那么 $X$ 到 $Y$ 的因果作用是可以识别的，且

$$P(y\mid do(X)=x) = \sum_{z} P(y\mid x,z)P(z).$$

为了理解因果图的概念，下面的简短证明是很有必要的。

**证明：**在 Figure 3 (a) 中，

$$\begin{eqnarray*} P(y\mid do(X) = x) &=& \sum_z P(y, z\mid do(X = x))\\ &=&\sum_z P(y\mid x, z) P(z).\# \end{eqnarray*} $$

从上面可以看出，上面的后门准则和可忽略性假定下 ACE 的识别公式一样：都是用 $Z$ 做调整 (adjustment)，先分层再加权求和。这条结论在 Rosenbaum and Rubin (1983) 之后提出，且流行病学家也都用这样的调整方法控制混杂因素，因此对很多统计学家和流行病学家来说并不新奇。比较新颖的结论是下面的前门准则。

**前门准则：**在 DAG 中，称节点的集合 $Z$ 相对于有序对 $(X,Y)$ 满足前门准则，如果

$Z$ 切断了所有 $X$ 到 $Y$ 的直接路径；
$X$ 到 $Z$ 没有后门路径；
所有 $Z$ 到 $Y$ 的后门路径都被 $X$ 阻断。

此时，如果 $P(x,z)>0$ ，则 $X$ 到 $Y$ 的因果作用可识别，为

$$ P(y\mid do(X)=x) = \sum_{z} P(z\mid x) \sum_{x’} P(y\mid x’,z)P(x’). $$

**证明：**Figure 3 (b) 中蕴含了条件独立性，将在推导中用到： $Z\bot U|X, Y\bot X| (Z,U)$ 。

$$\begin{eqnarray*} &&P(y\mid do(X) = x) \\ &=& \sum_u P(y\mid x, u) P(u) \text{ (backdoor criterion of $U$ for $X$ and $Y$)} \\ &=& \sum_u \sum_z P(y\mid x, z, u) P(z\mid x, u) P(u) \text{ (total probability)}\\ &=& \sum_u \sum_z P(y\mid z, u) P(z\mid x) P(u) \text{ (independence)}\\ &=&\sum_z P(z\mid x) P(y\mid do(Z)=z) \\ &&\text{ (backdoor criterion of $U$ for $Z$ and $Y$)} \\ &=&\sum_z P(z\mid x) \sum_{x’} P(y\mid x’, z) P(x’) \\ &&\text{ (backdoor criterion of $X$ for $Z$ and $Y$).} \# \end{eqnarray*} $$

这个前门路径看似很难理解，证明似乎很不直观，恰似变魔术。但是它其实是很显然的，在前门路径的 DAG 中，我们有：（1） $X$ 对 $Z$ 的因果作用可识别，因为 $Y$ 阻断了它们之间的后门路径；（2） $Z$ 对 $Y$ 的因果作用可识别，因为 $X$ 阻断了他们的后门路径；（3） $X$ 对 $Y$ 的作用，仅仅通过 $Z$ 而产生。这三点蕴含着 $X$ 对 $Y$ 的因果作用可识别—这样看来，这个结论就不奇怪了！

Pearl 在书中讲了一个非常有趣的例子，来说明前门准则的用处。

**例子：**我们关心吸烟 $X$ 和肺癌 $Y$ 之间的因果关系。由于一个潜在的不可观测的基因 $U$ 的存在，吸烟和肺癌之间有一条“活”的后门路径，因此不借助其他的条件，我们无法识别吸烟与肺癌的因果关系。如果我们有这样的知识“吸烟 $X$ 仅仅通过肺部烟焦油的含量 $Z$ 来影响肺癌 $Y$ ”，那么吸烟对肺癌的因果作用就可以估计出来了。不过，这里需要两个条件，也就是在证明中使用的两个条件独立性，他们表明：（1）吸烟 $X$ 和肺部烟焦油的含量 $Z$ 之间没有“活”的后门路径（或者没有混杂因素）；（2）吸烟 $X$ 对肺癌 $Y$ 的作用仅仅来源于吸烟 $X$ 对肺部烟焦油 $Z$ 的作用，或者说，吸烟 $X$ 对肺癌 $Y$ 没有“直接作用”。

**例子：**在 Figure 1 的 DAG 中， $(X_i,X_j)$ 之间的后门路径被 $\{X_3,X_4\}$ 或者 $\{X_4,X_5\}$ 阻断，而前门路径被 $X_6$ 阻断。上面的两个准则表明，要识别从 $X_i$ 到 $X_j$ 的因果作用，我们不需要观测到所有的变量，只需要观测到切断后门路径或者前门路径的变量即可。

三回到 Yule-Simpson’s Paradox

在第一节中，我们看到了经典的 Yule-Simpson’s Paradox。记 $T$ 为处理（吃药与否）； $Y$ 为结果（存活与否）， $X$ 是用于分层的变量（在最开始的例子中， $X$ 是性别；在这里我们先将 $X$ 简单地看成某个用于分层的变量）。悖论存在，是因为 $T$ 和 $Y$ 正相关；但是按照 $X$ 的值分层后， $T$ 和 $Y$ 负相关。分，还是不分？—–这是一个问题！这在实际应用是非常重要的问题。

不过，仅仅从“相关”（association）的角度讨论这个问题，是没有答案的。从“因果”（causation）的角度来看，才能有确切的回答。解释 Yule-Simpson’s Paradox，算是因果图的第一个重要应用。

vpb8m

下面，我将以上面的 Figure 4 中的四个图为例说明，三个变量之间的关系的复杂性。

图（a）：根据后门准则， $X$ 阻断了 $T$ 到 $Y$ 的后门路径，因此，根据 $X$ 做调整可以得到 $T$ 对 $Y$ 的因果作用。如果实际问题符合图（a），那么我们需要用调整后的估计量。

图（b）： $X$ 是 $T$ 的“后代”且是 $Y$ 的“父亲”。很多地方称，此时 $X$ 处于 $T$ 到 $Y$ 的因果路径上。直观的看，如果忽略 $X$ ，那么 $T$ 和 $Y$ 之间的相关性就是 $T$ 对 $Y$ 的因果作用，因为 $T$ 和 $Y$ 之间的后门路径被空集阻断，我们无须调整。如果此时我们用 $X$ 进行调整，那么得到的是 $T$ 到 $Y$ 的“直接作用”。不过，什么是“直接作用”，我们将会在后面讨论；这里只是给一个形象的名字。

图（c）：和图（b）相同， $T$ 和 $Y$ 之间的相关性就是因果作用。但是，复杂性在于 $X$ 和 $Y$ 之间有一个共同的但是不可观测的原因 $U$ 。此时，不调整的相关性，是一个因果关系的度量。但是，如果我们用 $X$ 进行调整，那么给定 $X$ 后， $T$ 和 $U$ 相关， $T$ 和 $Y$ 之间的后门路径被打通，我们得到的估计量不再具有因果的含义。这种现象发生的原因是， $(T, U, X)$ 之间形成了一个 $V$ 结构：虽然 $T$ 和 $U$ 之间是独立的，但是给定 $X$ 之后， $T$ 和 $U$ 不再独立。

图（d）：这个图常常被 Judea Pearl 用来批评 Donald Rubin，因为它存在一个有趣的 $M$ 结构。在这个图中，由于 $V$ 结构的存在， $T$ 和 $Y$ 之间的后门路径被空集阻断，因此 $T$ 和 $Y$ 之间的相关性就是因果性。但是由于 $M$ 结构的存在，当我们用 $X$ 进行调整的时候， $U$ 和 $W$ 之间打开了一条“通路”（它们不再独立），因此 $T$ 和 $Y$ 之间的后门路径被打通，此时 $T$ 和 $Y$ 之间的相关性不再具有因果的含义。

我个人认为，因果图是揭开 Yule-Simpson’s Paradox 神秘面纱的有力工具。正如 Judea Pearl 在他的书中写到，不用因果的语言来描述这个问题，我们是讲不清楚这个悖论的。当然，因果的语言不止因果图，Judea Pearl 的解释始终不能得到 Donald Rubin 的认可。

四讨论

用一个图来描述变量之间的因果关系，是很自然和直观的事情。但是，这并不意味着 Pearl 的理论是老妪能解的。事实上，这套基于 DAG 的因果推断的语言，比传统的 Neyman-Rubin 模型要晦涩很多。DAG 在描述因果关系的时候，常常基于很多暗含的假定而并不明说，这也是 DAG 并没有被大家完全接受的原因。传统的因果推断的语言，开始于 Jerzy Neyman 的博士论文；Donald Rubin 发展这套“潜在结果”的语言，并将它和缺失数据的理论联系在一起，成为统计界更多使用的语言。

在实际中，人们对于图模型的批评从未中断。主要的问题集中在如下的方面：

现实的问题，是否能用一个有向无环图表示？大多数生物学家看到 DAG 的反应是“能不能用图表示反馈？”的确，DAG 作为一种简化的模型，在复杂系统中可能不完全适用。要想将 DAG 推广到动态的系统，或者时间序列中，还有待研究。
Pearl 引入的 do 算子，是他在因果推断领域最主要的贡献。所谓 “do”，就是“干预”，Pearl 认为干预就是从系统之外人为的控制某些变量。但是，这依赖于一个假定：干预某些变量并不会引起 DAG 中其他结构的变化。这个假定常常会受到质疑，但是质疑归质疑，Pearl 的这个假定虽然看似很强，但根据观测数据却不可检验。这种质疑并不是 Pearl 的理论独有的缺陷，这事实上是一切研究的缺陷。比如，我们用完全随机化试验来研究处理的作用，我们要想将实验推广到观察性的数据或者更大的人群中去，也必须用到一些不可验证的假定。
很多人看了 Pearl 的理论后就嘲笑他：难道我们可以在 DAG 中干预“性别”？确实，离开了实际的背景，干预性别似乎是不太合理的。那这个时候，根据 Pearl 的 do算子得到的因果作用意味着什么呢？可以从几个方面回答这个问题。
- 很多问题，我们不能谈论“干预性别”，也不能谈论“性别”的“因果作用”。“性别”的特性是“协变量”（covariate），对于这类变量（如身高、肤色等），谈论因果作用不合适，因为我们不能想象出一个可能的“实验”，干预这些变量。
- 上面的回答基于“实验学派”（experimentalists’）的观点，认为不可干预，就没有“因果”。但是，如果认为只要有数据的生成机制，就有因果关系，那么算出性别的因果作用也不奇怪。（计量经就学一直有争议，以 Joshua Angrist、Guido Imbens 等为首的“实验派”，和以 James Heckman 为首的“结构方程模型”派，有过很激烈的讨论。）
- 有些问题中性别的因果作用是良好定义的。比如，我们可以人工的修改应聘者简历上的名字（随机的使用男性和女性名字），便可以研究性别对于求职的影响，是否存在性别歧视等等（已有研究使用过这种实验设计）。
一个更为严重的问题是，实际工作中，我们很难得到一个完整的 DAG，用于阐述变量之间的因果关系或者数据生成机制，使得 DAG 的应用受到的巨大的阻碍。不过，从观测数据学习 DAG 的结构，确实是一个很有趣且重要的问题，这留待下回分解。

在结束时，留些一些思考的问题：

在何种意义下，后门准则的条件，等价于可忽略性，即 $ X\bot Y(x)|Z $ ？
在第一节的 Yule-Simpson’s Paradox 中，我们最终选择调整的估计量，还是不调整的估计量？

因果推断简介之五：因果图 (Causal Diagram)

丁鹏

一有向无环图和 do 算子

二 d分离，前门准则和后门准则

三回到 Yule-Simpson’s Paradox

四讨论

关于作者

丁鹏

因果推断简介之五：因果图 (Causal Diagram)

丁鹏

一 有向无环图和 do 算子

二 d分离，前门准则和后门准则

三 回到 Yule-Simpson’s Paradox

四 讨论

关于作者

丁鹏

一有向无环图和 do 算子

三回到 Yule-Simpson’s Paradox

四讨论