Estimating High-Dimensional Directed Acyclic Graphs with the PC-Algorithm

原创

已于 2023-02-11 15:38:27 修改 · 1.3k 阅读

于 2022-10-28 20:52:12 首次发布

原文：Kalisch M, Buehlmann P. Estimating high-dimensional directed acyclic graphs with the PC-algorithm. J Mach Learn Res 2007;8:613–36.
原文网页版
 Web of science
本篇内容只是在个人理解能力的基础上做的不完全翻译，仅供参考，详细内容请阅读英文原文！

Abstract

本文研究了PC算法用于估计具有相应高斯分布的高维有向无环图（DAG）的骨架和等价类。对于有许多节点（变量）的稀疏问题，PC算法在计算上是可行的，而且往往非常快，它具有吸引人的特性，可以自动实现高计算效率，作为真实底层DAG的稀疏程度的函数。本文证明了该算法在高维稀疏DAGs中的一致性，并允许节点数量随样本大小n快速增长，对于任何0 < a <∞快如O(n^a)。稀疏性假设是相当最小的，只要求DAG中的邻域的阶数低于样本容量n。文章还演示了模拟数据的PC算法。

1. Introduction

图模型是一种用来分析和可视化随机变量之间的条件独立性关系流行的概率工具。模型的主要构建模块是节点（代表随机变量）和边（编码了顶点的条件独立性关系）。随机变量之间的条件独立性结构可以使用马尔可夫性质来探索。

当前的研究兴趣是有向无环图（DAG），它包含有向边而不是无向边，这在一定程度上限制了条件独立性关系。这些图可以应用马尔可夫性质来解释。当忽略DAG的方向，可以得到一个DAG的骨架。通常来说，它和条件独立性图（CIG）是不同的，见2.1节（因此，有向图的估计方法不能简单地借鉴无向的CIG的估计方法）。2.1节中可以看到，骨架可以很容易地解释，从而对数据的依赖结构产生有趣的见解。

由于DAG空间的巨大规模，从数据中估计DAG是困难的，在计算上也是不可行的：可能的DAG的数量在节点数量上是超指数的。然而，针对中小规模节点数量，有一些十分成功的的搜索-评分方法。例如，搜索空间可能像MWST那样被限制为树结构，或者采用贪婪的搜索方式。如GES (Greedy Equivalent Search, see Chickering, 2002a) 方法所述，贪婪的DAG搜索可以通过利用概率等价关系来优化，且搜索空间可以从单个DAG缩小到等价类。尽管这种方法在中小规模的节点数量情况下似乎很有前途，但它受限于一个事实，即等价类的空间在节点数量增长时也是超指数增长的 (Gillispie and Perlman, 2001)。

一个有趣的替代贪婪或者结构限制的方法是Spirtes等人在2000年提出的PC算法。它从一个完备的无向图开始，基于条件独立性决策递归地删除边。这会生成一个无向图，然后它会被部分地定向，并进一步扩展以表示底层的DAG。PC算法在最坏的情况下是以运行时间是运行的，但是如果真实的底层DAG是稀疏的（这通常是一个合理的假设），运行时间将会缩减为多项式时间。

在过去，提出了一些有趣的混合方法，最近，Tsamardinos等人(2006)提出了一种计算上非常有竞争力的算法。本文还参考了他们的论文，在广泛的算法之间进行了相当详尽的数值比较研究。

本文主要研究了在高维环境下DAGs的等价类和骨架的估计（对应于多元高斯分布），即节点数p可能远远大于样本数n。本文证明，当样本大小n→∞时，即使允许维数 p = p_n = O(n^a) (0 ≤ a ＜∞)作为n的函数快速增长，PC算法也能一致地估计出底层稀疏DAG地等价类和骨架。

如第4.5节所示，本文对PC算法的实现速度惊人地快，它允许估计一个稀疏的DAG，即使p很大。对于p远大于n的高维设定，底层DAG的稀疏性对于统计一致性和计算可行性是至关重要的。本文的分析似乎是第一次为高维DAG建立了一个可证明的正确算法（在渐进意义上），该算法在计算上是可行的。

关于包括PC算法在内的一类方法的一致性问题已经被Sprites等人和Robins等人在因果推断的文章讨论过。他们证明，只假设忠实性（第二节中有说明），统一一致性无法实现，但点状一致性可以实现。在本文中，本文用两种方式对其进行了扩展：本文提供了一套假设，使PC算法具有统一的一致性。更重要的是，本文证明即使是当节点数和邻居数增加，并且最小的非零协方差作为样本量的函数而减小，这个一致性也能始终保持。Zhang和Spirtes（2003）也提出了比忠实性条件更严格的假设，使均匀一致成为可能。Zuk等人（2006）对学习正确的贝叶斯网络结构需要多少样本的更普遍的讨论。

寻找DAG的等价类的问题与特征选择问题有很大的重合：如果找到了等价类，则可以很容易地读取任意变量(节点)的马尔可夫毯。给定一个节点集合V，假设M是节点X的马尔科夫毯，那么在给定M的条件下，X与V\M是条件独立的。因此，M包含且只包含所有的X的相关特征。例如，见Goldenberg和Moore(2004)关于处理非常高的维度的方法，或Ng(1998)关于处理泛化误差的界限的相当普遍的方法。

2. Finding the Equivalence Class of a DAG

在本节中，首先说明主要的概念。然后，给出关于PC算法的详尽描述。

2.1 Definitions and Preliminaries

图G=(V, E)由一组顶点V={1，…，p}和一组边E⊆V×V组成，即边集是不同节点的有序对的子集。在本文的设定中，节点集对应于随机变量 X∈R^p 的分量。如果 (i, j)∈E 且 (j, i)/∈E ，则边 (i,j)∈E 被叫做有向边，用符号 i→j 表示。如果 (i, j)∈E 且 (j, i)∈E，则该边被叫做无向边用符号i-j表示。一个有向无环图（DAG）是一个所有边都是有向边且不包含环的图。

如果存在有向边 i→j，则节点i是节点j的父节点。节点j的父节点的集合用pa(j)表示。节点j在图G中的邻居集合用adj(G, j)表示，它表示所有直接和j通过边（有向或者无向）连接的节点。adj(G, j)中的节点也被称为j的邻居或者与j相邻。

如果R^p上的概率分布P中的条件独立性可以从图G的d-separation中被推断出来，反之亦然，则P忠诚于图G。更精确的说：考虑一个随机向量X~P。P的忠诚性意味着：对于任意的i,j∈V 且 i≠j，则对于任意的s⊆V有

X⁽ⁱ⁾ and X^(j) are conditionally independent given {X^(t); t ∈ s}

⇔ node i and node j are d-separated by the set s.

d-separation的概念可以由道德图定义；详见Lauritzen的描述 (1996,Prop. 3.25)。在此指出，忠实性是排除某些类别的概率分布的。Spirtes等人（2000，第3.5.2章）给出了一个非忠实分布的例子。另一方面，多元正态族（本文将限制在此）的非忠诚分布在与DAG G相关的分布空间中形成一个Lebesgue 空集，见Meek(1995a)。

DAG G的骨架是用无向边代替G中的有向边得到的无向图。DAG G 中的 v-structure 是一个有序的三元节点组 (i, j, k) 使得G包含有向边i→j和k→j，并且i和k在G中不相邻。

众所周知，对于一个由DAG G生成的概率分布P，存在一个完整的具有对应分布P的等价类DAGs (见 Chickering, 2002a, Section 2.2 )。即使有无限多的观察结果，本文也无法区分一个等价类中的不同DAG。利用Verma和Pearl(1990)的一个成果，可以更精确的描述等价类的特征。当且仅当两个DAG有相同的骨架和相同的v-structure时，他们是等价的。

常用的DAG等价类的可视化工具是完备的部分有向无环图（CPDAG）。一个部分有向无环图（PDAG）是一个部分边有向且部分边无向的图。PDAG之间或PDAG和DAG之间的等价性可以通过检查骨架和V形结构来决定，就像DAG一样。一个PDAG是完备的，如果：(1)在属于DAG等价类的每个DAG中也存在相应的有向边，且(2)对于每条无向边i−j，在等价类中存在一个带i→j的DAG和一个带i←j的DAG。

CPDAG编码了相应的等价类中包含的所有独立性信息。Chickering（2002）证明，当且仅当两个CPDAG表示的是同一个等价类时，它们是等价的，即，它们表示的是同一个等价类。

尽管主要目标是确定CPDAG，骨架本身已经包含了有趣的信息。尤其是，如果概率分布P忠诚于一个DAG G，

there is an edge between nodes i and j in the skeleton of DAG G

⇔ for all s ⊆ V \ { i, j}, X(i) and X(j) are conditionally dependent given {X®; r∈s}，（1）

(Spirtes et al., 2000, Th. 3.4). 这表明如果概率分布P对于一个DAG G来说是忠诚的，则DAG G的骨架是对应于P的条件独立性图（CIG）的真子集（或子集）。原因是CIG中的一条边只需要在给定集合V{i, j}的情况下有条件依赖性。更重要的是，骨架张的每条边都表示某种强依赖，其不能通过其他变量来解释。本

标签