Estimating High-Dimensional Directed Acyclic Graphs with the PC-Algorithm

原文:Kalisch M, Buehlmann P. Estimating high-dimensional directed acyclic graphs with the PC-algorithm. J Mach Learn Res 2007;8:613–36.
原文网页版
Web of science
本篇内容只是在个人理解能力的基础上做的不完全翻译,仅供参考,详细内容请阅读英文原文!

Abstract

本文研究了PC算法用于估计具有相应高斯分布的高维有向无环图(DAG)的骨架和等价类。 对于有许多节点(变量)的稀疏问题,PC算法在计算上是可行的,而且往往非常快,它具有吸引人的特性,可以自动实现高计算效率,作为真实底层DAG的稀疏程度的函数。本文证明了该算法在高维稀疏DAGs中的一致性,并允许节点数量随样本大小n快速增长,对于任何0 < a <∞快如O(na)。稀疏性假设是相当最小的,只要求DAG中的邻域的阶数低于样本容量n。文章还演示了模拟数据的PC算法。

1. Introduction

图模型是一种用来分析和可视化随机变量之间的条件独立性关系流行的概率工具。模型的主要构建模块是节点(代表随机变量)和边(编码了顶点的条件独立性关系)。随机变量之间的条件独立性结构可以使用马尔可夫性质来探索。

当前的研究兴趣是有向无环图(DAG),它包含有向边而不是无向边,这在一定程度上限制了条件独立性关系。这些图可以应用马尔可夫性质来解释。当忽略DAG的方向,可以得到一个DAG的骨架。通常来说,它和条件独立性图(CIG)是不同的,见2.1节(因此,有向图的估计方法不能简单地借鉴无向的CIG的估计方法)。2.1节中可以看到,骨架可以很容易地解释,从而对数据的依赖结构产生有趣的见解。

由于DAG空间的巨大规模,从数据中估计DAG是困难的,在计算上也是不可行的:可能的DAG的数量在节点数量上是超指数的。然而,针对中小规模节点数量,有一些十分成功的的 搜索-评分方法。例如,搜索空间可能像MWST那样被限制为树结构,或者采用贪婪的搜索方式。如GES (Greedy Equivalent Search, see Chickering, 2002a) 方法所述,贪婪的DAG搜索可以通过利用概率等价关系来优化,且搜索空间可以从单个DAG缩小到等价类。尽管这种方法在中小规模的节点数量情况下似乎很有前途,但它受限于一个事实,即等价类的空间在节点数量增长时也是超指数增长的 (Gillispie and Perlman, 2001)。

一个有趣的替代贪婪或者结构限制的方法是Spirtes等人在2000年提出的PC算法。它从一个完备的无向图开始,基于条件独立性决策递归地删除边。这会生成一个无向图,然后它会被部分地定向,并进一步扩展以表示底层的DAG。PC算法在最坏的情况下是以运行时间是运行的,但是如果真实的底层DAG是稀疏的(这通常是一个合理的假设),运行时间将会缩减为多项式时间。

在过去,提出了一些有趣的混合方法,最近,Tsamardinos等人(2006)提出了一种计算上非常有竞争力的算法。本文还参考了他们的论文,在广泛的算法之间进行了相当详尽的数值比较研究。

本文主要研究了在高维环境下DAGs的等价类和骨架的估计(对应于多元高斯分布),即节点数p可能远远大于样本数n。本文证明,当样本大小n→∞时,即使允许维数 p = pn = O(na) (0 ≤ a <∞)作为n的函数快速增长,PC算法也能一致地估计出底层稀疏DAG地等价类和骨架。

如第4.5节所示,本文对PC算法的实现速度惊人地快,它允许估计一个稀疏的DAG,即使p很大。对于p远大于n的高维设定,底层DAG的稀疏性对于统计一致性和计算可行性是至关重要的。本文的分析似乎是第一次为高维DAG建立了一个可证明的正确算法(在渐进意义上),该算法在计算上是可行的。

关于包括PC算法在内的一类方法的一致性问题已经被Sprites等人和Robins等人在因果推断的文章讨论过。他们证明,只假设忠实性(第二节中有说明),统一一致性无法实现,但点状一致性可以实现。在本文中,本文用两种方式对其进行了扩展:本文提供了一套假设,使PC算法具有统一的一致性。更重要的是,本文证明即使是当节点数和邻居数增加,并且最小的非零协方差作为样本量的函数而减小,这个一致性也能始终保持。Zhang和Spirtes(2003)也提出了比忠实性条件更严格的假设,使均匀一致成为可能。Zuk等人(2006)对学习正确的贝叶斯网络结构需要多少样本的更普遍的讨论。

寻找DAG的等价类的问题与特征选择问题有很大的重合:如果找到了等价类,则可以很容易地读取任意变量(节点)的马尔可夫毯。给定一个节点集合V,假设M是节点X的马尔科夫毯,那么在给定M的条件下,XV\M是条件独立的。因此,M包含且只包含所有的X的相关特征。例如,见Goldenberg和Moore(2004)关于处理非常高的维度的方法,或Ng(1998)关于处理泛化误差的界限的相当普遍的方法。

2. Finding the Equivalence Class of a DAG

在本节中,首先说明主要的概念。然后,给出关于PC算法的详尽描述。

2.1 Definitions and Preliminaries

G=(V, E)由一组顶点V={1,…,p}和一组边E⊆V×V组成,即边集是不同节点的有序对的子集。在本文的设定中,节点集对应于随机变量 X∈Rp 的分量。如果 (i, j)∈E(j, i)/∈E ,则边 (i,j)∈E 被叫做有向边,用符号 i→j 表示。如果 (i, j)∈E(j, i)∈E,则该边被叫做无向边用符号i-j表示。一个有向无环图(DAG)是一个所有边都是有向边且不包含环的图。

如果存在有向边 i→j,则节点i是节点j的父节点。节点j的父节点的集合用pa(j)表示。节点j在图G中的邻居集合用adj(G, j)表示,它表示所有直接和j通过边(有向或者无向)连接的节点。adj(G, j)中的节点也被称为j的邻居或者与j相邻。

如果Rp上的概率分布P中的条件独立性可以从图G的d-separation中被推断出来,反之亦然,则P忠诚于图G。更精确的说:考虑一个随机向量X~PP的忠诚性意味着:对于任意的i,j∈Vi≠j,则对于任意的s⊆V

X(i) and X(j) are conditionally independent given {X(t); ts}

⇔ node i and node j are d-separated by the set s.

d-separation的概念可以由道德图定义;详见Lauritzen的描述 (1996,Prop. 3.25)。在此指出,忠实性是排除某些类别的概率分布的。Spirtes等人(2000,第3.5.2章)给出了一个非忠实分布的例子。另一方面,多元正态族(本文将限制在此)的非忠诚分布在与DAG G相关的分布空间中形成一个Lebesgue 空集,见Meek(1995a)。

DAG G的骨架是用无向边代替G中的有向边得到的无向图。DAG G 中的 v-structure 是一个有序的三元节点组 (i, j, k) 使得G包含有向边i→jk→j,并且i和k在G中不相邻。

众所周知,对于一个由DAG G生成的概率分布P,存在一个完整的具有对应分布P的等价类DAGs (见 Chickering, 2002a, Section 2.2 )。即使有无限多的观察结果,本文也无法区分一个等价类中的不同DAG。利用Verma和Pearl(1990)的一个成果,可以更精确的描述等价类的特征。当且仅当两个DAG有相同的骨架和相同的v-structure时,他们是等价的。

常用的DAG等价类的可视化工具是完备的部分有向无环图(CPDAG)。一个部分有向无环图(PDAG)是一个部分边有向且部分边无向的图。PDAG之间或PDAG和DAG之间的等价性可以通过检查骨架和V形结构来决定,就像DAG一样。一个PDAG是完备的,如果:(1)在属于DAG等价类的每个DAG中也存在相应的有向边,且(2)对于每条无向边i−j,在等价类中存在一个带i→j的DAG和一个带i←j的DAG。

CPDAG编码了相应的等价类中包含的所有独立性信息。Chickering(2002)证明,当且仅当两个CPDAG表示的是同一个等价类时,它们是等价的,即,它们表示的是同一个等价类。

尽管主要目标是确定CPDAG,骨架本身已经包含了有趣的信息。尤其是,如果概率分布P忠诚于一个DAG G,

there is an edge between nodes i and j in the skeleton of DAG G

⇔ for all s ⊆ V \ { i, j}, X(i) and X(j) are conditionally dependent given {X®; r∈s},(1)

(Spirtes et al., 2000, Th. 3.4). 这表明如果概率分布P对于一个DAG G来说是忠诚的,则DAG G的骨架是对应于P的条件独立性图(CIG)的真子集(或子集)。原因是CIG中的一条边只需要在给定集合V{i, j}的情况下有条件依赖性。更重要的是,骨架张的每条边都表示某种强依赖,其不能通过其他变量来解释。本

代码下载链接: https://pan.quark.cn/s/6b27a128162e 【关于IAR for Arm 9.20.1的安装指导】 IAR Systems作为业内知名的嵌入式系统开发工具供应商,其推出的IAR Embedded Workbench是一款面向多种微控制器(MCU)的集成开发环境(IDE)。本指导将系统性地阐述安装IAR for ARM 9.20.1版本的具体流程,该版本是专门为基于ARM架构的嵌入式设备量身打造的开发工具。 1. **前期准备** 在启动安装流程之前,务必核实计算机的环境配置符合以下系统要求: - 操作系统版本:Windows 7或更新版本 - 硬盘容量:确保至少有1GB的可用存储空间 - 系统兼容性:支持在32位及64位Windows操作系统上运行 2. **获取与解压缩** 需要从官方网站或者指定的链接获取"IAR For Arm 9.20.1"的压缩文件。文件下载完毕后,借助解压缩软件(例如7-Zip)将内容解压到用户指定的文件夹中。 3. **启动安装流程** 进入解压后的文件夹,找到并执行"IAREmbeddedWorkbenchInstaller.exe"文件,从而启动IAR的安装向导程序。 4. **安装向导界面** - **初始界面**:仔细阅读并同意许可协议条款,随后点击“Next”进入下一阶段。 - **组件选择**:IAR Embedded Workbench通常集成了多个功能模块,包括编译器、调试器接口等。系统默认选中所有模块,用户也可依据实际需求进行个性化选择。本例中采用默认设置,并继续点击“Next”。 - **设定安装位置**:用户可以选择采用系统推荐的安装路径,或者自定义安装位置。确认选择...
内容概要:本文围绕基于反步终端滑模控制的永磁同步电机(PMSM)位置控制器三环伺服系统展开深入研究,旨在通过Matlab/Simulink平台构建完整的控制系统仿真模型,实现对PMSM高精度位置控制的设计与验证。研究系统性地阐述了反步终端滑模控制(Backstepping Terminal Sliding Mode Control, BTSMC)的理论基础,重点剖析其在应对系统强非线性、外部未知扰动及参数摄动等挑战时所展现出的卓越鲁棒性与动态性能优势。通过构建包含电流环、速度环和位置环的三闭环级联控制架构,实现了对电机多物理量的精细化协同控制,显著提升了系统的响应速度、稳态精度和抗干扰能力。文章不仅提供了详尽的控制律推导过程,还给出了完整的Simulink模块化实现方案,涵盖了坐标变换、控制器设计、空间矢量脉宽调制(SVPWM)等关键环节,为相关领域的科研与工程实践提供了可复现、可拓展的技术范例。; 适合人群:具备自动控制理论、电机学基础知识及Matlab/Simulink仿真操作经验的研究生、高校教师、科研院所研究人员以及从事高性能电机驱动、伺服系统开发的工程技术专业人员。; 使用场景及目标:①服务于高等院校和科研机构中关于现代非线性控制理论的教学案例与课题研究;②为工业自动化领域中高精度数控机床、机器人关节、精密仪器等对伺服性能有严苛要求的应用场景提供先进的控制策略参考与技术实现路径;③支撑高水平学术论文的复现、不同先进控制算法(如传统PID、普通滑模、自适应控制等)的性能对比分析,并为进一步提出创新性复合控制方法奠定研究基础; 阅读建议:建议读者在学习过程中紧密结合文中的数学推导与Simulink仿真模型,逐模块理解控制策略的实现逻辑,特别关注滑模面的设计、李雅普诺夫函数的构造、控制器增益参数的整定方法以及三环之间的动态耦合关系。应充分利用所提供的仿真资源进行反复调试与参数优化,通过观察不同工况下的系统响应曲线,深入探究控制算法的内在机理,从而有效提升对复杂非线性系统建模、分析与设计的综合能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值