【笔记】图学习中的拓扑不均衡问题初探
来源:techbeat
主讲人:孙庆赟
talk链接:https://www.techbeat.net/talk-info?id=775
背景
样本数量不均衡
样本数量不均衡造成决策偏移。
现有方法:
- 数据重采样(re-sample):数据增强
- 算法权重重置(re-weighting):赋予不同权重
拓扑不均衡
图数据上特有的样本不均衡问题。往往导致信息传播不重复,学习到的节点表征较差。
图拓扑结构的影响
图神经网络中按照拓扑结构进行信息传递,节点之间的相互影响。
位置信息感知
解决位置不均衡问题
图神经网络的现象
- 欠可达现象:远离标记节点的节点获得的信息少。-> 可达系数:无标记节点到对应类的标记节点的平均最短路径长度,代表聚合过程所需的最小层数。
- 过压缩现象:有效信息与无用信息共同传播,并在传播过程中压缩。-> 压缩系数:无标记节点到对应类的标记节点的最短路径长度平均里奇曲率,代表三角形和环状结构的量,这两种结构有助于模型学习。
可达系数与压缩系数
- 可达系数:无标记节点到对应类的标记节点的平均最短路径长度,代表聚合过程所需的最小层数。
- 压缩系数:无标记节点到对应类的标记节点的最短路径长度平均里奇曲率,代表三角形和环状结构的量,这两种结构有助于模型学习。
位置编码
- 度量距离:
(1)到全部c个类别的可达系数,构成c维向量,乘以学习矩阵,最后原始邻接矩阵、与feature相关的邻接矩阵嵌合。
(2)与feature相关的邻接矩阵 - 度量质量:GRP->度量每个类别对节点的影响程度,GPR距离为两个节点之间的冲突值,冲突小则相似。
层次编码
不同空间的嵌入能力:
- tree-like:双曲空间
- 网格:平面
- 环状:球
利用双曲几何空间映射,解决层次不均衡问题。
548

被折叠的 条评论
为什么被折叠?



