节点数据比较稀疏,比如200个节点,完全连接的情况下有40000行,其中每行代表一个连接,但一般只有3000多行的连接,其余均是零。在这种情况下,使用稀疏矩阵来表示点与点之间的关系更为适合——每个数字4个字节,256个数字1k,40000个数字0.16Mb,但wiki节点数在1千万以上,即完全矩阵显示的话存储需要360多个TB,但边只有192万,即低于8MB,由此可见使用稀疏矩阵的必要性。
导入安装包
import numpy as np
from scipy.sparse import csr_matrix
导入数据
当读入的数据量较大时,一般使用上下文管理器with语句,进行单行读取操作。测试数据集可以是任意有向网络数据集,只不过需要将后面的890换为你数据集节点数加1——Python是以0开始计位。另外,需要提前将数据集进行清洗,分析的数据集从第一行开始即为边数据,而不是统计或者描述性信息。
file_name = ""
network_file = f'./{file_name}.txt'
row_l = list()
col_l = list()
with open(network_file, "r", encoding="utf-8") as file1:
while 1:
networki = file1.readline()
_temp_value = [int(i) for i in networki.strip().split()]
if len(_temp_value) >= 2:
row_l.append(_temp_value[0])
col_l.append(_temp_value[1])
else:
break
数据处理
利用Scipy.sparse的csr_matrix方法将原始数据转化为稀疏矩

本文介绍了在处理节点数据稀疏的情况下,如何使用稀疏矩阵来表示点与点之间的关系,以节省存储空间。通过导入数据并使用Scipy.sparse的csr_matrix创建稀疏矩阵,然后采用循环求解和逆矩阵求解方法来实现PageRank算法,寻找影响力最大的节点。
1382

被折叠的 条评论
为什么被折叠?



