稀疏矩阵和PageRank算法

原创

已于 2022-03-21 22:38:21 修改 · 2.2k 阅读

收录于

当前文章被以下社区和专栏收录：

于 2022-03-21 17:19:53 首次发布

本文介绍了在处理节点数据稀疏的情况下，如何使用稀疏矩阵来表示点与点之间的关系，以节省存储空间。通过导入数据并使用Scipy.sparse的csr_matrix创建稀疏矩阵，然后采用循环求解和逆矩阵求解方法来实现PageRank算法，寻找影响力最大的节点。

节点数据比较稀疏，比如200个节点，完全连接的情况下有40000行，其中每行代表一个连接，但一般只有3000多行的连接，其余均是零。在这种情况下，使用稀疏矩阵来表示点与点之间的关系更为适合——每个数字4个字节，256个数字1k,40000个数字0.16Mb,但wiki节点数在1千万以上，即完全矩阵显示的话存储需要360多个TB,但边只有192万，即低于8MB，由此可见使用稀疏矩阵的必要性。

导入安装包

import numpy as np
from scipy.sparse import csr_matrix

导入数据

当读入的数据量较大时，一般使用上下文管理器with语句，进行单行读取操作。测试数据集可以是任意有向网络数据集，只不过需要将后面的890换为你数据集节点数加1——Python是以0开始计位。另外，需要提前将数据集进行清洗，分析的数据集从第一行开始即为边数据，而不是统计或者描述性信息。

file_name = ""
network_file = f'./{file_name}.txt'

row_l = list()
col_l = list()
with open(network_file, "r", encoding="utf-8") as file1:
    while 1:
        networki = file1.readline()
        _temp_value = [int(i) for i in networki.strip().split()]
        if len(_temp_value) >= 2:
            row_l.append(_temp_value[0])
            col_l.append(_temp_value[1])
        else:
            break