前言
pdfplumber 是一个开源的 python 工具库 ,它可以轻松的获取 PDF 文本内容、标题、表格、尺寸等各种信息,今天来介绍如何使用它来提取 PDF 中的表格。
安装
首先通过下面命令安装 pdfplumber 模块。
pip install pdfplumber
或是使用豆瓣镜像源安装。
pip install -i https://pypi.douban.com/simple pdfplumber
案例
这里有一份2020年中国大学生计算机设计大赛参赛作品获奖名单,文件为 PDF 格式,每页都包含表格,表格中包含为各支队伍的获奖信息,共158页。表格前两页内容如下。


下面将 PDF 中的表格提取出来,并保存到 Excel 中。
首先导入所需要的模块:
import pdfplumber
import pandas as pd
读取 PDF 文件
read_path = '2020年中国大学生计算机设计大赛参赛作品获奖名单.pdf'
pdf_2020 = pdfplumber.open(r

1878

被折叠的 条评论
为什么被折叠?



