手把手教你用Python提取PDF中的表格

原创

已于 2024-01-12 10:19:04 修改 · 2.8w 阅读

171

收录于

当前文章被以下社区和专栏收录：

于 2022-01-31 13:00:00 首次发布

前言

pdfplumber 是一个开源的 python 工具库，它可以轻松的获取 PDF 文本内容、标题、表格、尺寸等各种信息，今天来介绍如何使用它来提取 PDF 中的表格。

安装

首先通过下面命令安装 pdfplumber 模块。

pip install pdfplumber

或是使用豆瓣镜像源安装。

pip install -i https://pypi.douban.com/simple pdfplumber

案例

这里有一份2020年中国大学生计算机设计大赛参赛作品获奖名单，文件为 PDF 格式，每页都包含表格，表格中包含为各支队伍的获奖信息，共158页。表格前两页内容如下。

下面将 PDF 中的表格提取出来，并保存到 Excel 中。

首先导入所需要的模块：

import pdfplumber
import pandas as pd

读取 PDF 文件

read_path = '2020年中国大学生计算机设计大赛参赛作品获奖名单.pdf'
pdf_2020 = pdfplumber.open(r

标签

#python #开发语言 #后端

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

程序媛小本

关注关注

28
点赞
踩
171

收藏

觉得还不错? 一键收藏
4
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python PDF解析利器：pdfplumber | AI应用开发

人工智能微客/aiweker

03-30

1878

pdf文档解析工具

使用Python快速读取PDF中的表单数据

nuclear2011的博客

03-20

3305

本文介绍了如何使用Python快速读取PDF文档中多种表单或者特定表单的数据。包含详细步骤介绍及代码示例。

4 条评论您还未登录，请先登录后发表或查看评论

Python PDF 库终极指南：PyMuPDF、pdfplumber、pdfminer、Poppler 应该怎么选？

热门推荐

weixin_48629601的博客

07-09

4万+

文章目录背景环境教程开始应用场景安装命令行使用可选参数Python包简单样例读取PDFpdfplumber.PDF类pdfplumber.Page类背景最近需要一个工具来解析PDF文件，获取其文本内容、标题、表格等，在GitHub上发现了这个神仙工具，发现用起来还挺方便的。在这里做一个简单的介绍，帮助一些想入门的英文不好的同学。环境 macOS 10.14 PDFPlubmer v0.5.21 python>=3.5 教程开始首先附上GitHub链接：https://github.com/j

Python提取pdf中的表格数据（附实战案例）

m0_64336780的博客

10-26

1万+

今天给大家介绍一个Python使用工具，那就是从pdf文件中读取表格数据，主要用到第三方库pdfplumber。pdfplumber是一款基于pdfminer，完全由python开发的pdf文档解析库，不仅可以获取每个字符、矩形框、线等对象的具体信息，而且还可以抽取文本和表格。目前pdfplumber仅支持可编辑的pdf文档。

用Python代码批量提取PDF文件中的表格

Eiceblue的专栏

05-24

4321

本文演示如何使用Python提取PDF文档中的表格数据，并将其保存到文本文件或Excel文件。

13python利用pdfplumber库提取PDF文字以及表格内容

weixin_42850424的博客

04-11

6368

利用pdfplumber提取文字 import pdfplumber with pdfplumber.open("Netease Q2 2019 Earnings Release-Final.pdf") as pdf: first_page = pdf.pages[0] print(first_page.extract_text()) 利用pdfplumber提取表格 impo...

通过Python的pdfplumber库提取pdf中表格数据

业余Python爱好者

05-28

4766

通过Python的pdfplumber库提取pdf中表格数据。

Python 提取 PDF 中的表格数据

12-18

8152

PDF 中的表格数据，使用 Python 提取，使用的框架是 pdfplumber 或 camelot 。

用Python将PDF表格提取到文本、CSV和Excel文件中

Eiceblue的专栏

11-01

2104

本文展示了如何用Python将PDF表格提取到文本、CSV和Excel文件，以及将PDF文档转换为Excel工作簿。

python办公自动化——提取pdf中的文字和表格

weixin_48737462的博客

12-11

1466

python办公自动化——提取pdf中的文字和表格一、提取pdf中的文字编码流程： 1.导入包：import pdfplumber 2.找到pdf路径:pdf_path = ‘xxx.pdf’ 3.打开pdf :pdf = pdfplumber.open(pdf_path) 4.获取页面获取某一页：parse_page = pdf.pages[n] 获取所有页面:parse_page = pdf.pages 5.获取所有页面的文字:parse_page.extract_text() 6.存

如何使用Python提取pdf表格及文本，并保存到excel

cainiao_python的博客

07-19

1万+

来自公众号：Python大数据分析pdf是一种便携式文档格式，由Adobe公司设计。因为不受平台限制，且方便保存和传输，所以pdf非常受欢迎。目前市场上有很多pdf工具，大部分是阅读类，也...

别再问如何用Python提取PDF内容了！

数据森麟

10-08

8271

python 提取pdf表格_用Python提取pdf文件中的表格数据

weixin_31281003的博客

12-29

2202

本文作者：杨慧琳本文编辑：周聪聪技术总编：张学人有问题，不要怕！访问http://www.wuhanstring.com/uploads/5_aboutus/爬虫俱乐部-用户问题登记表.docx(复制到浏览器中)下载爬虫俱乐部用户问题登记表并按要求填写后发送至邮箱statatraining@163.com,我们会及时为您解答哟~爬虫俱乐部的github主站正式上线了！我们的网站地址是：https:...

pdf 文件版面分析--pdfplumber （python 文档解析提取）

消极的人永远是对的，积极的人选择勇往直前

05-05

4756

python 读取文件函数有三种 read()、readline()、readlines()1、它是一个纯 python 第三方库，适合 python 3.x 版本。3、它不支持修改或生成pdf，也不支持对pdf扫描件的处理。2、它用来查看pdf各类信息，能有效提取文本、表格。

深入探索pdfplumber：从PDF中提取信息到实际项目应用

一键难忘的博客

02-23

6820

在数据处理和信息提取的过程中，PDF文档是一种常见的格式。然而，要从PDF中提取信息并进行进一步的分析，我们需要使用适当的工具。本文将介绍如何使用Python库中的pdfplumber库来读取PDF文档，并通过实际代码示例演示如何将提取的信息写入Excel文件。

pdfplumber - pdf 数据提取

AI工程化、开源分享、文档翻译、代码笔记

08-22

5510

一、关于 pdfplumber 安装二、命令行界面 1、基本示例 2、选项三、Python库 1、基本示例 2、加载PDF 3、`pdfplumber.PDF`类 4、`pdfplumber.Page` 类 5、对象 `char`特性 `line`属性 `rect`属性 `curve` 属性派生属性 `image`属性 6、通过pdfminer获取更高级别的`pdfminer.six` 四、可视化调试创建一个`PageImage`与`.to_image()` 基本`PageImage`方法绘图方法

Python实例详解pdfplumber读取PDF写入Excel

张伟的专栏

11-30

6805

PDF（Portable Document Format）是一种便携文档格式，便于跨操作系统传播文档。PDF文档遵循标准格式，因此存在很多可以操作PDF文档的工具，Python自然也不例外。其他几个 Python 库帮助用户从 PDF 中提取信息。专注PDF内容提取，例如文本（位置、字体及颜色等）和形状（矩形、直线、曲线），还有解析表格的功能。

python读取PDF文件中跨页表格思路分享

qq_38390215的博客

11-02

9316

使用pdfplumber提取pdf中跨页表格