pdfplumber项目实战(一)

目录

1 加载文件与debug

2 建立表格框架

3 将文本和划线放入单元格

4 划线匹配


以实际文件为例,完整的提取表格信息(文本、划线)。

库的相关方法参数说明可以自行去隔壁Github了解。

环境:Python + pdfplumber

总体思路:单独提取线段重构表格,再单独提取文本和划线放入相应单元格,最后合并导出。

1 加载文件与debug

import pdfplumber

file = pdfplumber.open(r"sample.pdf")  # 加载pdf文件
page = file.pages[0]  # 选取第一页

image = page.to_image()
image.draw_lines(page.lines, stroke_width=5, stroke="blue")  # 绘制线条 蓝色 宽度5,根据页面中的线
image.draw_rects(page.extract_words())  # 绘制方框,根据从页面提取的词组
image.show()

pdfplumber是一个比较基础的库 自由度很高,提供了很多的方法以及参数。通过debug不断调整方法和参数,往往可以较好的提取特定类型的pdf文件。

在该示例中,虽然pdfplumber库提供了extract_table()的方法,但由于丢失了下划线信息,所以选择通过重构表格来提取。

2 建立表格框架

通过不断调整参数,可以得到较好的效果。


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值