pdfplumber项目实战（一）

原创

已于 2024-06-19 23:47:23 修改 · 1.9k 阅读

收录于

当前文章被以下社区和专栏收录：

于 2024-04-01 11:21:37 首次发布

以实际文件为例，完整的提取表格信息（文本、划线）。

库的相关方法参数说明可以自行去隔壁Github了解。

环境：Python + pdfplumber

总体思路：单独提取线段重构表格，再单独提取文本和划线放入相应单元格，最后合并导出。

1 加载文件与debug

import pdfplumber

file = pdfplumber.open(r"sample.pdf")  # 加载pdf文件
page = file.pages[0]  # 选取第一页

image = page.to_image()
image.draw_lines(page.lines, stroke_width=5, stroke="blue")  # 绘制线条 蓝色 宽度5，根据页面中的线
image.draw_rects(page.extract_words())  # 绘制方框，根据从页面提取的词组
image.show()

pdfplumber是一个比较基础的库自由度很高，提供了很多的方法以及参数。通过debug不断调整方法和参数，往往可以较好的提取特定类型的pdf文件。

在该示例中，虽然pdfplumber库提供了extract_table()的方法，但由于丢失了下划线信息，所以选择通过重构表格来提取。