目录
以实际文件为例,完整的提取表格信息(文本、划线)。
库的相关方法参数说明可以自行去隔壁Github了解。
环境:Python + pdfplumber
总体思路:单独提取线段重构表格,再单独提取文本和划线放入相应单元格,最后合并导出。

1 加载文件与debug
import pdfplumber
file = pdfplumber.open(r"sample.pdf") # 加载pdf文件
page = file.pages[0] # 选取第一页
image = page.to_image()
image.draw_lines(page.lines, stroke_width=5, stroke="blue") # 绘制线条 蓝色 宽度5,根据页面中的线
image.draw_rects(page.extract_words()) # 绘制方框,根据从页面提取的词组
image.show()
pdfplumber是一个比较基础的库 自由度很高,提供了很多的方法以及参数。通过debug不断调整方法和参数,往往可以较好的提取特定类型的pdf文件。
在该示例中,虽然pdfplumber库提供了extract_table()的方法,但由于丢失了下划线信息,所以选择通过重构表格来提取。
2 建立表格框架
通过不断调整参数,可以得到较好的效果。

1884

被折叠的 条评论
为什么被折叠?



