备案控制台

开发者社区开发与运维文章正文

python获取pdf和word文档页数

2023-11-09 995

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： python获取pdf和word文档页数

python获取word文档和pdf文档页数的方法

1、获取pdf页码数

这里要使用到 pdfplumber 这个库，首先导入

没有安装的同学还需要先安装

pip install pdfplumber

import pdfplumber
from pdfminer.pdfparser import PDFSyntaxError

官方教程

https://codechina.csdn.net/mirrors/jsvine/pdfplumber?utm_source=csdn_github_accelerator

代码如下：

#获取pdf文档页数
def get_pdf_page(pdf_path):
    try:
        f = pdfplumber.open(pdf_path)
        page = len(f.pages)
    except PDFSyntaxError:
        page = 0
    return page

2、获取word文档页码数

这里我们需要用到pythoncom和win32com这两个库，先导入

import pythoncom
import win32com

代码如下

#获取word文档页数
def get_word_page(word_path): 
    pythoncom.CoInitialize()
    # 调用word程序，不在前台显示
    w = win32com.client.Dispatch("Word.Application")
    w.Visible = 0
    w.DisplayAlerts = 0
    # 打开一个word文档
    doc = w.Documents.Open(word_path)
    # 获取总页数
    w.ActiveDocument.Repaginate()
    pages = w.ActiveDocument.ComputeStatistics(2)
    print(pages)
    # 保存并关闭
    doc.SaveAs('test.docx')
    doc.Close()
    return pages

文章标签：

Python

关键词：

Python Word

Python word文档

Python文档

Python PDF

PDF文档

JYeontu

目录

相关文章

站大爷

|

2月前

|

XML 数据格式 Python

从手动编辑到代码生成：Python 助你高效创建 Word 文档

本文介绍如何用Python实现Word文档自动化生成，结合python-docx、openpyxl和matplotlib库，高效完成报告撰写、数据插入与图表生成，大幅提升办公效率，降低格式错误，实现数据驱动的文档管理。

站大爷

547 2 3

云流雨洄

|

4月前

|

安全 JavaScript 开发者

Python 自动化办公神器｜一键转换所有文档为 PDF

本文介绍一个自动化批量将 Word、Excel、PPT、TXT、HTML 及图片转换为 PDF 的 Python 脚本。支持多格式识别、错误处理与日志记录，适用于文档归档、报告整理等场景，大幅提升办公效率。仅限 Windows 平台，需安装 Office 及相关依赖。

云流雨洄

255 0 0

站大爷

|

3月前

|

机器学习/深度学习文字识别 Java

Python实现PDF图片OCR识别：从原理到实战的全流程解析

本文详解2025年Python实现扫描PDF文本提取的四大OCR方案（Tesseract、EasyOCR、PaddleOCR、OCRmyPDF），涵盖环境配置、图像预处理、核心识别与性能优化，结合财务票据、古籍数字化等实战场景，助力高效构建自动化文档处理系统。

站大爷

989 0 1

程序员晚枫

|

4月前

|

程序员数据安全/隐私保护 Python

1行Python代码，实现PDF的加密、解密

程序员晚枫分享使用python-office库实现PDF批量加密与解密的新方法。只需一行代码，即可完成单个或多个PDF文件的加密、解密操作，支持文件路径与正则筛选，适合自动化办公需求。更新至最新版，适配性更佳，操作更简单。

程序员晚枫

221 8 8

1行Python代码，实现PDF的加密、解密

ayuday

|

3月前

|

小程序

公众号如何添加附传Word、Excel、Pdf、PPT文档

公众号里添加一些文档给公众号粉丝下载，比如课件PPT、申请表Word文档、岗位需求Excel表、大赛入围/获奖名单等。公众号本身是不支持直接上传文件的，但我们可以通过附件小程序“间接”上传文件。

ayuday

625 0 0

盹猫

|

5月前

|

XML Linux 区块链

Python提取Word表格数据教程(含.doc/.docx)

本文介绍了使用LibreOffice和python-docx库处理DOC文档表格的方法。首先需安装LibreOffice进行DOC到DOCX的格式转换，然后通过python-docx读取和修改表格数据。文中提供了详细的代码示例，包括格式转换函数、表格读取函数以及修改保存功能。该方法适用于Windows和Linux系统，解决了老旧DOC格式文档的处理难题，为需要处理历史文档的用户提供了实用解决方案。

盹猫

622 0 1

鱼的爱情看不出泪水

|

5月前

|

编译器 Python

如何利用Python批量重命名PDF文件

本文介绍了如何使用Python提取PDF内容并用于文件重命名。通过安装Python环境、PyCharm编译器及Jupyter Notebook，结合tabula库实现PDF数据读取与处理，并提供代码示例与参考文献。

鱼的爱情看不出泪水

245 1 1

站大爷

|

4月前

|

监控 Linux 数据安全/隐私保护

Python实现Word转PDF全攻略：从入门到实战

在数字化办公中，Python实现Word转PDF自动化，可大幅提升处理效率，解决格式兼容问题。本文详解五种主流方案，包括跨平台的docx2pdf、Windows原生的pywin32、服务器部署首选的LibreOffice命令行、企业级的Aspose.Words，以及轻量级的python-docx+pdfkit组合。每种方案均提供核心代码与适用场景，并涵盖中文字体处理、表格优化、批量进度监控等实用技巧，助力高效办公自动化。

站大爷

1264 0 0

yexx

|

数据采集 Web App开发 Windows

Python2 爬虫（三） -- 爬CSDN全部博文（自动获取页数）

在这里就学习一下python的字符串处理然后获取到页数之后，我们就啥也不用改，直接运行代码即可获得所有博文。全局变量。这里我们还要学习一下全局变量的问题 import requests import re import sys reload(sys) sys.setdefaultencoding("utf-8") def hi(id): url = "h

yexx

1695 0 0

九月天空

|

3月前

|

数据采集机器学习/深度学习人工智能

Python：现代编程的首选语言

Python：现代编程的首选语言

九月天空

321 102 103

热门文章

最新文章

Java操作wkhtmltopdf实现Html转PDF

撒花！《神经网络与深度学习》中文教程正式开源！全书 pdf、ppt 和代码一同放出

20行Python代码教你批量将PDF文件转为Word格式

PDF.NET数据开发框架之SQL-MAP使用存储过程

【办公自动化】使用Python一键提取PDF中的表格到Excel

[ASP.NET]利用itextsharp将GridView汇出PDF档

高质量C++ C编程指南及编码规范.pdf

【2023-08-20】最新PDF.js PDF批注注释插件库：创建、保存和管理PDF注释批注（高亮、文本框、绘图、截屏、历史记录、橡皮檫）-pdf.js

Spring对PDF文档操作

PDF文件和Word文档面临更多网络安全威胁

Python中的函数

专为编程小白设计的Python零基础入门教程，GitHub星标破W

4小时学完！15年技术大牛用247个实战案例剖析的Python教程

GitHub狂揽6700 Star，Python进阶必备的案例、技巧与工程实践

Python学习笔记

构建高效Python Web应用：异步编程与Tornado框架

Python网络安全与密码学

使用Python调用远程服务器上的依赖

Python AI 绘画

相关课程

更多

Python Web开发基础

Python爬虫实战

Python常用数据科学库

Python网络爬虫实战

Python完全自学手册图文教程

Python基础快速入门实战教程

相关电子书

更多

对象存储实战指南-试读

OpenAnolis 龙蜥操作系统开源社区技术创新白皮书

使用CNFS搭建弹性Web服务

推荐镜像

更多

python-release

下一篇

基于Python+Vue开发的口腔牙科预约管理系统