广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python利用PyMuPDF实现PDF文件处理
  • 851
分享到

Python利用PyMuPDF实现PDF文件处理

2024-04-02 19:04:59 851人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

目录1、PyMupdf简介介绍功能2、安装关于命名fitz的说明3、使用方法导入库,查看版本打开文档Document的方法和属性获取元数据获取目标大纲页面(Page)PDF操作1、P

1、PyMuPDF简介

介绍

在介绍PyMuPDF之前,先来了解一下MuPDF,从命名形式中就可以看出,PyMuPDFMuPDFpython接口形式。

MuPDF

MuPDF 是一个轻量级的 PDF、XPS和电子书查看器。MuPDF 由软件库、命令行工具和各种平台的查看器组成。

MuPDF 中的渲染器专为高质量抗锯齿图形量身定制。它以精确到像素的几分之一内的度量和间距呈现文本,以在屏幕上再现打印页面的外观时获得最高保真度。

这个观察器很小,速度很快,但是很完整。它支持多种文档格式,如PDFXPSOpenXPSCBZEPUBFictionBook 2。您可以使用移动查看器对PDF文档进行注释和填写表单(这个功能很快也将应用于桌面查看器)。

命令行工具允许您注释、编辑文档,并将文档转换为其他格式,如html、SVG、PDFCBZ。您还可以使用javascript编写脚本来操作文档。

PyMuPDFPyMuPDF(当前版本1.18.17)是支持MuPDF(当前版本1.18.*)的Python绑定。

使用PyMuPDF,你可以访问扩展名为“.pdf”、“.xps”、“.oxps”、“.cbz”、“.fb2”“.epub”。此外,大约10种流行的图像格式也可以像文档一样处理:“.png”,“.jpg”,“.bmp”,“.tiff”等。

功能

对于所有支持的文档类型可以:

1.解密文件

2.访问元信息、链接和书签

3.以栅格格式(PNG和其他格式)或矢量格式SVG呈现页面

4.搜索文本

5.提取文本和图像

6.转换为其他格式:PDF, (X)HTML, XML, JSON, text

对于PDF文档,存在大量的附加功能:它们可以创建、合并或拆分。页面可以通过多种方式插入、删除、重新排列或修改(包括注释和表单字段)。

7.可以提取或插入图像和字体

8.完全支持嵌入式文件

9.pdf文件可以重新格式化,以支持双面打印,色调分离,应用标志或水印

10.完全支持密码保护:解密、加密、加密方法选择、权限级别和用户/所有者密码设置

11.支持图像、文本和绘图的 PDF 可选内容概念

12.可以访问和修改低级 PDF 结构

13.命令行模块"python -m fitz…"具有以下特性的多功能实用程序

新:布局保存文本提取!脚本fitzcliy .py通过子命令“gettext”提供不同格式的文本提取。特别有趣的当然是布局保存,它生成的文本尽可能接近原始物理布局,周围有图像的区域,或者在表格和多列文本中复制文本。

  • 加密/解密/优化
  • 创建子文档
  • 文档连接
  • 图像/字体提取
  • 完全支持嵌入式文件
  • 保存布局的文本提取(所有文档)

2、安装

PyMuPDF可以从源码安装,也可以从wheels安装。

对于windows, linuxMac OSX平台,在PyPI的下载部分有wheels。这包括Python 64位版本3.6到3.9。Windows版本也有32位版本。从最近开始,Linux ARM架构也出现了一些问题——查找平台标签manylinux2014_aarch64

除了标准库,它没有强制性的外部依赖项。只有在安装了某些包时,才会有一些不错的方法:

  • Pillow:当使用Pixmap.pil_save()和 Pixmap.pil_tobytes()时需要
  • fontTools:当使用Document.subset_fonts()时需要
  • pymupdf-fonts 是一个不错的字体选择,可以用于文本输出方法

使用pip安装命令:

pip install PyMuPDF

导入库:

import fitz

关于命名fitz的说明

这个库的标准Python导入语句是import fitz。这是有历史原因的:

MuPDF的原始渲染库被称为Libart

在Artifex软件获得MuPDF项目后,开发的重点转移到编写一种新的现代图形图书馆称为“Fitz”Fitz最初是作为一个研发项目,以取代老化的Ghostscript图形库,但却成为了MuPDF的渲染引擎(引用自维基百科)。

3、使用方法

导入库,查看版本

import fitz
print(fitz.__doc__)
PyMuPDF 1.18.16: Python bindings for the MuPDF 1.18.0 library.
Version date: 2021-08-05 00:00:01.
Built for Python 3.8 on linux (64-bit).

打开文档

doc = fitz.open(filename)

这将创建Document对象doc。文件名必须是一个已经存在的文件的python字符串

也可以从内存数据打开文档,或创建新的空PDF。您还可以将文档用作上下文管理器。

Document的方法和属性

示例:

>>> doc.count_page
1
>>> doc.metadata
{'fORMat': 'PDF 1.7',
 'title': '',
 'author': '',
 'subject': '',
 'keyWords': '',
 'creator': '',
 'producer': '福昕阅读器PDF打印机 版本 10.0.130.3456',
 'creationDate': "D:20210810173328+08'00'",
 'modDate': "D:20210810173328+08'00'",
 'trapped': '',
 'encryption': None}

获取元数据

PyMuPDF完全支持标准元数据。Document.metadata是一个具有以下键的Python字典

它适用于所有文档类型,但并非所有条目都始终包含数据。元数据字段为字符串,如果未另行指示,则为无。还要注意的是,并非所有数据都始终包含有意义的数据——即使它们不是一个都没有。

获取目标大纲

toc = doc.get_toc()

页面(Page)

页面处理是MuPDF功能的核心。

• 您可以将页面呈现为光栅或矢量(SVG)图像,可以选择缩放、旋转、移动或剪切页面。

• 您可以提取多种格式的页面文本和图像,并搜索文本字符串。

• 对于PDF文档,可以使用更多的方法向页面添加文本或图像。

首先,必须创建一个页面Page。这是Document的一种方法:

page = doc.load_page(pno) # loads page number 'pno' of the document (0-based)
page = doc[pno] # the short form

这里可以使用任何整数-inf<pno<page_count。负数从末尾开始倒数,所以doc[-1]是最后一页,就像Python序列一样。

更高级的方法是将文档用作页面的迭代器:

for page in doc:
    # do something with 'page'
    
# ... or read backwards
for page in reversed(doc):
    # do something with 'page'
    
# ... or even use 'slicing'
for page in doc.pages(start, stop, step):
    # do something with 'page'

接下来,主要介绍Page的常用操作!

a.检查页面的链接、批注或表单字段

使用某些查看器软件显示文档时,链接显示为==“热点区域”==。如果您在光标显示手形符号时单击,您通常会被带到该热点区域中编码的标记。以下是如何获取所有链接:

# get all links on a page
links = page.get_links()

links是一个Python字典列表。

还可以作为迭代器使用:

for link in page.links():
    # do something with 'link'

如果处理PDF文档页面,还可能存在注释(Annot)或表单字段(Widget),每个字段都有自己的迭代器:

for annot in page.annots():
    # do something with 'annot'
    
for field in page.widgets():
    # do something with 'field'

b. 呈现页面

此示例创建页面内容的光栅图像:

pix = page.get_pixmap()

pix是一个Pixmap对象,它(在本例中)包含页面的RGB图像,可用于多种用途。

方法Page.get_pixmap()提供了许多用于控制图像的变体:分辨率、颜色空间(例如,生成灰度图像或具有减色方案的图像)、透明度、旋转、镜像、移位、剪切等。

例如:创建RGBA图像(即,包含alpha通道),指定pix=page.get_pixmap(alpha=True)

Pixmap包含以下引用的许多方法和属性。其中包括整数宽度高度(每个像素)和跨距(一个水平图像行的字节数)。属性示例表示表示图像数据的矩形字节区域(Python字节对象)。

还可以使用page.get_svg_image()创建页面的矢量图像。

c. 将页面图像保存到文件中

我们可以简单地将图像存储在PNG文件中:

pix.save("page-%i.png" % page.number)

d. 提取文本和图像

我们还可以以多种不同的形式和细节级别提取页面的所有文本、图像和其他信息:

text = page.get_text(opt)

opt使用以下字符串之一以获取不同的格式:

  • "text":(默认)带换行符的纯文本。无格式、无文字位置详细信息、无图像
  • "blocks":生成文本块(段落)的列表
  • "words":生成单词列表(不包含空格的字符串)
  • "html":创建页面的完整视觉版本,包括任何图像。这可以通过internet浏览器显示
  • "dict"/"json":与HTML相同的信息级别,但作为Python字典或resp.JSON字符串。
  • "rawdict"/"rawjson""dict"/"json"的超级集合。它还提供诸如XML之类的字符详细信息。
  • "xhtml":文本信息级别与文本版本相同,但包含图像。
  • "xml":不包含图像,但包含每个文本字符的完整位置和字体信息。使用XML模块进行解释。

e. 搜索文本

您可以找到某个文本字符串在页面上的确切位置:

areas = page.search_for("mupdf")

这将提供一个矩形列表,每个矩形都包含一个字符串“mupdf”(不区分大小写)。您可以使用此信息来突出显示这些区域(仅限PDF)或创建文档的交叉引用。

PDF操作

PDF是唯一可以使用PyMuPDF修改的文档类型。其他文件类型是只读的。

但是,您可以将任何文档(包括图像)转换为PDF,然后将所有PyMuPDF功能应用于转换结果,Document.convert_to_pdf()

Document.save()始终将PDF以其当前(可能已修改)状态存储在磁盘上。

通常,您可以选择是保存到新文件,还是仅将修改附加到现有文件(“增量保存”),这通常要快得多。

下面介绍如何操作PDF文档。

a. 修改、创建、重新排列和删除页面

有几种方法可以操作所谓页面树(描述所有页面的结构):

1.PDF:Document.delete_page()Document.delete_pages()删除页面

2.Document.copy_page()Document.fullcopy_page()Document.move_page()将页面复制或移动到同一文档中的其他位置。

3.Document.select()将PDF压缩到选定页面,参数是要保留的页码序列。这些整数都必须在0<=i<page_ count范围内。执行时,此列表中缺少的所有页面都将被删除。剩余的页面将按顺序出现,次数相同(!)正如您所指定的那样。

因此,您可以轻松地使用创建新的PDF:

保存的新文档将包含仍然有效的链接、注释和书签(i.a.w.指向所选页面或某些外部资源)。

  • 第一页或最后10页
  • 仅奇数页或偶数页(用于双面打印)
  • 包含或不包含给定文本的页
  • 颠倒页面顺序

4.Document.insert_page()Document.new_page()插入新页面。

此外,页面本身可以通过一系列方法进行修改(例如页面旋转、注释和链接维护、文本和图像插入)。

b. 连接和拆分PDF文档

方法Document.insert_pdf()在不同的pdf文档之间复制页面。下面是一个简单的joiner示例(doc1和doc2在PDF中打开):

# append complete doc2 to the end of doc1
doc1.insert_pdf(doc2)

下面是一个拆分doc1的片段。它将创建第一页和最后10页的新文档:

doc2 = fitz.open() # new empty PDF
doc2.insert_pdf(doc1, to_page = 9) # first 10 pages
doc2.insert_pdf(doc1, from_page = len(doc1) - 10) # last 10 pages
doc2.save("first-and-last-10.pdf")

c. 保存

Document.save()将始终以当前状态保存文档。

您可以通过指定选项incremental=True将更改写回原始PDF。这个过程(通常)非常快,因为更改会附加到原始文件,而不会完全重写它。

d. 关闭

在程序继续运行时,通常需要“关闭”文档以将底层文件的控制权交给操作系统

这可以通过Document.close()方法实现。除了关闭基础文件外,还将释放与文档关联的缓冲区。

到此这篇关于Python利用PyMuPDF实现PDF文件处理的文章就介绍到这了,更多相关Python处理PDF内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: Python利用PyMuPDF实现PDF文件处理

本文链接: https://www.lsjlt.com/news/117927.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python利用PyMuPDF实现PDF文件处理
    目录1、PyMuPDF简介介绍功能2、安装关于命名fitz的说明3、使用方法导入库,查看版本打开文档Document的方法和属性获取元数据获取目标大纲页面(Page)PDF操作1、P...
    99+
    2022-11-11
  • python怎么处理pdf文件
    使用python处理pdf文件的方法:1.新建python项目;2.导入pdfminer模块;3.使用open()函数打开pdf文件;4.通过创建pdf文档解析器对象处理pdf文件;具体步骤如下:首先,打开python,并新建一个pytho...
    99+
    2022-10-06
  • 如何利用java实现生成PDF文件
    目录1.PDF文件简介2.生成PDF2.1 基于freemarker框架实现HTML转PDF2.1.1 引入jar包依赖:2.1.2 创建html模板test_template:2....
    99+
    2022-11-13
    java生成pdf文档 java生成pdf文件表格 java生成pdf
  • Python实现自动化处理PDF文件的方法详解
    目录自动化处理PDF文件1. 批量合并PDF文件2. 批量拆分PDF文件3. 批量加密PDF文件4. 批量PDF添加水印完整代码自动化处理PDF文件 使用Python完成简单的PDF...
    99+
    2022-11-11
  • Java基于PDFbox实现读取处理PDF文件
    目录前言pdfbox介绍开发环境PDFbox依赖快速开始结语前言 嗨,大家好,2022年春节已经接近尾声,各地都陆陆续续开工了。近期有朋友做一个小项目正好使用Java读取PDF文件信...
    99+
    2022-11-13
  • 用python实现PDF解密打印文件
    目录前言:1.单个PDF文件转换2.多文件转换总结前言: 我们在打印一些 PDF 文件的时候可能会遇见加密不能打印的情况,需要提供密码才能打印。如果直接在浏览器中浏览 PDF 文件,...
    99+
    2022-11-13
  • C#利用itext实现PDF页面处理与切分
    目录一、itext二、处理PDF页面大小一致三、切分PDF一、itext 我要使用itext做一个pdf的页面大小一致性处理,然后再根据数据切分出需要的pdf. iText的官网有关...
    99+
    2022-11-13
  • 如何利用Python将html转为pdf、word文件
    目录前言转 pdf安装 pdfkit 库安装 wkhtmltopdf 文件url 生成 pdf本地 html 文件生成 pdf转 word安装 pypandoc 库安装 pandoc...
    99+
    2022-12-19
    python将html转pdf python将html转word python pdf处理
  • 怎么用python实现PDF解密打印文件
    这篇文章主要为大家展示了“怎么用python实现PDF解密打印文件”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“怎么用python实现PDF解密打印文件”这篇文章吧。前言:我们在打印一些 PDF...
    99+
    2023-06-29
  • Winform利用分页控件实现导出PDF文档功能
    目录1、PDF的导出插件2、导出PDF的逻辑处理当前的Winform分页控件中,当前导出的数据一般使用Excel来处理,Excel的文档可以用于后期的数据展示或者批量导入做准备,因此...
    99+
    2023-03-22
    Winform分页控件实现导出PDF Winform分页控件 Winform导出PDF
  • Python利用reportlab实现制作pdf报告
    目录前言reportlab是什么安装和导入库将画图、画表格、编辑文字抽象为类pdf插入图片以文件路径写入pdf以流文件写入pdfpdf分页以生成pdf流文件为例前言 本博客重点内容:...
    99+
    2022-12-23
    Python reportlab制作pdf Python 制作pdf Python reportlab pdf
  • 如何利用 Python 分布式框架实现高效文件处理?
    Python 是一种广泛使用的编程语言,它具有简单易学、可扩展性强、跨平台等优点。在大数据处理领域,Python 也有着广泛的应用。随着数据量的不断增大,传统的单机处理方式已经无法满足需求,分布式处理成为了必然选择。本文将介绍如何利用 Py...
    99+
    2023-10-14
    分布式 框架 文件
  • 怎么利用python实现windows的批处理及文件夹操作
    今天就跟大家聊聊有关怎么利用python实现windows的批处理及文件夹操作,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。1.批量处理所谓的批处理就是批量处理cmd里面的命令。py...
    99+
    2023-06-22
  • 如何利用python实现windows的批处理及文件夹操作
    目录1.批量处理2. 文件夹操作2.1 读取文件中的文件名2.2 创建文件夹2.3、获取某指定目录下的所有文件的列表2.4、将一个路径名分解为目录名和文件名两部分总结1.批量处理 所...
    99+
    2022-11-12
  • 使用python怎么实现文件处理
    本篇文章给大家分享的是有关使用python怎么实现文件处理,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。一、open()方法python open()方法用于打开一个...
    99+
    2023-06-15
  • Python批量实现Word、EXCLE、PPT转PDF文件
     一、绪论背景         在日常办公和文档处理中,有时我们需要将多个Word文档、Excel表格或PPT演示文稿转换为PDF文件。将文档转换为PDF格式的好处是它可以保留文档的布局和格式,并且可以在不同平台上进行方便的查看和共享。 ...
    99+
    2023-09-25
    win32com 办公自动化 批量实现
  • Vue怎么使用vue-pdf实现PDF文件预览
    这篇文章主要介绍了Vue怎么使用vue-pdf实现PDF文件预览的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇Vue怎么使用vue-pdf实现PDF文件预览文章都会有所收获,下面我们一起来看看吧。先看下效果&n...
    99+
    2023-07-05
  • Vue实现在线预览pdf文件功能(利用pdf.js/iframe/embed)
    前言 最近在做一个精品课程,需要在线预览课件ppt,我们的思路是将ppt转换为pdf在线预览,所以问题就是如何实现在线预览pdf了。 在实现的过程中,为了更好地显示效果,我采用了多...
    99+
    2022-11-12
  • Python怎么将pdf转为图片?Python如何实现pdf文件转图片
    而pdf则是用来保存一些内容已经确定好的数据,因为pdf是无法直接修改内容的,所以也会经常将pdf转为图片来保存。本文就将会来介绍一下pdf转图片的方法,往下看看吧。 1.pdf转图片的话主要实现所需要的模块叫做PyMuPDF,它就是用来...
    99+
    2023-09-02
    python Powered by 金山文档
  • Python利用pdfplumber实现读取PDF写入Excel
    目录一、Python操作PDF 13大库对比二、pdfplumber模块1.安装2. 加载PDF3. pdfplumber.PDF类4. pdfplumber.Page类三、实战操作...
    99+
    2022-11-13
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作