首页 > 资讯 > 后端开发 > Python >通过Python的fitz库提取pdf中的图片

616

分享到

通过Python的fitz库提取pdf中的图片

python pdf 开发语言 2023-08-31 05:08:21 616人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

文章目录前言一、fitz库是什么？二、安装fitz库三、查看fitz库版本四、pymupdf库是什么？五、安装pymupdf库六、查看pymupdf库版本七、fitz和pymupdf是什么关

文章目录

前言
一、fitz库是什么？
二、安装fitz库
三、查看fitz库版本
四、pymupdf库是什么？
五、安装pymupdf库
六、查看pymupdf库版本
七、fitz和pymupdf是什么关系？
八、提取pdf中的图片
总结
- pdf
- 提取图片效果

前言

大家好，我是空空star，本篇给大家分享一下《通过python的fitz库提取pdf中的图片》。

一、fitz库是什么？

Fitz库是一个Python图像处理库，主要用于打开、编辑和保存PDF、TIFF和JPEG格式的图像。它可以帮助用户读取和写入PDF文件，提取PDF页面以及在页面上进行标记和注释。此外，Fitz库还提供了一些图像处理功能，如旋转、裁剪、缩放、调整亮度、对比度和色彩平衡等。这些功能使得Fitz库成为一个非常实用的图像处理工具。

二、安装fitz库

pip install fitz

三、查看fitz库版本

pip show fitz

Name: fitz
Version: 0.0.1.dev2
Summary: Fitz: Workflow Mangement for neuroimaging data.
Home-page: Http://GitHub.com/kastman/fitz
Author: Erik Kastman
Author-email: erik.kastman@gmail.com
License: BSD (3-clause)
Requires: confiGobj, configparser, httplib2, nibabel, nipype, numpy, pandas, pyxnat, scipy
Required-by:

四、pymupdf库是什么？

使用fitz，需要安装pymupdf库。

PyMuPDF 是一个基于 Python 的开源 PDF 处理库，提供了一系列的 PDF 文档处理功能，如读取、编辑、创建、转换等。它是 MuPDF 的 Python 绑定，MuPDF 是一款轻量级的开源 PDF 文档渲染引擎，支持多种平台和多种文件格式。
PyMuPDF 具有快速、高效、简单易用等特点，可以用于 PDF 文档的自动化处理和批量处理，比如提取文本、提取图片、添加或修改书签、添加或修改注释、合并 PDF 文件、切割 PDF 文件、提取 PDF 页面等。同时，它还支持 PDF 渲染成图片，方便快速预览和生成缩略图。
总之，PyMuPDF 是一个非常实用的 Python PDF 处理库，适用于多种场景，如数据处理、文档处理、自动化办公等。

五、安装pymupdf库

pip install pymupdf

六、查看pymupdf库版本

pip show pymupdf

Name: PyMuPDF
Version: 1.22.3
Summary: Python bindings for the PDF toolkit and renderer MuPDF
Home-page: https://github.com/pymupdf/PyMuPDF
Author: Artifex
Author-email: support@artifex.com
License: GNU AFFERO GPL 3.0
Requires:
Required-by:

七、fitz和pymupdf是什么关系？

fitz 是 Pymupdf 库的一个模块，它是 Pymupdf 的主要模块之一，也是最常用的模块。fitz 模块提供了对 PDF 文档的基本操作，如打开、读取、编辑、保存等。

八、提取pdf中的图片

1.引入库

import fitz

2.定义pdf路径

local = '/Users/kkstar/Downloads/'

3.打开PDF文件

pdf_doc = fitz.open(local+'demo_pic.pdf')

4.遍历所有页面

for pg in range(pdf_doc.page_count):    page = pdf_doc[pg]

5.获取页面上所有图像

    image_list = page.get_images()

6.遍历所有图像

    for img in image_list:

7.获取图像的XREF编号和图像数据

        xref = img[0]        pix = fitz.Pixmap(pdf_doc, xref)

8.如果图像是RGB颜色空间，则保存为PNG文件

        if str(fitz.csRGB) == str(pix.colorspace):            img_path = local + f'image{pg+1}_{xref}.png'            pix.save(img_path)

总结

pdf

提取图片效果

来源地址：https://blog.csdn.net/weixin_38093452/article/details/130950144

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 通过Python的fitz库提取pdf中的图片

本文链接: https://www.lsjlt.com/news/384249.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

通过Python的fitz库提取pdf中的图片

文章目录前言一、fitz库是什么？二、安装fitz库三、查看fitz库版本四、pymupdf库是什么？五、安装pymupdf库六、查看pymupdf库版本七、fitz和pymupdf是什么关...

99+

2023-08-31

python pdf 开发语言
通过Python的PyPDF2库提取pdf中的文字

文章目录前言一、PyPDF2库是什么？二、安装PyPDF2库三、查看PyPDF2库版本四、使用方法1.引入库2.定义pdf路径3.打开PDF文件4.创建PDF阅读器对象5.获取PDF文件中的...

99+

2023-09-10

pdf 人工智能开发语言 python
通过Python的pdfplumber库提取pdf中表格数据

文章目录前言一、pdfplumber库是什么？二、安装pdfplumber库三、查看pdfplumber库版本四、提取pdf中表格数据1.引入库2.定义pdf文件路径3.打开pdf文件4.获...

99+

2023-09-05

python pdf 开发语言
Python提取PDF中的图片的实现示例

目录1.导入相关库2.具体实现2.1.使用正则表达式查找PDF中的图片2.2.打印PDF的相关信息2.3.遍历PDF中的对象，遇到是图像才进行下一步，不然就continue2.4.将...

99+

2024-04-02
通过Python的pytesseract库识别图片中的文字

文章目录前言一、pytesseract1.pytesseract是什么？2.安装pytesseract3.查看pytesseract版本4.安装PIL5.查看PIL版本二、Tesser...

99+

2023-09-12

python 人工智能计算机视觉图像处理
Python通过pytesseract库实现识别图片中的文字

目录前言一、pytesseract1.pytesseract是什么2.安装pytesseract3.查看pytesseract版本4.安装PIL5.查看PIL版本二、Tesserac...

99+

2023-05-19

Python pytesseract识别图片中文字 Python pytesseract识别文字 Python pytesseract
python怎么提取图片中的文字

要提取图片中的文字，可以使用Python的第三方库tesseract-ocr。Tesseract是一个开源的OCR引擎，可以识别多种...

99+

2023-08-12

python
python提取word文件中的所有图片

前言办公中，偶尔会碰到一种情况，需要提取word文档中的图片，决定写这样一款工具自动提取图片。关于脚本的使用：情景1：如果你拿到的是一个文件夹，所有的word文件都在这个文件夹...

99+

2024-04-02
Python提取Word中图片的实现步骤

目录1.思路2.具体实现2.1导入相关库2.2定义函数2.3重命名word文件，将后缀名docx改为zip2.4zip还原为docx文件，并获得图片的列表2.5将图片复制到需要保存的...

99+

2024-04-02
通过Python的PIL库给图片添加文本水印

文章目录前言一、PIL是什么？二、安装PIL三、查看PIL版本四、使用PIL库给图片添加文本水印1.引入库2.打开图片文件3.新建一个Draw对象4.设置水印文字、字体、大小5.设置水印颜色...

99+

2023-10-25

图像处理人工智能 python
【Python • 图片识别】pytesseract快速识别提取图片中的文字

提示：本文多图，请手机端注意流量。文章目录前言一、配置环境1. 安装python依赖2. 安装识别引擎安装tesseract识别引擎`（可跳过）`验证是否安装成功二、使...

99+

2023-09-10

python 开发语言
通过Python的filestools库给图片添加全图水印的示例详解

目录前言一、filestools库简介二、安装filestools三、查看filestools版本四、图片添加全图水印1.引入库2.添加水印五、参数调整对比1.水印颜色1.1通过名称...

99+

2023-05-17

Python添加全图水印 Python的filestools库
一步步教你用Python提取PPT中的图片

目录一、前言二、实现原理三、提取PPT中的图片1、打开压缩包2、解压文件四、提取PPT中的图片附：python提取PPT中的文字（包括图片中的文字）总结一、前言今天要带大家实现的是...

99+

2023-01-17

提取ppt里面的图片 python处理ppt python提取ppt图片
python利用pytesseract快速识别提取图片中的文字((图片识别)

目录前言一、配置环境1. 安装python依赖2. 安装识别引擎二、使用步骤1.引入库2.提取图片文字3.运行效果总结提示：本文多图，请手机端注意流量。前言利用python做图...

99+

2022-11-13

python pytesseract识别图片文字 python pytesseract提取图片文字 python pytesseract图片中文字
用Python提取PDF表格的方法

目录一、简单文本类型数据二、复杂型表格提取三、图片型表格提取大家好，从PDF中提取信息是办公场景中经常需要用到的操作，也是经常又读者在后台问的一个操作。内容少的话我们可以手动复制粘...

99+

2024-04-02
教你使用Python提取视频中的美女图片

目录前言安装模块you-getOpenCV结束前言人类都是视觉动物，不管是男生还是女生看到漂亮的小姐姐、小哥哥就想截图保存下来。可是截图会对画质会产生损耗，截取的画面不规整，像素...

99+

2024-04-02
php获取pdf中的图片不显示如何解决

这篇文章主要介绍“php获取pdf中的图片不显示如何解决”，在日常操作中，相信很多人在php获取pdf中的图片不显示如何解决问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”php获取pdf中的图片不显示如何解决...

99+

2023-07-06
php获取pdf中的图片不显示怎么解决

在使用 PHP 从 PDF 文件中提取图像时，有时会遇到一些图片无法正确显示的问题。这通常是由于一些常见的错误和问题导致的。本文将介绍如何解决这些问题以及如何正确地使用 PHP 获取 PDF 中的图像，确保图像正确地显示且质量良好。一、检查...

99+

2023-05-14
Python--从PDF中提取文本的方法总结

目录前言一、pdfplumber 二、pdfminer 三、fitz / pymupdf 四、性能对比前言这段时间做了好几个关于年报的需求，其中无一例外需要从年报PDF中提取文本再进行下一步的操作。为了提高效率，对...

99+

2023-09-03

python pdf 自动化
怎么用Python批量提取PDF中的信息

要使用Python批量提取PDF中的信息，可以使用Python的一个库叫做PyPDF2。下面是一个简单的例子，可以帮助你开始提取PD...

99+

2024-02-29

Python