iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >一文教会你用Python读取PDF文件
  • 717
分享到

一文教会你用Python读取PDF文件

2024-04-02 19:04:59 717人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

目录实战场景python pdf 实战编码补充实战场景 Python 工程师在日常的工作中,经常会碰到解析和处理PDF文件的情况,实战中需求主要分为如下情况: 提取 PDF 中的文字

实战场景

Python 工程师在日常的工作中,经常会碰到解析和处理PDF文件的情况,实战中需求主要分为如下情况:

  • 提取 PDF 中的文字
  • 将 PDF 中每页转换为图片
  • Word 转换为PDF
  • PDF生成,编辑,导入导出
  • PDF在线渲染

除了最后一项需要前端配合以外,其余内容都可以直接在 python 端进行实现。

本次实战选择 pdfplumber 库进行学习,可以提前安装该库,不过有一点需要注意,该库主要用于读取 PDF 进行操作,写入和编辑无法实现,即本文学习一款专注于 PDF 内容提取的库。

> pip install pdfplumber -i https://pypi.tuna.tsinghua.edu.cn/simple

pdfplumber 库具备如下特点:

  • 可以访问PDF对象中的任意元素详细信息;
  • 可以提取文本和表格,而且用法简单;
  • 集成了可视化调试。

Python PDF 实战编码

下面可以编写 PDF 操作的基础代码。

import pdfplumber

with pdfplumber.open('./DDDd.pdf') as pdf:
    for page in pdf.pages:
        print(page.extract_text())

        # 每页打印一分页分隔
        print('---------- 分页分隔 ----------')

导入 pdfplumber 模块之后,使用 pdfplumber.open('./dddd.pdf') 打开本地 pdf 文件,然后通过 pdf.pages 遍历所有页,在通过页对象.extract_text() 方法,提取文本信息。

pdfplumber.open() 方法的签名如下所示:

pdfplumber.open("文件名", password = "密码", laparams = { "line_overlap": 0.7 })

其中各参数描述如下:

  • file_name:文件名,必选参数;
  • password:PDF的密码;
  • laparams:布局参数。

除此之外,如果希望读取 PDF,还可以使用 load() 方法,该方法也会返回 pdfplumber.PDF 类的实例。

pdfplumber.PDF 对象实例,主要有两个重要属性:

  • .metadata:从PDF的Info中获取元数据键 /值对字典。 通常包括“ CreationDate”,“ ModDate”,“ Producer”等;
  • .pages:包含 pdfplumber.Page 实例的列表,每一个实例代表PDF每一页的信息。

上文提及的 pdfplumber.Page 实例是 pdfplumber 的核心,后续对 PDF 的操作大量围绕该类的属性和方法实施,其重要属性如下所示:

  • page_number:页码顺序,第一页的序号是 1;
  • witdh:宽度;
  • height:高度;
  • .objects/.chars/.lines/.rects/.curves/.figures/.images:获取PDF页中的重要数据。

核心方法如下所示:

  • extract_text():提取页中的文本;
  • extract_words():提取所有单词及其相关信息;
  • extract_tables(): 提取页面的表格。

extract_text() 呈现结果

extract_words() 呈现结果

extract_tables() 呈现效果,由于 PDF 中无表格,所有每页得到的都是空!

补充

当然Python除了读取PDF文件,还有一些其他功能,例如加密PDF,旋转和叠加页面等,下面是实现的示例代码

旋转和叠加页面

import PyPDF2

from PyPDF2.pdf import PageObject

# 创建一个读PDF文件的Reader对象

reader = PyPDF2.PdfFileReader('resources/XGBoost.pdf')

# 创建一个写PDF文件的Writer对象

writer = PyPDF2.PdfFileWriter()

# 对PDF文件所有页进行循环遍历

for page_num in range(reader.numPages):

      # 获取指定页码的Page对象

      current_page = reader.getPage(page_num) # type: PageObject

      if page_num % 2 == 0:

         # 奇数页顺时针旋转90度

         current_page.rotateClockwise(90)

      else:

# 偶数页反时针旋转90度

             current_page.rotateCounterClockwise(90)

      writer.addPage(current_page)

# 最后添加一个空白页并旋转90度

page = writer.addBlankPage() # type: PageObject

page.rotateClockwise(90)

# 通过Writer对象的write方法将PDF写入文件

with open('resources/XGBoost-modified.pdf', 'wb') as file:

    writer.write(file)

加密PDF文件

import PyPDF2

reader = PyPDF2.PdfFileReader('resources/XGBoost.pdf')
writer = PyPDF2.PdfFileWriter()

for page_num in range(reader.numPages):
     writer.addPage(reader.getPage(page_num))

# 通过encrypt方法加密PDF文件,方法的参数就是rre

#设置的密码
writer.encrypt('foobared')

with open('resources/XGBoost-encrypted.pdf', 'wb') as file:

       writer.write(file)

批量添加水印

import PyPDF2

from PyPDF2.pdf import PageObject

reader1 = PyPDF2.PdfFileReader('resources/XGBoost.pdf') reader2 = PyPDF2.PdfFileReader('resources/watermark.pdf')
writer = PyPDF2.PdfFileWriter()

# 获取水印页
watermark_page = reader2.getPage(0)

for page_num in range(reader1.numPages):

     current_page = reader1.getPage(page_num) # type: PageObject                                           current_page.mergePage(watermark_page)

     # 将原始页和水印页进行合并
     writer.addPage(current_page) 

# 将PDF写入文件
with open('resources/XGBoost-watermarked.pdf', 'wb') as file:

       writer.write(file)

到此这篇关于一文教会你用Python读取PDF文件的文章就介绍到这了,更多相关Python读取PDF文件内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: 一文教会你用Python读取PDF文件

本文链接: https://www.lsjlt.com/news/119937.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 一文教会你用Python读取PDF文件
    目录实战场景Python PDF 实战编码补充实战场景 Python 工程师在日常的工作中,经常会碰到解析和处理PDF文件的情况,实战中需求主要分为如下情况: 提取 PDF 中的文字...
    99+
    2024-04-02
  • 一步步教你如何用Python读取CSV文件
    要读取一个csv文件,可以使用python的csv库,具体步骤如下:导入csv库。使用open()函数打开csv文件。使用csv.reader()函数读取文件内容并解析成一个reader...
    99+
    2024-04-04
    python csv文件读取 csv文件
  • 教你用Python按顺序读取文件夹中文件
    我们有时候会读取一个文件夹中的所有的文件。但是,os.listdir()返回的文件名不一定是顺序的,这就要求我们对返回的文件名列表进行排序:  这时我们想到利用Epoc...
    99+
    2024-04-02
  • python3读取pdf文件
    一.安装pdfminer3k模块二.读取pdf文件import sys import importlib importlib.reload(sys) from pdfminer.pdfparser import PDFParser, P...
    99+
    2023-01-31
    文件 pdf
  • python读取pdf文档
    # -*- coding: utf-8 -*- #读取pdf文档 from pdfminer.pdfparser import PDFParser,PDFDocument from pdfminer.pdfinterp impo...
    99+
    2023-01-31
    文档 python pdf
  • 教你如何使用 JavaScript 读取文件
    目录使用 JavaScript 读取文件概述选择带有输入元素的文件处理输入元素的变化事件从输入元素的 files 属性中获取一个 File 对象使用 FileReader 读取 Fi...
    99+
    2024-04-02
  • 教你用Python读取CSV文件的5种方式
    目录第一招:简单的读取第二招:用nametuple第三招:用tuple类型转换第四招:用DictReader第五招:用字典转换在python里面,读取或写入csv文件时,首先要imp...
    99+
    2024-04-02
  • 一文教会你用Python获取网页指定内容
    目录前言1.抓取网页源代码2.抓取一个网页源代码中的某标签内容3.抓取多个网页子标签的内容总结前言 Python用做数据处理还是相当不错的,如果你想要做爬虫,Python是很好的选择...
    99+
    2024-04-02
  • Unity3D读取PDF文件内容
    最近在研究Unity3D中读取PDF的内容,预想了三种方案,一是用Java来实现,二是调用C#的iTextSharp库或者PDFBox库来实现,三是下载PDF Renderer插件(土豪可以买这个插件,支持的系统也比较全面),java不是很...
    99+
    2023-01-31
    文件 内容 Unity3D
  • python读取pdf文档-实战
    # -*- coding: utf-8 -*- #读取pdf文档 from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LAPar...
    99+
    2023-01-31
    实战 文档 python
  • 一文教会你用python裁剪图片
    目录如何使用python裁剪图片一、 安装PIL库二、构建思路三、完整代码总结如何使用python裁剪图片 如上图所示,这是一张包含了各类象棋棋子的图片。我们需要将其中每一个棋子都...
    99+
    2024-04-02
  • Python - 读取pdf、word、excel、ppt、csv、txt文件提取所有文本
    前言 本文对使用python读取pdf、word、excel、ppt、csv、txt等常用文件,并提取所有文本的方法进行分享和使用总结。 可以读取不同文件的库和方法当然不止下面分享的这些,本文的代码主...
    99+
    2023-08-31
    python pdf word excel ppt csv
  • PHP 读取PDF文件内容之PdfParser
    composer require smalot/pdfparser  1.一次性读取文件中的所有内容: ...
    99+
    2023-09-02
    php pdf 开发语言
  • python如何读取pdf格式文档
    这篇文章给大家分享的是有关python如何读取pdf格式文档的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。python读取pdf文档一、 准备工作安装对应的库pip install pdfmi...
    99+
    2023-06-14
  • 第一课:Python读取.csv文件
    我的是Python3.6版本的,可能有些和Python2.7很多不一样的地方。 下面用Python打开一个test1.csv文件,可以看到运行的结果在下面。 ...
    99+
    2023-01-31
    一课 文件 Python
  • 十分钟教会你用Python处理CSV文件
    目录前言Python库:csv读取csv文件使用csv.reader读取数据使用csv.DictReader读取数据写入csv文件使用csv.writer写入数据使用csv.Dict...
    99+
    2024-04-02
  • Python文件读取技巧:读取.py文件步骤
    在 python 中读取 .py 文件可以通过两种方法:使用 open() 函数以只读模式打开文件并使用 read() 方法读取内容。使用 pathlib 模块的 path() 对象和 ...
    99+
    2024-04-04
    python 读取.py文件
  • 一文教会你用Docker打包Python运行环境
    目录前言1. Docker基础1.1 Docker架构1.2 Docker对象2. 启动Docker进程并运行镜像2.1 启动Docker守护进程2.2 运行镜像3. 用Docker...
    99+
    2024-04-02
  • 一文教会你使用Python批量缩放图片
    目录导读实际演示阶段详细介绍该库总结导读 为了解决图片被改变大小后,比例保持不变(这样就不会变形了) 图片需要压缩,避免填图后的word文件太大通过Image模块中的resize函数...
    99+
    2024-04-02
  • python读取table文件
    有个table文件, 有时候需要处理header , 可以用linecache 模块#!/usr/bin/env python # -*- coding: ascii -*- import linecache import fileinpu...
    99+
    2023-01-31
    文件 python table
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作