iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >9行Python3代码实现批量提取PDF文件的指定内容
  • 328
分享到

9行Python3代码实现批量提取PDF文件的指定内容

Python提取PDF指定内容Python提取PDF内容Python提取指定内容 2022-12-09 09:12:25 328人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

目录1、引言2、代码实战2.1 介绍2.2 安装2.3 实例3、总结1、引言 小丝:鱼哥, 你有没有什么办法,提取pdf文档的内容。 小鱼:这个还问我?? 小丝:哎呀,这个不是被难住

1、引言

小丝:鱼哥, 你有没有什么办法,提取pdf文档的内容。

小鱼:这个还问我??

小丝:哎呀,这个不是被难住了嘛 。

小鱼:有啥难得?提示你一下,

小丝:嗯,可以可以。

小鱼:去我的博文找,没记错的话,有两种方法提取pdf的文字。

小丝:好嘞, 我这就去…找找…

小丝:鱼哥,鱼哥~

小鱼:怎么样,你的这个需求,解决了吧。

小丝:没呢,我想批量提取指定PDF文档的内容…

小鱼:批…量…

小丝:对啊,是批量,

小鱼:这…还挺…

小丝:挺费劲吗?

小鱼:挺好的 ,不费劲, 一口气,上7楼…

小丝:打住… 说正事! !

小鱼:好嘞…

想到提取PDF文件的内容,我们第一反应就是pypdf,

因为pypdf这个库我在很多篇文章都介绍过, 还蛮好用的。

但是,今天,我们不使用pypdf,而是使用另一个库,即:pdfminer。

2、代码实战

2.1 介绍

pdfminer我相信很多同学都没听说过,除非,你经常提取/解析PDF文件的内容,否则,你对ta,只能是陌生。

其实,提取PDF文件内容解决方案,截止到现在, 只有pypdf 和pdfminer这两种。
所以, 如果你厌倦了, pypdf,那只能选择pdfminer了。

那什么是pdfminer 呢,或者 pdfminer有什么神奇之处呢?

定义

PDFMiner是用于从PDF文档提取信息的工具

与其他PDF相关工具不同,它完全专注于获取和分析文本数据;

功能

PDFMiner允许获取页面中文本的确切位置以及其他信息,例如字体或线条;

它包括一个PDF转换器,可以将PDF文件转换为其他文本格式(例如html);

2.2 安装

由于pdfminer是python 的第三方库, 所以,需要安装,

老规矩, 直接pip 安装

安装

pip install pdfminer

安装完成:

因为我们需要用到 pdfminer的high_level 方法,所以

这里必须要在安装pdfminer.six模块,否则会报错:

安装

pip install pdfminer.six

安装完成:

其它安装方式,直接看这两篇:

python3,选择Python自动安装第三方库,从此跟pip说拜拜!!》

《Python3:我低调的只用一行代码,就导入Python所有库!》

2.3 实例

安装完成,我们就来写上代码,

我们先来捋顺一下思路,主要分3步:

1、遍历pdf文件

注:如果文件夹的文件多个,需要单独提取目标pdf文件,否则都会轮巡匹配,费事费力费资源;

2、提取pdf文档内容

3、根据正则匹配,提取需要的文档信息

我们就根据这个思路,来提取"企业基本情况",代码如下:

代码示例

# -*- coding:utf-8 -*-
# @Time   : 2022-11-30
# @Author : Carl_DJ


from pdfminer import high_level
import re,os

#pdf文件路径
#root:文件夹路径,dirs:文件夹下子目录名,files:文件夹下的文件
for root,dirs,files in os.walk('./data/'):
    #遍历pdf文件
    for f in files:
        file_name = os.path.join(root,f)
        if file_name.endswith('.pdf'):
            #提取整个 pdf 文本信息
            text = high_level.extract_text(file_name)
            #提取 pdf文档中 "企业进本情况:" 后面的信息,利用正则进行匹配
            regex = r'企业基本情况-(.*?)\n'
            qy_base = re.findall(regex,text)
            print(f'输出信息:{qy_base}')

pdf文件

运行结果

3、总结

看到这里,今天的分享,差不多就该结束了。

解析PDF是一件非常耗时和耗内存的工作,因此,pdfminer使用一种称作Lazy Parsing的策略,减少内耗…

小丝:怪不得, 提到批量提取pdf的文档内容, 你会犹豫了…

小鱼:对啊,因为我们的的测试文档内容很少,所以对内存的消耗相对来说没那么验证,当PDF文档的内容很多时, 就不得不使用pdfminer了。

到此这篇关于9行Python3代码实现批量提取PDF文件的指定内容的文章就介绍到这了,更多相关Python提取PDF指定内容内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: 9行Python3代码实现批量提取PDF文件的指定内容

本文链接: https://www.lsjlt.com/news/174616.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 9行Python3代码实现批量提取PDF文件的指定内容
    目录1、引言2、代码实战2.1 介绍2.2 安装2.3 实例3、总结1、引言 小丝:鱼哥, 你有没有什么办法,提取PDF文档的内容。 小鱼:这个还问我?? 小丝:哎呀,这个不是被难住...
    99+
    2022-12-09
    Python提取PDF指定内容 Python提取PDF内容 Python 提取指定内容
  • Python提取PDF指定内容并生成新文件
    在之前的Python办公自动化案专题中,我们已经介绍了如何有选择的提取某些页面进行合并。 但是很多时候,我们并不会预知希望提取的页号,而是希望将包含指定内容的页面提取合并为新PDF,...
    99+
    2024-04-02
  • Java实战:高效提取PDF文件指定坐标的文本内容
    前言 临时接到一个紧急需要处理的事项。业务侧一个同事有几千个PDF文件需要整理:需要从文件中的指定位置获取对应的编号和地址。 要的急,工作量大。所以就问到技术部有没有好的解决方案。 问技术的话就只能...
    99+
    2023-10-12
    java pdf 批量PDF文本提取 pdfbox
  • Python如何提取PDF指定内容并生成新文件
    小编给大家分享一下Python如何提取PDF指定内容并生成新文件,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!01需求描述数据是一份有286页的上市公司公开年报P...
    99+
    2023-06-15
  • python实现批量提取指定文件夹下同类型文件
    本文通过实例为大家分享了python实现批量提取指定文件夹下同类型文件,供大家参考,具体内容如下 代码 import os import shutil def take_sa...
    99+
    2024-04-02
  • excel批量提取指定内容的步骤是什么
    批量提取指定内容的步骤如下:1. 打开Excel文件,选择包含要提取内容的工作表。2. 确定要提取的内容的位置。这可以是一个单元格、...
    99+
    2023-09-11
    excel
  • Python实现将Excel内容批量导出为PDF文件
    目录序言实现代码序言 上一篇咱们实现了多个表格数据合并到一个表格,本次咱们来学习如何将表格数据分开导出为PDF文件。 部分数据 然后需要安装一下这个软件 wkhtmltopdf 不...
    99+
    2024-04-02
  • 十行Python3代码实现去除pdf文件水印
    目录1、引言2、代码实战2.1 去除原理2.2 代码解析2.3 代码整合3、总结1、引言 小屌丝:鱼哥,最近有点不像话了。 小鱼:嗯?? 啥个意思嘛~ 小屌丝:一周了,没分享小知识了...
    99+
    2024-04-02
  • Python批量爬虫下载PDF文件代码实现
    本文的背景是:大学关系很好的老师问我能不能把Excel中1000个超链接网址对应的pdf文档下载下来。虽然可以手动一个一个点击下载,但是这样太费人力和时间了。我想起了之前的爬虫经验,给老师分析了一下可...
    99+
    2023-09-27
    python 爬虫 pdf
  • Python怎么实现将Excel内容批量导出为PDF文件
    本篇内容介绍了“Python怎么实现将Excel内容批量导出为PDF文件”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!序言部分数据然后需要安...
    99+
    2023-06-30
  • 如何使用hadoop来提取文件中的指定内容
    这篇文章将为大家详细讲解有关如何使用hadoop来提取文件中的指定内容,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。一、需求把以下txt中含“baidu”字符串的链接输出到一个文件,否则输出到另外一个文件...
    99+
    2023-06-15
  • Python批量删除txt文本指定行的思路与代码
    目录思路:代码:总结本文解决问题:批量删除多行txt文本中的内容。 思路: 1.找出需要删除行的 id(就是需要删除那些行,把这是第几行给记录下来。) 2.将原文本内容不需要删除的行...
    99+
    2023-02-07
    Python批量删除指定行 python删除指定行 python如何删除文件中的某一行
  • python实现选取或删除指定列包含指定内容的行
    目录选取或删除指定列包含指定内容的行选取所有货币代号为1的行选取所有货币代号列内容为1的数据选取所有货币代号列内容不为1的数据删除含有特定数值的行选取或删除指定列包含指定内容的行 选...
    99+
    2024-04-02
  • 教你怎么使用hadoop来提取文件中的指定内容
    目录一、需求二、步骤三、结果一、需求 把以下txt中含“baidu”字符串的链接输出到一个文件,否则输出到另外一个文件。 二、步骤 1.LogMapper.java pa...
    99+
    2024-04-02
  • Python实现批量文件整理的示例代码
    目录引言 一、准备工作二、制作 excel 的文件清单三、文件的批量重命名四、文件的批量删除引言  批量文件整理一直是日常工作中令人头疼的事,使用 Python 进行大批量文件整理,...
    99+
    2024-04-02
  • 使用bat脚本怎么批量提取指定目录下的文件名
    使用bat脚本怎么批量提取指定目录下的文件名?相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。核心代码@echo offecho text input...
    99+
    2023-06-08
  • 如何使用批处理实现一行内容分行输出的代码
    小编给大家分享一下如何使用批处理实现一行内容分行输出的代码,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!a.txt: aA1一bB2二cC3三dD4四eE5五fF...
    99+
    2023-06-08
  • 用bat实现定时执行任务的批处理文件代码分享
    这篇文章主要讲解了“用bat实现定时执行任务的批处理文件代码分享”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“用bat实现定时执行任务的批处理文件代码分享”吧!@echo off&...
    99+
    2023-06-09
  • Go实现替换(覆盖)文件某一行内容的示例代码
    目录1、前言2、实现覆盖某一行文件内容的思路3、实现覆盖某一行内容的代码示例4、扩展1、前言 有这样一个需求,我们查找到文件中带有某个关键词的一行内容后,对该行内容进行替换,替换成我...
    99+
    2024-04-02
  • Python实现批量文件分类保存的示例代码
    目录序言代码展示效果展示序言 当我们电脑里面的文本或者或者文件夹太多了,有时候想找到自己想要的文件,只能通过去搜索文件名,要是名字忘记了的话,那你也搜不了吧,当然你可通过后缀名去搜索...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作