广告
返回顶部
首页 > 资讯 > 后端开发 > Python >python3读取pdf文件
  • 417
分享到

python3读取pdf文件

文件pdf 2023-01-31 02:01:09 417人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

一.安装pdfminer3k模块二.读取pdf文件import sys import importlib importlib.reload(sys) from pdfminer.pdfparser import PDFParser, P

一.安装pdfminer3k模块

二.读取pdf文件

import sys
import importlib
importlib.reload(sys)

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal, LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

def readPDF(path, toPath):
    # 以二进制形式打开pdf文件
    with open(path, "rb") as f:
        # 创建一个pdf文档分析器
        parser = PDFParser(f)
        # 创建pdf文档
        pdfFile = PDFDocument()
        # 链接分析器与文档对象
        parser.set_document(pdfFile)
        pdfFile.set_parser(parser)
        # 提供初始化密码
        pdfFile.initialize()
        # 检测文档是否提供txt转换
    if not pdfFile.is_extractable:
        raise PDFTextExtractionNotAllowed
    else:
        # 解析数据
        # 数据管理
        manager = PDFResourceManager()
        # 创建一个PDF设备对象
        laparams = LAParams()
        device = PDFPageAggregator(manager, laparams=laparams)
        # 解释器对象
        interpreter = PDFPageInterpreter(manager, device)

        # 开始循环处理,每次处理一页
        for page in pdfFile.get_pages():
            interpreter.process_page(page)
            layout = device.get_result()
            for x in layout:
                if(isinstance(x, LTTextBoxHorizontal)):
                    with open(toPath, "a") as f:
                        str = x.get_text()
                        # print(str)
                        f.write(str+"\n")

path = r"G:\program\PyCharmProjects\day06\3.读取pdf文件\文档.pdf"
toPath = r"G:\program\PycharmProjects\day06\3.读取pdf文件\a.txt"
readPDF(path, toPath)



--结束END--

本文标题: python3读取pdf文件

本文链接: https://www.lsjlt.com/news/185710.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • python3读取pdf文件
    一.安装pdfminer3k模块二.读取pdf文件import sys import importlib importlib.reload(sys) from pdfminer.pdfparser import PDFParser, P...
    99+
    2023-01-31
    文件 pdf
  • Unity3D读取PDF文件内容
    最近在研究Unity3D中读取PDF的内容,预想了三种方案,一是用Java来实现,二是调用C#的iTextSharp库或者PDFBox库来实现,三是下载PDF Renderer插件(土豪可以买这个插件,支持的系统也比较全面),java不是很...
    99+
    2023-01-31
    文件 内容 Unity3D
  • Python3 读取 ini 配置文件(
    【背景】  Windows 的记事本会给 UTF-8 文件添加 BOM 头,很烦,搞个通用的读取配置文件的代码。可能报这种错误:configparser.MissingSectionHeaderError: File contains no...
    99+
    2023-01-31
    配置文件 ini
  • Python3 读取 toml 配置文件
    【吐槽】    先吐槽一下其他几个配置文件。ini:表达能力不够,比如不能表达列表等结构;没有官方注释符号,虽然一般以分号作为注释符号。json:没有官方注释符号,虽然某些第三方包提供了注释结构。yaml:语法比较复杂,可读性不太高。【to...
    99+
    2023-01-31
    配置文件 toml
  • python读取pdf文档
    # -*- coding: utf-8 -*- #读取pdf文档 from pdfminer.pdfparser import PDFParser,PDFDocument from pdfminer.pdfinterp impo...
    99+
    2023-01-31
    文档 python pdf
  • PHP 读取PDF文件内容之PdfParser
    composer require smalot/pdfparser  1.一次性读取文件中的所有内容: ...
    99+
    2023-09-02
    php pdf 开发语言
  • 一文教会你用Python读取PDF文件
    目录实战场景Python PDF 实战编码补充实战场景 Python 工程师在日常的工作中,经常会碰到解析和处理PDF文件的情况,实战中需求主要分为如下情况: 提取 PDF 中的文字...
    99+
    2022-11-11
  • python3 如何读取python2的npy文件
    python3读取python2打包的npy文件会报错,原因是编码方式不同,所以只要在读取的时候加上编码方式即可。 解决方法 docs_train = np.load('./da...
    99+
    2022-11-12
  • Python3读取文件的操作详解
    目录1、引言2、 fileinput2.1 方法介绍2.2 默认读取2.3 处理一个文件2.4 处理批量文件2.5 读取与备份2.5 重定向替换2.6 进阶3、总结1、引言 小鱼:小...
    99+
    2022-11-11
  • pdf/word/ppt/... 文件读取插件 - 输入步骤
    最近需要做一个 Common File Reader 的 kettle 插件,希望这个插件可以读取例如 PDF, WORD, PPT, WPS 等常见格式文件的内容,今天已经实现了第一步,读取 PDF 的功能。该插件是一个输入步骤, 它可以...
    99+
    2023-06-03
  • python3 文件的读取和通用操作
    import os           # 当前操作目录,os.chdir() 切换操作目录 >>> import os >>> os.getcwd() 'C:\\ProgramFiles\\Pyth...
    99+
    2023-01-31
    操作 文件
  • delphi pdf文件读取的方法是什么
    在Delphi中,可以使用以下方法来读取PDF文件: 使用Adobe Acrobat SDK:首先,需要下载和安装Adobe Ac...
    99+
    2023-10-30
    delphi
  • python读取pdf文档-实战
    # -*- coding: utf-8 -*- #读取pdf文档 from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LAPar...
    99+
    2023-01-31
    实战 文档 python
  • Python3 读写文件
    读文件 打开一个文件用open()方法(open()返回一个文件对象): >>> f = open(filename, mode,buffering) #buffering寄存,具体自行搜索 mode:决定了打开文...
    99+
    2023-01-30
    文件
  • Java读写pdf文件
    Java读写pdf文件 在OA业务开发中,经常需要java后台读取或生成pdf文件,itextpdf是一个常用的java操作pdf的开源库 物料准备: 1.引入itextpdf依赖 2.定义Text2...
    99+
    2023-09-02
    java pdf 开发语言 itextpdf itext-asian
  • Python - 读取pdf、word、excel、ppt、csv、txt文件提取所有文本
    前言 本文对使用python读取pdf、word、excel、ppt、csv、txt等常用文件,并提取所有文本的方法进行分享和使用总结。 可以读取不同文件的库和方法当然不止下面分享的这些,本文的代码主...
    99+
    2023-08-31
    python pdf word excel ppt csv
  • 使用python3怎么读取文件指定行
    使用python3怎么读取文件指定行?相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。行遍历实现在python中如果要将一个文件完全加载到内存中,通过file.readlines(...
    99+
    2023-06-15
  • Java基于PDFbox实现读取处理PDF文件
    目录前言pdfbox介绍开发环境PDFbox依赖快速开始结语前言 嗨,大家好,2022年春节已经接近尾声,各地都陆陆续续开工了。近期有朋友做一个小项目正好使用Java读取PDF文件信...
    99+
    2022-11-13
  • python3读取文件指定行的三种方法
    目录行遍历实现linecache实现命令行sed获取总结概要行遍历实现 在python中如果要将一个文件完全加载到内存中,通过file.readlines()即可,但是在文件占用较高时,我们是无法完整的将文件加载到...
    99+
    2022-06-02
    python 读取行 python 读取指定行
  • 解决jupyter (python3) 读取文件遇到的问题
    1、出现错误 train_df = pd.read_csv( 'C:\Users\lenovo\Desktop\train.csv',encoding='utf-8') 报...
    99+
    2022-11-11
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作