iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >通过Python的pdfplumber库提取pdf中表格数据
  • 370
分享到

通过Python的pdfplumber库提取pdf中表格数据

pythonpdf开发语言 2023-09-05 18:09:47 370人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

文章目录 前言一、pdfplumber库是什么?二、安装pdfplumber库三、查看pdfplumber库版本四、提取pdf中表格数据1.引入库2.定义pdf文件路径3.打开pdf文件4.获

文章目录

前言

大家好,我是空空star,本篇给大家分享一下《通过pythonpdfplumber库提取pdf中表格数据》

一、pdfplumber库是什么?

pdfplumber是一个用于从PDF文档中提取文本和表格数据的Python库。它可以帮助用户轻松地从PDF文件中提取有用的信息,例如表格、文本、元数据等。pdfplumber库的特点包括:简单易用、速度快、支持多种PDF文件格式、支持从多个页面中提取数据等。pdfplumber库还提供了一些方便的方法来处理提取的数据,例如排序、过滤和格式化等。它是一个非常有用的工具,特别是在需要从大量PDF文件中提取数据时。

二、安装pdfplumber库

pip install pdfplumber

三、查看pdfplumber库版本

pip show pdfplumber

Name: pdfplumber
Version: 0.9.0
Summary: Plumb a PDF for detailed infORMation about each char, rectangle, and line.
Home-page: https://GitHub.com/jsvine/pdfplumber
Author: Jeremy Singer-Vine
Author-email: jsvine@gmail.com
License:
Requires: pdfminer.six, Pillow, Wand
Required-by:

四、提取pdf中表格数据

1.引入库

import pdfplumber

2.定义pdf文件路径

local = '/Users/kkstar/Downloads/'

3.打开pdf文件

with pdfplumber.open(local+"demo_table.pdf") as pdf:

4.获取pdf文件中的页数

    num_pages = len(pdf.pages)

5.遍历每一页

    for page_num in range(num_pages):

6.获取当前页内容

        page = pdf.pages[page_num]

7.提取表格数据

        table = page.extract_table(table_settings={            "vertical_strategy": "lines",            "horizontal_strategy": "lines",            "intersection_x_tolerance": 15,            "intersection_y_tolerance": 15        })

8.输出表格数据

        for row in table:            print(row)

9.效果

[‘username’, ‘nickname’, ‘article’]
[‘weixin_38093452’, ‘空空 star’, ‘130889268’]
[‘weixin_38093452’, ‘空空 star’, ‘130852811’]
[‘weixin_38093452’, ‘空空 star’, ‘130815851’]
Process finished with exit code 0

总结

来源地址:https://blog.csdn.net/weixin_38093452/article/details/130915632

--结束END--

本文标题: 通过Python的pdfplumber库提取pdf中表格数据

本文链接: https://www.lsjlt.com/news/395856.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 通过Python的pdfplumber库提取pdf中表格数据
    文章目录 前言一、pdfplumber库是什么?二、安装pdfplumber库三、查看pdfplumber库版本四、提取pdf中表格数据1.引入库2.定义pdf文件路径3.打开pdf文件4.获...
    99+
    2023-09-05
    python pdf 开发语言
  • python pdfplumber库批量提取pdf表格数据转换为excel
    目录需求一、实现效果图二、pdfplumber 库三、代码实现1、导入相关包2、读取 pdf , 并获取 pdf 的页数3、提取单个 pdf 文件,保存成 excel4、提取文件夹下...
    99+
    2024-04-02
  • python用pdfplumber提取pdf表格数据并保存到excel文件中
    目录pdfplumber操作pdf文件一、pdfplumber安装及导入二、pdfplumber基础使用1、基础知识2、获取pdf基础信息3、pdfplumber提取表格数据三、提取...
    99+
    2024-04-02
  • 通过Python的PyPDF2库提取pdf中的文字
    文章目录 前言一、PyPDF2库是什么?二、安装PyPDF2库三、查看PyPDF2库版本四、使用方法1.引入库2.定义pdf路径3.打开PDF文件4.创建PDF阅读器对象5.获取PDF文件中的...
    99+
    2023-09-10
    pdf 人工智能 开发语言 python
  • 通过Python的fitz库提取pdf中的图片
    文章目录 前言一、fitz库是什么?二、安装fitz库三、查看fitz库版本四、pymupdf库是什么?五、安装pymupdf库六、查看pymupdf库版本七、fitz和pymupdf是什么关...
    99+
    2023-08-31
    python pdf 开发语言
  • 用Python提取PDF表格的方法
    目录一、简单文本类型数据二、复杂型表格提取三、图片型表格提取大家好,从PDF中提取信息是办公场景中经常需要用到的操作,也是经常又读者在后台问的一个操作。 内容少的话我们可以手动复制粘...
    99+
    2024-04-02
  • C# 提取PDF中的表格详情
    目录1、简单介绍2、环境配置3、代码示例1、简单介绍 本文介绍在C#程序中(附VB.NET代码)提取PDF中的表格的方法,调用Spire.PDF for .NET提供的提取表格的 类...
    99+
    2024-04-02
  • 如何利用Python提取pdf中的表格数据(附实战案例)
    目录前言pdfplumber简介实战案例前言 今天给大家介绍一个Python使用工具,那就是从pdf文件中读取表格数据,主要用到第三方库 pdfplumber。 pdfpl...
    99+
    2022-11-13
    python读取pdf表格数据 Python读取pdf pandas读取pdf数据
  • Python如何从PDF中提取元数据
    这篇文章主要讲解了“Python如何从PDF中提取元数据”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python如何从PDF中提取元数据”吧!PyPdf PyPDF2 PyPDF4的历史最...
    99+
    2023-06-02
  • Python中怎么PDF文件提取数据
    这篇文章将为大家详细讲解有关Python中怎么PDF文件提取数据,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。示例:使用Python从PDF文件中提取一个表格a) 将表复制到Excel并保存...
    99+
    2023-06-16
  • Python怎么从不同表格中提取数据
    Python怎么从不同表格中提取数据,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。获取谷歌表格数据访问谷歌表格是这三种方法中最复杂的,因为你需要在使用谷歌表格API前设置一些证...
    99+
    2023-06-16
  • C#实现从PDF中提取表格的方法详解
    目录程序环境从PDF中提取表格具体步骤完整代码PDF是办公中比较常见的一种文件格式,在工作中应用也越来越普遍。由于PDF文件集成度和安全可靠性都较高,所以在PDF中编辑内容是一件比较...
    99+
    2022-11-13
    C# PDF提取表格 C# PDF 表格
  • 怎么通过Python实现批量数据提取
    这篇文章主要介绍“怎么通过Python实现批量数据提取”,在日常操作中,相信很多人在怎么通过Python实现批量数据提取问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”怎么通过Python实现批量数据提取”的疑...
    99+
    2023-07-05
  • Python从一个Excel表格提取数据填到另一个表格
    本文,用Python从一个Excel表格提取数据填到另一个表格,详情代码中注释都说明了,请亲们详细查阅: #将要对填的两张xlsx表格放在同一个目录,并在下方指定该目录路径='G:\\Xct\\python'#“填写表”就是要填充数据的EX...
    99+
    2023-09-01
    excel python 开发语言
  • python读取excel表格的数据
    1.在Windows命令行中安装第三方模块xlrd,先切到python安装目录(Python34),然后切到Scripts,然后输入命令easy_install xlrd按回车进行安装安装完成2.新建一个excel表,然后保存,造数据3.编...
    99+
    2023-01-31
    表格 数据 python
  • Python中怎么读取电子表格的数据
    今天就跟大家聊聊有关Python中怎么读取电子表格的数据,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。从电子表格读取 CSVPython 包含了一个 csv 模块,它可读取和写入 C...
    99+
    2023-06-16
  • Access数据库中怎么通过输入数据创建表
    Access数据库中怎么通过输入数据创建表,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。1.打开数据库先打开已创建的数据库,例如,jwgl...
    99+
    2024-04-02
  • Python如何读取excel表格的数据
    这篇文章主要介绍“Python如何读取excel表格的数据”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Python如何读取excel表格的数据”文章能帮助大家解决问题。小编这里推荐使用一款兼容性非...
    99+
    2023-06-27
  • 提取表单数据中的键名
    本篇文章给大家分享《提取表单数据中的键名》,覆盖了Golang的常见基础知识,其实一个语言的全部知识点一篇文章是不可能说完的,但希望通过这些问题,让读者对自己的掌握程度有一定的认识(B 数),从而弥...
    99+
    2024-04-04
  • python读取word文档表格里的数据
    首先需要安装相应的支持库: 直接在命令行执行pip install python-docx 示例代码如下: import docx from docx import Document #导入库 path = "E:\\pyt...
    99+
    2023-01-31
    表格 文档 数据
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作