通过Python的pdfplumber库提取pdf中表格数据

python pdf 开发语言 2023-09-05 18:09:47 370人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

文章目录前言一、pdfplumber库是什么？二、安装pdfplumber库三、查看pdfplumber库版本四、提取pdf中表格数据1.引入库2.定义pdf文件路径3.打开pdf文件4.获

文章目录

前言
一、pdfplumber库是什么？
二、安装pdfplumber库
三、查看pdfplumber库版本
四、提取pdf中表格数据
总结

前言

大家好，我是空空star，本篇给大家分享一下《通过python的pdfplumber库提取pdf中表格数据》。

一、pdfplumber库是什么？

pdfplumber是一个用于从PDF文档中提取文本和表格数据的Python库。它可以帮助用户轻松地从PDF文件中提取有用的信息，例如表格、文本、元数据等。pdfplumber库的特点包括：简单易用、速度快、支持多种PDF文件格式、支持从多个页面中提取数据等。pdfplumber库还提供了一些方便的方法来处理提取的数据，例如排序、过滤和格式化等。它是一个非常有用的工具，特别是在需要从大量PDF文件中提取数据时。

二、安装pdfplumber库

pip install pdfplumber

三、查看pdfplumber库版本

pip show pdfplumber

Name: pdfplumber
Version: 0.9.0
Summary: Plumb a PDF for detailed infORMation about each char, rectangle, and line.
Home-page: https://GitHub.com/jsvine/pdfplumber
Author: Jeremy Singer-Vine
Author-email: jsvine@gmail.com
License:
Requires: pdfminer.six, Pillow, Wand
Required-by:

四、提取pdf中表格数据

1.引入库

import pdfplumber

2.定义pdf文件路径

local = '/Users/kkstar/Downloads/'

3.打开pdf文件

with pdfplumber.open(local+"demo_table.pdf") as pdf:

4.获取pdf文件中的页数

    num_pages = len(pdf.pages)

5.遍历每一页

    for page_num in range(num_pages):

6.获取当前页内容

        page = pdf.pages[page_num]

7.提取表格数据

        table = page.extract_table(table_settings={            "vertical_strategy": "lines",            "horizontal_strategy": "lines",            "intersection_x_tolerance": 15,            "intersection_y_tolerance": 15        })

8.输出表格数据

        for row in table:            print(row)

9.效果

[‘username’, ‘nickname’, ‘article’]
[‘weixin_38093452’, ‘空空 star’, ‘130889268’]
[‘weixin_38093452’, ‘空空 star’, ‘130852811’]
[‘weixin_38093452’, ‘空空 star’, ‘130815851’]
Process finished with exit code 0

总结

来源地址：https://blog.csdn.net/weixin_38093452/article/details/130915632

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 通过Python的pdfplumber库提取pdf中表格数据

本文链接: https://www.lsjlt.com/news/395856.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

通过Python的pdfplumber库提取pdf中表格数据

文章目录前言一、pdfplumber库是什么？二、安装pdfplumber库三、查看pdfplumber库版本四、提取pdf中表格数据1.引入库2.定义pdf文件路径3.打开pdf文件4.获...

99+

2023-09-05

python pdf 开发语言
python pdfplumber库批量提取pdf表格数据转换为excel

目录需求一、实现效果图二、pdfplumber 库三、代码实现1、导入相关包2、读取 pdf , 并获取 pdf 的页数3、提取单个 pdf 文件，保存成 excel4、提取文件夹下...

99+

2024-04-02
python用pdfplumber提取pdf表格数据并保存到excel文件中

目录pdfplumber操作pdf文件一、pdfplumber安装及导入二、pdfplumber基础使用1、基础知识2、获取pdf基础信息3、pdfplumber提取表格数据三、提取...

99+

2024-04-02
通过Python的PyPDF2库提取pdf中的文字

文章目录前言一、PyPDF2库是什么？二、安装PyPDF2库三、查看PyPDF2库版本四、使用方法1.引入库2.定义pdf路径3.打开PDF文件4.创建PDF阅读器对象5.获取PDF文件中的...

99+

2023-09-10

pdf 人工智能开发语言 python
通过Python的fitz库提取pdf中的图片

文章目录前言一、fitz库是什么？二、安装fitz库三、查看fitz库版本四、pymupdf库是什么？五、安装pymupdf库六、查看pymupdf库版本七、fitz和pymupdf是什么关...

99+

2023-08-31

python pdf 开发语言
用Python提取PDF表格的方法

目录一、简单文本类型数据二、复杂型表格提取三、图片型表格提取大家好，从PDF中提取信息是办公场景中经常需要用到的操作，也是经常又读者在后台问的一个操作。内容少的话我们可以手动复制粘...

99+

2024-04-02
C# 提取PDF中的表格详情

目录1、简单介绍2、环境配置3、代码示例1、简单介绍本文介绍在C#程序中（附VB.NET代码）提取PDF中的表格的方法，调用Spire.PDF for .NET提供的提取表格的类...

99+

2024-04-02
如何利用Python提取pdf中的表格数据(附实战案例)

目录前言pdfplumber简介实战案例前言今天给大家介绍一个Python使用工具，那就是从pdf文件中读取表格数据，主要用到第三方库 pdfplumber。 pdfpl...

99+

2022-11-13

python读取pdf表格数据 Python读取pdf pandas读取pdf数据
Python如何从PDF中提取元数据

这篇文章主要讲解了“Python如何从PDF中提取元数据”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“Python如何从PDF中提取元数据”吧！PyPdf PyPDF2 PyPDF4的历史最...

99+

2023-06-02
Python中怎么PDF文件提取数据

这篇文章将为大家详细讲解有关Python中怎么PDF文件提取数据，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。示例：使用Python从PDF文件中提取一个表格a) 将表复制到Excel并保存...

99+

2023-06-16
Python怎么从不同表格中提取数据

Python怎么从不同表格中提取数据，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。获取谷歌表格数据访问谷歌表格是这三种方法中最复杂的，因为你需要在使用谷歌表格API前设置一些证...

99+

2023-06-16
C#实现从PDF中提取表格的方法详解

目录程序环境从PDF中提取表格具体步骤完整代码PDF是办公中比较常见的一种文件格式，在工作中应用也越来越普遍。由于PDF文件集成度和安全可靠性都较高，所以在PDF中编辑内容是一件比较...

99+

2022-11-13

C# PDF提取表格 C# PDF 表格
怎么通过Python实现批量数据提取

这篇文章主要介绍“怎么通过Python实现批量数据提取”，在日常操作中，相信很多人在怎么通过Python实现批量数据提取问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”怎么通过Python实现批量数据提取”的疑...

99+

2023-07-05
Python从一个Excel表格提取数据填到另一个表格

本文，用Python从一个Excel表格提取数据填到另一个表格，详情代码中注释都说明了，请亲们详细查阅： #将要对填的两张xlsx表格放在同一个目录，并在下方指定该目录路径='G:\\Xct\\python'#“填写表”就是要填充数据的EX...

99+

2023-09-01

excel python 开发语言
python读取excel表格的数据

1.在Windows命令行中安装第三方模块xlrd，先切到python安装目录（Python34），然后切到Scripts，然后输入命令easy_install xlrd按回车进行安装安装完成2.新建一个excel表，然后保存，造数据3.编...

99+

2023-01-31

表格数据 python
Python中怎么读取电子表格的数据

今天就跟大家聊聊有关Python中怎么读取电子表格的数据，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。从电子表格读取 CSVPython 包含了一个 csv 模块，它可读取和写入 C...

99+

2023-06-16
Access数据库中怎么通过输入数据创建表

Access数据库中怎么通过输入数据创建表，针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。1．打开数据库先打开已创建的数据库，例如，jwgl...

99+

2024-04-02
Python如何读取excel表格的数据

这篇文章主要介绍“Python如何读取excel表格的数据”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“Python如何读取excel表格的数据”文章能帮助大家解决问题。小编这里推荐使用一款兼容性非...

99+

2023-06-27
提取表单数据中的键名

本篇文章给大家分享《提取表单数据中的键名》，覆盖了Golang的常见基础知识，其实一个语言的全部知识点一篇文章是不可能说完的，但希望通过这些问题，让读者对自己的掌握程度有一定的认识(B 数)，从而弥...

99+

2024-04-04
python读取word文档表格里的数据

首先需要安装相应的支持库：直接在命令行执行pip install python-docx 示例代码如下： import docx from docx import Document #导入库 path = "E:\\pyt...

99+

2023-01-31

表格文档数据