iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python中怎么PDF文件提取数据
  • 684
分享到

Python中怎么PDF文件提取数据

2023-06-16 09:06:20 684人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

这篇文章将为大家详细讲解有关python中怎么pdf文件提取数据,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。示例:使用Python从PDF文件中提取一个表格a) 将表复制到excel并保存

这篇文章将为大家详细讲解有关python中怎么pdf文件提取数据,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。


示例:使用Python从PDF文件中提取一个表格

a) 将表复制到excel并保存为table_1_raw.csv

Python中怎么PDF文件提取数据

数据以一维格式存储,必须进行重塑、清理和转换。

b) 导入必要的库

import pandas as pd import numpy as np

c) 导入原始数据,重新定义数据

df=pd.read_csv("table_1_raw.csv", header=None) df.values.shape df2=pd.DataFrame(df.values.reshape(25,10)) column_names=df2[0:1].values[0] df3=df2[1:] df3.columns = df2[0:1].values[0] df3.head()

Python中怎么PDF文件提取数据

d) 使用字符串处理工具进行数据纠缠

我们从上面的表格中注意到,x5、x6和x7列是用百分比表示的,所以我们需要去掉percent(%)符号:

df4['x5']=list(map(lambda x: x[:-1], df4['x5'].values)) df4['x6']=list(map(lambda x: x[:-1], df4['x6'].values)) df4['x7']=list(map(lambda x: x[:-1], df4['x7'].values))

e) 将数据转换为数字形式

我们注意到列x5、x6和x7的列值数据类型为string,因此我们需要将它们转换为数值数据,如下所示:

df4['x5']=[float(x) for x in df4['x5'].values] df4['x6']=[float(x) for x in df4['x6'].values] df4['x7']=[float(x) for x in df4['x7'].values]

f) 查看转换数据的最终形式

df4.head(n=5)
Python中怎么PDF文件提取数据

g) 导出最终数据到一个csv文件

df4.to_csv('table_1_final.csv',index=False)

关于Python中怎么PDF文件提取数据就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。

--结束END--

本文标题: Python中怎么PDF文件提取数据

本文链接: https://www.lsjlt.com/news/283138.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python中怎么PDF文件提取数据
    这篇文章将为大家详细讲解有关Python中怎么PDF文件提取数据,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。示例:使用Python从PDF文件中提取一个表格a) 将表复制到Excel并保存...
    99+
    2023-06-16
  • Python怎么从csv文件中读取数据及提取数据
    本篇内容主要讲解“Python怎么从csv文件中读取数据及提取数据”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python怎么从csv文件中读取数据及提取数据”吧!数据保存在csv文件中1.从...
    99+
    2023-06-25
  • python用pdfplumber提取pdf表格数据并保存到excel文件中
    目录pdfplumber操作pdf文件一、pdfplumber安装及导入二、pdfplumber基础使用1、基础知识2、获取pdf基础信息3、pdfplumber提取表格数据三、提取...
    99+
    2022-11-11
  • python怎么抓取pdf数据
    要在Python中抓取PDF数据,可以使用pdfminer库。以下是一个简单的示例代码,展示了如何使用pdfminer来解析PDF文...
    99+
    2023-09-22
    python
  • Python如何从PDF中提取元数据
    这篇文章主要讲解了“Python如何从PDF中提取元数据”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python如何从PDF中提取元数据”吧!PyPdf PyPDF2 PyPDF4的历史最...
    99+
    2023-06-02
  • Python - 读取pdf、word、excel、ppt、csv、txt文件提取所有文本
    前言 本文对使用python读取pdf、word、excel、ppt、csv、txt等常用文件,并提取所有文本的方法进行分享和使用总结。 可以读取不同文件的库和方法当然不止下面分享的这些,本文的代码主...
    99+
    2023-08-31
    python pdf word excel ppt csv
  • Python怎么爬取csnd文章并转为PDF文件
    今天就跟大家聊聊有关Python怎么爬取csnd文章并转为PDF文件,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。1.导入模块import requests #&...
    99+
    2023-06-22
  • python怎么读取数据文件
    使用python读取文件数据的方法:1.新建python项目;2.导入pandas模块;3.使用pd.read方法读取文件数据;具体步骤如下:首先,打开python,并新建一个python项目;python项目创建好后,在项目中使用impo...
    99+
    2022-10-14
  • Python从txt文件中提取特定数据
    本段代码用于,想要从一段txt文件中只提取目标数据的情况。 代码: def get_data(txt_path: str = '', epoch: int = 100, target: str = '...
    99+
    2023-09-12
    python 算法 c#
  • 通过Python的pdfplumber库提取pdf中表格数据
    文章目录 前言一、pdfplumber库是什么?二、安装pdfplumber库三、查看pdfplumber库版本四、提取pdf中表格数据1.引入库2.定义pdf文件路径3.打开pdf文件4.获...
    99+
    2023-09-05
    python pdf 开发语言
  • Python提取PDF指定内容并生成新文件
    在之前的Python办公自动化案专题中,我们已经介绍了如何有选择的提取某些页面进行合并。 但是很多时候,我们并不会预知希望提取的页号,而是希望将包含指定内容的页面提取合并为新PDF,...
    99+
    2022-11-12
  • 使用Python怎么提取PDF表格
    这篇文章给大家介绍使用Python怎么提取PDF表格,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。提取简单型表格提取较为复杂型表格提取图片型表格用到的模块主要有pdfplumberpandasTesseractPIL文...
    99+
    2023-06-14
  • Python实现PDF文字识别提取并写入CSV文件
    目录1.前言2.需求描述3.开始动手动脑3.1安装相关第三方包3.2导入需要用到的第三方库3.3读取pdf文件,并识别内容3.4对识别的数据进行处理,写入csv文件总结1. 前言 扫...
    99+
    2022-11-13
  • Python从csv文件中读取数据及提取数据的方法
    目录1.从csv文件中读取数据2.数据切割数据保存在csv文件中 1.从csv文件中读取数据 参数header=None的有无 (1)没有header=None——直接将csv表中...
    99+
    2022-11-12
  • python怎么读取npy文件数据
    这篇文章主要介绍“python怎么读取npy文件数据”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“python怎么读取npy文件数据”文章能帮助大家解决问题。注:.npy文件是numpy专用的二进制...
    99+
    2023-06-30
  • 怎么在python中提取数据
    怎么在python中提取数据?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。Python主要用来做什么Python主要应用于:1、Web开发;2、数据科学研究;3...
    99+
    2023-06-14
  • python文件数据分析治理提取
    目录前提提要要求思路代码运行结果分析1)读取文件2)读取数据3)数据整理4)正则表达式匹配外加数据去重6)数据导出保存前提提要 python2.0有无法直接读取中文路径的问题,需要另...
    99+
    2022-11-11
  • python怎么提取文件内容
    使用python提取文件内容的方法:1.新建python项目;2.定义变量,存储文件路径;3.使用open()函数打开文件;4.使用read()方法提取文件内容;具体步骤如下:首先,打开python,并新建一个python项目;python...
    99+
    2022-10-07
  • 通过Python的PyPDF2库提取pdf中的文字
    文章目录 前言一、PyPDF2库是什么?二、安装PyPDF2库三、查看PyPDF2库版本四、使用方法1.引入库2.定义pdf路径3.打开PDF文件4.创建PDF阅读器对象5.获取PDF文件中的...
    99+
    2023-09-10
    pdf 人工智能 开发语言 python
  • Python--从PDF中提取文本的方法总结
    目录 前言 一、pdfplumber 二、pdfminer 三、fitz / pymupdf 四、性能对比 前言 这段时间做了好几个关于年报的需求,其中无一例外需要从年报PDF中提取文本再进行下一步的操作。为了提高效率,对...
    99+
    2023-09-03
    python pdf 自动化
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作