iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python读取PDF内容
  • 540
分享到

Python读取PDF内容

内容PythonPDF 2023-01-31 02:01:23 540人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

1,引言晚上翻看《python网络数据采集》这本书,看到读取pdf内容的代码,想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则,这个规则能够把pdf内容当成html来做网页抓取。神奇之处要归功于Firefox解析PDF的能力,能

1,引言
晚上翻看《python网络数据采集》这本书,看到读取pdf内容的代码,想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则,这个规则能够把pdf内容当成html来做网页抓取。神奇之处要归功于Firefox解析PDF的能力,能够把pdf格式转换成html标签,比如,div之类的标签,从而用GooSeeker网页抓取软件像抓普通网页一样抓取结构化内容。

从而产生了一个问题:用python爬虫的话,能做到什么程度。下面将讲述一个实验过程和源代码。

2,把pdf转换成文本的Python源代码
下面的python源代码,读取pdf文件内容(互联网上的或是本地的),转换成文本,打印出来。这段代码主要用了一个第三方库PDFMiner3K把PDF读成字符串,然后用Stringio转换成文件对象。(源代码下载地址参看文章末尾的GitHub源)

from urllib.request import urlopen
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO
from io import open

def readPDF(pdfFile):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, laparams=laparams)

    process_pdf(rsrcmgr, device, pdfFile)
    device.close()

    content = retstr.getvalue()
    retstr.close()
    return content

pdfFile = urlopen("Http://pythonscraping.com/pages/warandpeace/chapter1.pdf")
outputString = readPDF(pdfFile)
print(outputString)
pdfFile.close()

如果PDF文件在你的电脑里,那就把urlopen返回的对象pdfFile替换成普通的open()文件对象。


3,展望
这个实验只是把pdf转换成了文本,但是没有像开头所说的转换成html标签,那么在Python编程环境下是否有这个能力,留待今后探索。

4,集搜客GooSeeker开源代码下载源
1. GooSeeker开源Python网络爬虫gitHub源

5,文档修改历史
2016-05-26:V2.0,增补文字说明
2016-05-29:V2.1,增加第六章:源代码下载源,并更换github源的网址

--结束END--

本文标题: Python读取PDF内容

本文链接: https://www.lsjlt.com/news/185664.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python读取PDF内容
    1,引言晚上翻看《Python网络数据采集》这本书,看到读取PDF内容的代码,想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则,这个规则能够把pdf内容当成html来做网页抓取。神奇之处要归功于Firefox解析PDF的能力,能...
    99+
    2023-01-31
    内容 Python PDF
  • Unity3D读取PDF文件内容
    最近在研究Unity3D中读取PDF的内容,预想了三种方案,一是用Java来实现,二是调用C#的iTextSharp库或者PDFBox库来实现,三是下载PDF Renderer插件(土豪可以买这个插件,支持的系统也比较全面),java不是很...
    99+
    2023-01-31
    文件 内容 Unity3D
  • PHP 读取PDF文件内容之PdfParser
    composer require smalot/pdfparser  1.一次性读取文件中的所有内容: ...
    99+
    2023-09-02
    php pdf 开发语言
  • python读取pdf文档
    # -*- coding: utf-8 -*- #读取pdf文档 from pdfminer.pdfparser import PDFParser,PDFDocument from pdfminer.pdfinterp impo...
    99+
    2023-01-31
    文档 python pdf
  • Python读取Word文档内容
    Python读取Word文档内容 在Python中,我们可以使用Python-docx模块来读取Word文档内容。这个模块提供了一种方法,即使用Python代码来读取和编辑Word文档。 安装Pyth...
    99+
    2023-09-24
    word python 开发语言
  • python读取ppt文本内容
    import win32com from win32com.client import Dispatch, constants ppt = win32com.client.Dispatch('PowerPoint.Application'...
    99+
    2023-01-31
    文本 内容 python
  • Python 读取文件里的内容
    读取文件内容有三个方法:Read() 读取整个文件Readlines()按行读取整个文件Readeline()按行读取一行内容 现需求是:读取整个文件的内容,并打印在控制台上 刚写入的文件不能直接打印,需要在关闭后再次读取,然后打印内容。如...
    99+
    2023-01-31
    文件 内容 Python
  • python怎么读取文件内容
    Python中可以使用`open()`函数来读取文件内容。`open()`函数需要传入文件的路径和打开方式作为参数。以下是一个示例,...
    99+
    2023-09-05
    python
  • python如何读取文件内容
    在Python中,可以使用`open()`函数来打开一个文件,并使用`.read()`方法来读取文件的内容。以下是一个示例:```p...
    99+
    2023-08-25
    python
  • Python如何读取Excel表内容
    用python读取excel表中的数据 假如说有如下一张存储了数据的excel表,其中x1-x6是特征,y_label是特征对应的类别标签。我们想要使用python对以下数据进行数据分析,那么第一步就...
    99+
    2023-09-02
    python 数据分析 数据挖掘
  • Python 操作pdf pdfplumber读取PDF写入Excel
    目录1. Python 操作pdf(pdfplumber读取PDF写入Excel1.1 安装pdfplumber模块库1.2 常用操作1.2.1 Python读取pdf文件案例1.2...
    99+
    2022-11-11
  • python读取pdf文档-实战
    # -*- coding: utf-8 -*- #读取pdf文档 from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LAPar...
    99+
    2023-01-31
    实战 文档 python
  • python如何读取json文件内容
    在Python中,可以使用`json`模块来读取JSON文件的内容。具体步骤如下:1. 导入`json`模块:```pythonim...
    99+
    2023-09-15
    python json
  • python怎么读取txt文件内容
    这篇文章主要讲解了“python怎么读取txt文件内容”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“python怎么读取txt文件内容”吧!python读取txt文件的方法:1、使用read...
    99+
    2023-06-20
  • python如何读取mat文件内容
    这篇文章主要介绍“python如何读取mat文件内容”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“python如何读取mat文件内容”文章能帮助大家解决问题。首先,我们这里先打开matlab,随便在...
    99+
    2023-07-02
  • 怎么用python读取文件内容
    使用Python读取文件内容的方法有很多种,以下是几种常用的方法: 使用open()函数打开文件,然后使用read()方法读取文...
    99+
    2023-10-24
    Python
  • Python提取PDF指定内容并生成新文件
    在之前的Python办公自动化案专题中,我们已经介绍了如何有选择的提取某些页面进行合并。 但是很多时候,我们并不会预知希望提取的页号,而是希望将包含指定内容的页面提取合并为新PDF,...
    99+
    2022-11-12
  • 怎么在python中读取列表内容
    这篇文章给大家介绍怎么在python中读取列表内容,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。python可以做什么Python是一种编程语言,内置了许多有效的工具,Python几乎无所不能,该语言通俗易懂、容易入门...
    99+
    2023-06-14
  • 【Python】使用Python读取JSON文件中的内容
    文章目录 一、JSON文件简介二、借助Python处理JSON文件1、读取字典类型的JSON文件2、读取列表类型的JSON文件3、封装读取JSON文件的函数 一、JSON文件简介...
    99+
    2023-08-31
    python json
  • python如何读取pdf格式文档
    这篇文章给大家分享的是有关python如何读取pdf格式文档的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。python读取pdf文档一、 准备工作安装对应的库pip install pdfmi...
    99+
    2023-06-14
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作