详解用Python把PDF转为Word方法总结

2024-04-02 19:04:59 250人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

先讲一下为啥要写这个文章，网上其实很多这种pdf转化的代码和软件。我一直想用python做，但是网上搜到的代码很多都不能用，很多是2.7版本的代码，再就是PDF需要用到的库在导入的时

先讲一下为啥要写这个文章，网上其实很多这种pdf转化的代码和软件。我一直想用python做，但是网上搜到的代码很多都不能用，很多是2.7版本的代码，再就是PDF需要用到的库在导入的时候，很多的报错，解决起来特别费劲，而且自从2021年初以来，似乎网上很少有关PDF转化的代码出现了。我在研究了很多代码和pdfminer的用法后，总结了几个方法，目前这几种方法可以解决大多数格式的转化，后面我也专门放了提取PDF表格的代码，文末有高效的免费在线工具推荐。

下面这个是我最最推荐的方法，简单高效，只要是标准PDF文档，里面的图片和表格都可以保留格式

在这里插入图片描述


# pip install pdf2docx #安装依赖库
from pdf2docx import Converter

pdf_file = r'C:\Users\Administrator\Desktop\新建文件夹\mednine.pdf'
docx_file = r'C:\Users\Administrator\Desktop\Python教程\02.docx'

# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file, start=0, end=None)
cv.close()

下面是另外三种常用方法

1 把标准格式的PDF转为Word，测试环境Python3.6.5和3.6.6（注意PDF内容仅仅是文字为主的里面没有图片图表的适用，不适合扫描版PDF，因为那只能用图片识别的方式进行）


from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
import sys
import string
from docx import Document


def convert_pdf_2_text(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    
    device = TextConverter(rsrcmgr, retstr, codec='utf-8', laparams=LAParams())
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    
    with open(path, 'rb') as fp:
        for page in PDFPage.get_pages(fp, set()):
            interpreter.process_page(page)
            #print(retstr.getvalue())  
        text = retstr.getvalue()
    device.close()
    retstr.close()
    return text


def pdf2txt():
    text=convert_pdf_2_text(path)
    with open('real.txt','a',encoding='utf-8') as f:
        for line in text.split('\n'):
            f.write(line+'\n')

        

def remove_control_characters(content):
    mpa = dict.fromkeys(range(32))
    return content.translate(mpa)
    
def save_text_to_word(content, file_path):     

    doc = Document()
    for line in content.split(''):
        print(line)
            
        paragraph = doc.add_paragraph()
        paragraph.add_run(remove_control_characters(line))
    doc.save(file_path)


if __name__ == '__main__':
    path = r'C:\Users\mayn\Desktop\程序临时\培训教材.pdf'  # 你自己的pdf文件路径及文件名 不适合扫描版 只适合标准PDF文件
    text = convert_pdf_2_text(path)
    save_text_to_word(text, 'output.doc')  #PDF转为Word方法
    #pdf2txt()  #PDF转为txt方法

2专门提取PDF里面的表格，使用pdfplumber适合标准格式的PDF


import pdfplumber
import pandas as pd
import time
from time import  ctime
import psutil as ps 
#import threading
import GC
pdf = pdfplumber.open(r"C:\Users\Administrator\Desktop\新建文件夹\mednine.pdf")
N=len(pdf.pages)
print('总共有',N,'页')

def pdf2exl(i): # 读取了第i页，第i页是有表格的，
    print('********************************************************************************************************************************************************')
    print('正在输出第',str(i+1),'页表格')
    print('********************************************************************************************************************************************************')   
    p0 = pdf.pages[i]
    try:
        table = p0.extract_table()
        print(table)
    
        df = pd.DataFrame(table[1:], columns=table[0])
    #print(df)
        df.to_excel(r"C:\Users\Administrator\Desktop\新建文件夹\Model"+str(i+1)+".xlsx")
    
        #df.info(memory_usage='deep')
        
        
    except Exception as e:
        print('第'+str(i+1)+'页无表格，或者检查是否存在表格')       
       
        pass
    #print('目前内存占用率是百分之',str(ps.virtual_memory().percent),'    第',str(i+1),'页输出完毕')
    print('**********************************************************************************************************************************************************')
    print('\n\n\n') 
    time.sleep(5)


def dojob1():  #此函数  直接循环提取PDF里面各个页面的表格 
    print('*********************')
    for i in range(0,N):
        pdf2exl(i)

3也可以提取PDF里面的表格，使用camelot（camelot的安装可能需要点耐心，反正用的人不多）


import camelot
import wand

# 从PDF文件中提取表格

def output(i):  
    #print(tables)
    #for i in range(5):
    tables = camelot.read_pdf(r'C:\Users\Administrator\Desktop\新建文件夹\mednine.pdf', pages=str(i), flavor='stream')
    print(tables[i])
    
# 表格数据
    print(tables[i].data)
    
    tables[i].to_csv(r'C:\Users\Administrator\Desktop\新建文件夹\002'+str(i)+r'.csv')


def plotpdf():
        # 这个是画pdf 结构的函数 现在不能用 不要打开
    
    #print(tables[0])
    tables = camelot.read_pdf(r'C:\Users\mayn\Desktop\vcode工作区\11\路基.pdf', pages='200', flavor='stream')
    camelot.plot(tables[0], kind='text')
    print(tables[0])
    plt.show()
    # 绘制PDF文档的坐标，定位表格所在的位置  
    #plt = camelot.plot(tables[0],kind='text')
    #plt.show()
    #table_df = tables[0].df

#plotpdf() 
#i=3
#output(i)
for i in range(0,2):
    try:    
        output(i)
    except Exception as e:
        print('第'+str(i)+'页没找到表格啊啊啊')
        pass 
    continue

以下是pdfplumber测试效果

源文件如下

在这里插入图片描述

提取结果

在这里插入图片描述

最后补充2个免费转换的网站感觉还比较好用，关键是免费

Http://pdfdo.com/pdf-to-word.aspx

http://app.xunjiepdf.com/pdf2word/

到此这篇关于详解用Python把PDF转为Word方法总结的文章就介绍到这了,更多相关Python把PDF转为Word内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 详解用Python把PDF转为Word方法总结

本文链接: https://www.lsjlt.com/news/124640.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

详解用Python把PDF转为Word方法总结

先讲一下为啥要写这个文章，网上其实很多这种PDF转化的代码和软件。我一直想用Python做，但是网上搜到的代码很多都不能用，很多是2.7版本的代码，再就是PDF需要用到的库在导入的时...

99+

2022-11-12
Python实现PDF转Word的方法详解

由于PDF的文件大多都是只读文件，有时候为了满足可以编辑的需要通常可以将PDF文件直接转换成Word文件进行操作。看了网络上面的python转换PDF文件为Word的相关文章感觉都...

99+

2023-02-16

Python PDF转Word Python PDF Word
使用Python将Word文档转换为PDF的方法

摘要：文介绍了如何使用Python编程语言将Word文档转换为PDF格式的方法。我们将使用python-docx和pywin32库来实现这个功能，这些库提供了与Microsoft Word应用程序的交互能力。正文：在现实生活和工作中，...

99+

2023-10-03

python word2pdf python-docx pywin32
怎么把html转成pdf文件（方法详解）

如今，在我们的日常生活中，PDF 文件格式已成为一种常见的文件格式。与其他常见格式相比，PDF 文件具有很多便利之处：跨操作系统，文件小巧，易被搜索，不易篡改等等。虽然在大多数情况下，你可能更喜欢编辑 HTML 文档，但是当你需要在电子邮件...

99+

2023-05-14
C#实现将PDF转为Excel的方法详解

目录dll引用方法方法1方法2PDF转ExcelC#VB.NET通常，PDF格式的文档能支持的编辑功能不如office文档多，针对PDF文档里面有表格数据的，如果想要编辑表格里面的数...

99+

2022-11-13
Java 使用openoffice进行word转换为pdf的方法步骤

一、下载openoffice第三方工具建议下载4.1.6版本 http://www.openoffice.org/download/index.html 二、开启openoffi...

99+

2022-11-12
Java实现将PDF转为图片格式的方法详解

目录代码编译环境将整个 PDF 文档转换为多个图片完整代码效果图将指定 PDF 页面转换为图片完整代码效果图PDF文件和图片文件，这是两种完全不一样的格式，可是有的时候这两种格式却是...

99+

2023-03-23

Java实现PDF转图片 Java PDF转图片 Java PDF 图片
python中os库用法详解（总结）

os库主要是对文件和文件夹进行操作，在Python中对⽂件和⽂件夹的操作要借助os模块⾥⾯的相关功能。具体步骤如下：导⼊os模块 import os 使⽤ os 模块相关功能 os.函数名() 1、⽂件重命名 os....

99+

2023-09-01

python os
Java中String类常用方法总结详解

目录一. String对象的比较1. ==比较是否引用同一个对象2. boolean equals(Object anObject)3. int compareTo(String s...

99+

2022-11-13
Swift 数组及常用方法详解总结

目录1. 创建数组2. 快捷创建重复元素的数组3. 数组相加4. 常用方法5. 数组遍历Swift 数组及常用方法 1. 创建数组 // 创建整型数组 var array1: [...

99+

2022-11-12
详解java解决XSS攻击常用方法总结

前言在项目验收阶段，通常会对待验收项目做一些安全漏洞的测试，比如接口攻击，并发测试，XSS注入，SQL恶意注入测试，安全越权等操作，这时，就是考验项目的安全方面是否做的足够健壮的时...

99+

2022-11-12
Swift Set集合及常用方法详解总结

Swift 集合 Set 及常用方法 1. 创建Set集合 // 创建Set var set: Set<Int> = [1, 2, 3] var set2 = Set...

99+

2022-11-12
python用reduce和map把字符串转为数字的方法

python中reduce和map简介 map(func,seq1[,seq2...]) ：将函数func作用于给定序列的每个元素，并用一个列表来提供返回值；如果func为None，func表现为身份函数，...

99+

2022-06-04

字符串数字方法
python 字典常用方法超详细梳理总结

目录1.字典的概念2.字典的主要特征3.创建字典的三种方法4.字典常用方法1.clear()2.copy(）3.get()4.keys()5.values()6.items()7.d...

99+

2022-11-13
python 列表常用方法超详细梳理总结

目录列表是什么？列表常用方法1.append()2.clear()3.copy()4.count()5.extend()6.index()7.insert()8.revers ...

99+

2022-11-13
详解Python中数据处理的方法总结及实现

目录背景常用数据增强方法1、Compose2、RandomHflip3、RandomVflip4、RandomCrop5、Normalize6、Rotate7、RandomRotat...

99+

2022-11-11
利用PyInstaller将python程序.py转为.exe的方法详解

前言最近经常用到一个.py程序，但是每次在不同电脑上用，希望能把Python脚本发布为脱离Python平台运行的可执行程序，比如单个exe。PyInstalle满足要求。 PyInstaller本身并不...

99+

2022-06-04

详解程序方法
Python对PDF文件的常用操作方法详解

目录工具从PDF中提取文本旋转和叠加页面加密PDF文件创建PDF文件补充工具 python3.7 Pycharm PDF PyPDF2 reportlab 从PDF中提取文本 PyP...

99+

2022-11-11
python 字符串常用方法超详细梳理总结

目录字符串是什么？字符串常用方法1.find()2.index()3.startswith()4.endswith()5.count()6.join()7.upper()8.lowe...

99+

2022-11-13
Swift 字符串类型及常用方法详解总结

目录1. 构造2. 拼接3. 字符4. 转义符5. 常用方法Swift 字符串类型及常用方法 1. 构造 // 直接赋值 text = "" // 1. 构造方法 text =...

99+

2022-11-12