广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python自动化办公之Word文件内容的读取
  • 274
分享到

Python自动化办公之Word文件内容的读取

2024-04-02 19:04:59 274人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

目录前言利用 python 批量读取文件Word利器之Python-docxpython-docx 安装python-docx 之 Documentpython-docx 之段落内容

前言

前面几个章节我们学习了对于普通文件的操作,比如说文件的创建、复制粘贴、裁剪粘贴、文件名的重命名、删除等等。另外还学习了一些基本练习,如何查找文件、如何按照内容查找文件等等。

在本章节及后续,将开始学习一些特殊文件的自动化相关操作。如 word、excel、PPT,虽然说是特殊文件,其实也是实际工作中我们经常会用到的文件类型。

接下来我们就进入到 word 文件自动化操作的学习内容。

该章节涉及的新模块

python-docx

pdfkit

pydocx

利用 python 批量读取文件

word利器之python-docx

python-docx 是用于创建可修改 微软 Word 的一个 python 库,提供全套的 Word 操作,是最常用的 Word 工具

使用前,先了解几个概念:

  • Document:是一个 Word 文档 对象,不同于 VBA 中 Worksheet 的概念,Document 是独立的,打开不同的 Word 文档,就会有不同的 Document 对象,相互之间没有影响
  • Paragraph:是段落,一个 Word 文档由多个段落组成,当在文档中输入一个回车键,就会成为新的段落,输入 shift + 回车,不会分段
  • Run 表示一个节段,每个段落由多个 节段 组成,一个段落中具有相同样式的连续文本,组成一个节段,所以一个 段落 对象有个 Run 列表。

例如下图的 word 文档示意图:

word 文档结构划分如下:

python-docx 安装

安装:

pip install python-docx 如果安装速度太慢的话,可以换一个国内的源地址(如下)

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple python-docx

导入:

import docx
from docx import …

python-docx 之 Document

导入包与模块:

from docx import Document

使用方法:

Document(word文件地址)

返回值:

word文件对象

python-docx 之段落内容读取

实际上要想读取一个 word 文档,主要就是读取它的段落以及它的表格。无论是段落还是表格,它的内部都是字符串,我们的目的就是读取这些字符串的内容。

先看一下段落内容的读取方式:

来源:

document_obj.paragraphs 通过 document 对象的 paragraphs 函数返回一个段落的列表;如果 word 文件存在多个段落,就会有多个段落对象。

使用方法:

通过循环获取每个段落对象,并调用 text

演示案例脚本如下:

# coding:utf-8

import os
from docx import Document

path = os.path.join(os.getcwd(), 'test_file/文本.docx')
print("\'文本.docx\' 的路径为:", path)     # 调试路径

doc = Document(path)

for p in doc.paragraphs:
    print(p.text)

运行结果如下:(PS:文本只是演示,本人非培训机构的!)

python-docx 之表格内容读取

接下来我们看一下如何读取 word 文件中的表格内容:

来源:

document_obj.tables 通过 document 对象的 paragraphs 函数返回一个表格的列表;里面是一个一个的表格的对象。

使用方法:

同样通过循环,获取行与列的内容

返回值:

每个表格字段(字符串)

演示案例代码如下:

# coding:utf-8

import os
from docx import Document

path = os.path.join(os.getcwd(), 'test_file/文本.docx')
print("\'文本.docx\' 的路径为:", path)     # 调试路径

doc = Document(path)

# for p in doc.paragraphs:
#     print(p.text)

for t in doc.tables:            # for 循环获取表格对象
    for row in t.rows:          # 获取每一行
        row_str = []
        for cell in row.cells:    # 获取每一行单独的小表格,然后将其内容拼接起来;拼接完成之后再第二个for循环中打印出来
            row_str.append(cell.text)
        print(row_str)
        
# 也可以通过 "columns" 获取表格中的列的内容,可以自己尝试一下

运行结果如下:

到此这篇关于Python自动化办公之Word文件内容的读取的文章就介绍到这了,更多相关Python读取Word内容内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: Python自动化办公之Word文件内容的读取

本文链接: https://www.lsjlt.com/news/117860.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python自动化办公之Word文件内容的读取
    目录前言利用 python 批量读取文件word利器之python-docxpython-docx 安装python-docx 之 Documentpython-docx 之段落内容...
    99+
    2022-11-11
  • Python自动化办公之读取Excel数据的实现
    目录前言Excel 读取 - xlrd常用函数介绍获取 excel 对象获取工作簿读取工作簿内容前言 之前的章节我们学习了 python 关于 word 文件相关操作的知识点,从今天...
    99+
    2022-11-11
  • Python自动化办公之Word转PDF的实现
    目录pdf 工具包 - pdfkithtml 转 pdf网址 转 pdf字符串生成pdf结合 pydocx 将 word 转 html 再转 pdf该章节我们将要学习如何将 word...
    99+
    2022-11-11
  • Python自动化办公之Word文档的创建与生成
    目录保存生成 word生成标题生成段落添加图片添加表格分页上几章节我们主要学习了如何读取文章,而主要任务是读取文档中的文本信息,也就是字符串,而图片本身是不可读的文件所以并没有去读取...
    99+
    2022-11-11
  • Python自动化办公之创建PPT文件
    目录PPT 的创建python-pptx 的安装生成一个空的 PPTpython-pptx 的9种布局从这一章开始,将进入 PPT 文件的自动化操作。关于 PPT 自动化操作所要实现...
    99+
    2022-11-11
  • Python办公自动化Word转Excel文件批量处理
    目录前言首先使用Python将Word文件导入row和cell解析所需内容内层解析循环前言 大家好,今天有一个公务员的小伙伴委托我给他帮个忙,大概是有这样一份Word(由于...
    99+
    2022-11-11
  • Python自动化办公之Word文档怎么创建与生成
    这篇文章主要介绍了Python自动化办公之Word文档怎么创建与生成的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇Python自动化办公之Word文档怎么创建与生成文章都会有所收获,下面我们一起来看看吧。保存生...
    99+
    2023-06-30
  • Python办公自动化Word转Excel文件批量处理的方法
    本篇内容主要讲解“Python办公自动化Word转Excel文件批量处理的方法”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python办公自动化Word转Excel文件批量处理的方法”吧!前言...
    99+
    2023-07-02
  • Python自动化办公之如何创建PPT文件
    本文小编为大家详细介绍“Python自动化办公之如何创建PPT文件”,内容详细,步骤清晰,细节处理妥当,希望这篇“Python自动化办公之如何创建PPT文件”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。pytho...
    99+
    2023-06-30
  • Python自动化办公之清理重复文件详解
    目录清理重复的文件清理重复文件的优化1清理重复文件的优化2清理重复文件的优化3批量修改文件名清理重复的文件 已知条件: 什么都不知道,只需要知道它是文件就可以了 实现方法: 可以从指...
    99+
    2022-11-11
  • python自动化办公之批量修改文件名实操
    目录1. 程序背景2. 程序要求3. 解决思路4. 完整代码5. 运行结果6. 总结1. 程序背景 之前做文件批量移动的时候不小心多加了一个pdf后缀,但问题不大,几行代码就可以搞定...
    99+
    2022-11-11
  • Python办公自动化之将任意文件转为PDF格式
    一、word转PDF 这里借助Python的docx2pdf去完成转换操作,该库的安装命令如下: pip install docx2pdf 目标:读取文件夹下的全部word文...
    99+
    2022-11-12
  • Python自动化办公之定时发送邮件的实现
    目录定时模块的使用schedule 模块的介绍schedule 模块各种时间用法schedule 的启动该章节为 Python自动化办公篇 的最后一章,通过定时任务发送邮件的方式学习...
    99+
    2022-11-11
  • python怎么将txt文件的内容逐行读取转化成数组
    本篇内容主要讲解“python怎么将txt文件的内容逐行读取转化成数组”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“python怎么将txt文件的内容逐行读取转化成数组”吧!将txt文件的内容逐...
    99+
    2023-07-05
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作