广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python 读取 Word 文档操作
  • 531
分享到

Python 读取 Word 文档操作

2024-04-02 19:04:59 531人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

目录前言python 读取 Word 文档安装 Python-docx库前言 Word 文档 (.docx) 是另一种主要用于存储文本的常见文档。它们通常由 Mi

前言

Word 文档 (.docx) 是另一种主要用于存储文本的常见文档。它们通常由 Microsoft Office 创建和编辑,但也可以使用其他工具生成兼容文件。它们通常是共享可编辑文件的最常见格式,同时在分发文档时也非常常见。

Python 读取 Word 文档

安装 python-docx库

在本节中,我们将学习如何使用 Python 从 Word 文档中提取文本信息。我们主要使用 python-docx 库来读取和处理 Word 文档,其安装方法与其它第三方库完全相同:

$ pip install python-docx

首先,导入 python-docx 库:

>>> import docx

打开 document_1.docx 文件:

>>> doc = docx.Document('document_1.docx')

检查存储在 core_properties 中的元数据属性,需要访问 core_properties 属性。这些属性是为 Word 定义的文档元数据属性,例如作者或创建日期。但并非所有文档都具有这些元数据信息,因为许多生成 Word 文档的工具不一定会填充这些属性:

>>> doc.core_properties.title
'Research Overview of Adversarial Attacks and Defenses on Graphs'
>>> doc.core_properties.keywords
'Abstract'
>>> doc.core_properties.modified
datetime.datetime(2020, 8, 1, 3, 11)

Word 文档中最重要的特点是数据以段落(而不是页)的形式结构化。字体大小、段落缩进和其他因素都可能会使页数发生变化。检查段落数:

>>> len(doc.paragraphs)
28

浏览段落以检测包含文本的段落,大多数段落通常是空的,或者只包含换行符、制表符或其他空白字符,检查段落时我们通常跳过这些空段落:

>>> for index, paragraph in enumerate(doc.paragraphs):
...     if paragraph.text:
...             print(index, paragraph.text)=
...
0 图对抗攻防综述
1 摘 要:
3 关键字:
5 Research Overview of Adversarial Attacks and Defenses on Graphs
6 Abstract
7 Deep neural networks (DNNs) have been widely applied to various applications, including image classification, ...
8 ...
...
27 参考文献

可以利用 paragraphs 属性获取文档段落列表并提取原始格式的文本,这些文本不包括样式信息,通常是自动处理数据时最常用的属性。获取第 5 段和第 6 段的文本,分别对应第一页的标题和副标题:

>>> doc.paragraphs[5].text
'Research Overview of Adversarial Attacks and Defenses on Graphs'
>>> doc.paragraphs[6].text
'Abstract '

每个段落都有一个 runs 属性,这是具有不同样式属性的文本分割列表。检查不同文本段落是否为粗体或斜体:

>>> doc.paragraphs[5].runs[0].bold
True
>>> doc.paragraphs[5].runs[0].italic
>>> doc.paragraphs[6].runs[0].bold
>>> doc.paragraphs[6].runs[0].italic
True

在示例 Word 文档中,大多数段落只有一个 run (即每个段落使用相同的样式),但我们在第 7 段中文本具有许多不同的样式。例如,Deep neural networks 使用粗体样式,DNNs 使用斜体样式:

>>> run_0 = doc.paragraphs[7].runs[0]
>>> run_0.text
'Deep neural networks'
>>> run_0.bold
True
>>> run_13 = doc.paragraphs[7].runs[13]
>>> run_13.text
'DNNs'
>>> run_13.italic
True

到此这篇关于Python 读取 Word 文档操作的文章就介绍到这了,更多相关Python 读取 Word 文档内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: Python 读取 Word 文档操作

本文链接: https://www.lsjlt.com/news/120131.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python 读取 Word 文档操作
    目录前言Python 读取 Word 文档安装 python-docx库前言 Word 文档 (.docx) 是另一种主要用于存储文本的常见文档。它们通常由 Mi...
    99+
    2022-11-11
  • Python读取Word文档内容
    Python读取Word文档内容 在Python中,我们可以使用Python-docx模块来读取Word文档内容。这个模块提供了一种方法,即使用Python代码来读取和编辑Word文档。 安装Pyth...
    99+
    2023-09-24
    word python 开发语言
  • C#怎么读取word文档
    本篇内容主要讲解“C#怎么读取word文档”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“C#怎么读取word文档”吧!C#读取word文档是如何实现的呢?我们可以使用FileStream对象来把...
    99+
    2023-06-17
  • Python-docx:读写word文档
    1 Python DocX目前是Python OpenXML的一部分,你可以用它打开Word 2007及以后的文档,而用它保存的文档可以在Microsoft Office 2007/2010, Microsof...
    99+
    2023-01-31
    文档 Python docx
  • python读取word文档表格里的数据
    首先需要安装相应的支持库: 直接在命令行执行pip install python-docx 示例代码如下: import docx from docx import Document #导入库 path = "E:\\pyt...
    99+
    2023-01-31
    表格 文档 数据
  • python之python-docx:操作 office word 文档
    在Python中,有一个名为python-docx的库,它提供了丰富的功能,可以方便地创建、修改和读取Word文档。 本文将详细介绍python-docx库的使用,并提供一些示例来演示其中的功能。为了更好地理解,我们将分为以下几个方面进行讨...
    99+
    2023-08-31
    c# 开发语言 word
  • 怎么用Python读写word文档
    本篇内容主要讲解“怎么用Python读写word文档”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“怎么用Python读写word文档”吧!1.Python写word文档要操作word文档首先需要...
    99+
    2023-06-02
  • 怎么用php读取word文档内容
    要使用PHP读取Word文档内容,可以使用PHPWord库。以下是一个简单的示例: 首先,你需要在PHP项目中引入PHPWord...
    99+
    2023-10-25
    php
  • JAVA读取PDF、WORD文档实例代码
    读取PDF文件jar引用<dependency> <groupid>org.apache.pdfbox</groupid> pdfbox</artifactid> <version...
    99+
    2023-05-31
    java word文档 pdf文档
  • Python操作word文档的示例详解
    目录写在前面创建一个文档先实现第一步,写入一个标题添加文字段落列表的添加图片的添加表格添加相关样式设置页眉和页脚写在前面 python-docx 不支持 doc 文档,一定要注意该点...
    99+
    2022-11-13
  • python读取pdf文档
    # -*- coding: utf-8 -*- #读取pdf文档 from pdfminer.pdfparser import PDFParser,PDFDocument from pdfminer.pdfinterp impo...
    99+
    2023-01-31
    文档 python pdf
  • 利用Python实现读取Word文档里的Excel附件
    目录解压缩Microsoft OLE2 文件分析与提取分析安装提取再次使用 file 分析完整代码如下使用正确的后缀保存附件安装获取后缀安装获取后缀正确的文件名群里有人提出这么一个需...
    99+
    2022-12-16
    Python读取Word中Excel附件 Python读取Excel附件 Python Word Excel
  • C#实现读取txt文件生成Word文档
    目录dll文件安装(3种方法)读取txt生成Word注意事项总结本文将以C#程序代码为例介绍如何来读取txt文件中的内容,生成Word文档。在编辑代码前,可参考如下代码环境进行配置:...
    99+
    2022-11-13
  • java如何读取word文档表格内容
    要读取Word文档中的表格内容,可以使用Apache POI库来处理Word文档。以下是一个简单的示例代码,演示如何读取Word文档...
    99+
    2023-09-22
    java word
  • C#读取Word文档异常的处理方法
    这篇文章主要讲解了“C#读取Word文档异常的处理方法”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“C#读取Word文档异常的处理方法”吧!C#读取Word文档是项目中要实现的一个功能,在服...
    99+
    2023-06-17
  • 如何使用python docx模块操作word文档
    目录引言打开文档正文应用字符样式(字体,大小,颜色)添加标题操作段落添加段落删除段落替换文字设置段落对齐方式字体格式添加分页符添加表添加图片图像大小应用段落样式应用粗体和斜体应用字符...
    99+
    2022-11-11
  • Python批量对word文档进行操作步骤
    目录导读应用细节介绍导读 前面几章我们以经介绍了怎么批量对excel和ppt操作今天我们说说对word文档的批量操作 应用 python-docx允许您创建新文档以及对现有文档进行更...
    99+
    2022-11-13
  • python读取pdf文档-实战
    # -*- coding: utf-8 -*- #读取pdf文档 from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LAPar...
    99+
    2023-01-31
    实战 文档 python
  • Go语言读取txt文档的操作方法
    读取文件是所有编程语言中最常见的操作之一。本教程我们将了解如何使用 Go 读取txt文档。 文档内容每行是一个文件名信息,含有空格区分不同项;ioutil.ReadFile返回的是[...
    99+
    2022-11-13
  • C#怎么设置、删除、读取Word文档背景
    这篇文章主要讲解了“C#怎么设置、删除、读取Word文档背景”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“C#怎么设置、删除、读取Word文档背景”吧!Spire.Cloud.Word.Sd...
    99+
    2023-06-03
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作