C#/VB.NET中从 PDF 文档中提取所有表格

C#/VB.NET 从 PDF 文档提取表格 2022-11-13 14:11:52 323人浏览泡泡鱼

摘要

目录前言安装从pdf文档中提取表格前言有时，我们可能需要从 PDF 文档中提取表格数据，例如，当PDF发票的表格中存储了一些有用的信息，需要提取数据以进行进一步分析时。在这篇文章中

前言

有时，我们可能需要从 PDF 文档中提取表格数据，例如，当PDF发票的表格中存储了一些有用的信息，需要提取数据以进行进一步分析时。在这篇文章中，我将介绍如何使用Spire.PDF for .net 从 PDF 文档中提取所有表格数据。

安装

首先，我们需要将 Spire.PDF for .NET 包中包含的 DLL 文件添加为 .NET 项目中的引用。可以从此链接下载 DLL 文件，也可以通过 NuGet 安装 DLL 文件。

PM> Install-Package Spire.PDF

从PDF文档中提取表格

Spire.PDF提供了PdfTableExtractor.ExtractTable()方法，用于从特定页面中提取表格。以下是从整个PDF文档中提取表格的详细步骤。

创建一个Document类的对象，并加载源 PDF 文件。
遍历文档中的页面，并使用ExtractTable()方法从特定页面获取表格列表。
遍历特定表格中的单元格，并通过PdfTable.GetText()方法获取单元格值。
将所提取的数据写入 TXT 文件。

[C#]

using Spire.Pdf;
using Spire.Pdf.Utilities;
using System.io;
using System.Text;

namespace ExtractTable
{
class Program
{
static void Main(string[] args)
{
//实例化PdfDocument类的对象
PdfDocument pdf = new PdfDocument();

//加载PDF文档
pdf.LoadFromFile("sample.pdf");

//创建StringBuilder类的对象
StringBuilder builder = new StringBuilder();

//实例化PdfTableExtractor类的对象
PdfTableExtractor extractor = new PdfTableExtractor(pdf);

//声明一个PdfTable类的表格数组
PdfTable[] tableLists;

//遍历PDF页面
for (int pageIndex = 0; pageIndex < pdf.Pages.Count; pageIndex++)
{
//从页面提取表格
tableLists = extractor.ExtractTable(pageIndex);

//判断表格列表是否为空
if (tableLists != null && tableLists.Length > 0)
{
//遍历表格
foreach (PdfTable table in tableLists)
{
//获取表格中的行和列数
int row = table.GetRowCount();
int column = table.GetColumnCount();

//遍历表格行和列
for (int i = 0; i < row; i++)
{
for (int j = 0; j < column; j++)
{
//获取行和列中的文本
string text = table.GetText(i, j);

//写入文本到StringBuilder容器
builder.Append(text + " ");
}
builder.Append("\r\n");
}
}
}
}
//保存提取的表格内容为.txt文档
File.WriteAllText("ExtractedTable.txt", builder.ToString());
}
}

VB.NET

Imports Spire.Pdf
Imports Spire.Pdf.Utilities
Imports System.IO
Imports System.Text

Namespace ExtractTable
Class Program
Private Shared Sub Main(args As String())
'实例化PdfDocument类的对象
Dim pdf As New PdfDocument()

'加载PDF文档
pdf.LoadFromFile("sample.pdf")

'创建StringBuilder类的对象
Dim builder As New StringBuilder()

'实例化PdfTableExtractor类的对象
Dim extractor As New PdfTableExtractor(pdf)

'声明一个PdfTable类的表格数组
Dim tableLists As PdfTable()

'遍历PDF页面
For pageIndex As Integer = 0 To pdf.Pages.Count - 1
'从页面提取表格
tableLists = extractor.ExtractTable(pageIndex)

'判断表格列表是否为空
If tableLists IsNot Nothing AndAlso tableLists.Length > 0 Then
'遍历表格
For Each table As PdfTable In tableLists
'获取表格中的行和列数
Dim row As Integer = table.GetRowCount()
Dim column As Integer = table.GetColumnCount()

'遍历表格行和列
For i As Integer = 0 To row - 1
For j As Integer = 0 To column - 1
'获取行和列中的文本
Dim text As String = table.GetText(i, j)

'写入文本到StringBuilder容器
builder.Append(text & Convert.ToString(" "))
Next
builder.Append(vbCr & vbLf)
Next
Next
End If
Next

'保存提取的表格内容为.txt文档
File.WriteAllText("ExtractedTable.txt", builder.ToString())
End Sub
End Class
End Namespace

到此这篇关于C#/VB.NET中从 PDF 文档中提取所有表格的文章就介绍到这了,更多相关C#提取表格内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: C#/VB.NET中从 PDF 文档中提取所有表格

本文链接: https://www.lsjlt.com/news/171654.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

C#/VB.NET中从 PDF 文档中提取所有表格

目录前言安装从PDF文档中提取表格前言有时，我们可能需要从 PDF 文档中提取表格数据，例如，当PDF发票的表格中存储了一些有用的信息，需要提取数据以进行进一步分析时。在这篇文章中...

99+

2022-11-13

C#/VB.NET 从 PDF 文档提取表格
C# 提取PDF中的表格详情

目录1、简单介绍2、环境配置3、代码示例1、简单介绍本文介绍在C#程序中（附VB.NET代码）提取PDF中的表格的方法，调用Spire.PDF for .NET提供的提取表格的类...

99+

2024-04-02
C#实现从PDF中提取表格的方法详解

目录程序环境从PDF中提取表格具体步骤完整代码PDF是办公中比较常见的一种文件格式，在工作中应用也越来越普遍。由于PDF文件集成度和安全可靠性都较高，所以在PDF中编辑内容是一件比较...

99+

2022-11-13

C# PDF提取表格 C# PDF 表格
Go Firestore 从集合中获取所有文档

对于一个Golang开发者来说，牢固扎实的基础是十分重要的，编程网就来带大家一点点的掌握基础知识点。今天本篇文章带大家了解《Go Firestore 从集合中获取所有文档》，主要介绍了，希望对大家的...

99+

2024-04-05
C#/VB.NET实现在PDF表格中添加条形码

目录类库引入及代码思路代码示例C#vb.net条码的应用已深入生活和工作的方方面面。在处理条码时，常需要和各种文档格式相结合。当需要在文档中插入、编辑或者删除条码时，可借助于一些专业...

99+

2024-04-02
在 Python 中从图像中提取表格

从图像中提取表格可能是一项乏味且耗时的任务，尤其是当您有大量图像需要处理时。但是，使用正确的工具和技术，您可以自动化此过程并快速轻松地从图像中提取表格。在本文中，我们将探讨如何使用 Python 从...

99+

2023-09-05

python opencv 开发语言
C#/VB.NET如何实现从PPT中提取图片

本文小编为大家详细介绍“C#/VB.NET如何实现从PPT中提取图片”，内容详细，步骤清晰，细节处理妥当，希望这篇“C#/VB.NET如何实现从PPT中提取图片”文章能帮助大家解决疑惑，下面跟着小编的思路慢慢深入，一起来学习新知识吧。程序环...

99+

2023-07-05
C#/VB.NET怎么实现在PDF表格中添加条形码

这篇文章主要介绍了C#/VB.NET怎么实现在PDF表格中添加条形码的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇C#/VB.NET怎么实现在PDF表格中添加条形码文章都会有所收获，下面我们一起来看看吧。类库引...

99+

2023-06-30
python之pdfminer:从PDF文档中抽取信息的工具

pdfminer是一个用于从PDF文档中抽取信息的Python库。它提供了一系列的功能，使我们能够读取和解析PDF文件，并从中提取文本内容、元数据、页面布局和图片等。本文将详细介绍pdfminer库的使用示例，包括安装、解析文档、提取文本和...

99+

2023-09-20

python 开发语言 pdfminer
Python--从PDF中提取文本的方法总结

目录前言一、pdfplumber 二、pdfminer 三、fitz / pymupdf 四、性能对比前言这段时间做了好几个关于年报的需求，其中无一例外需要从年报PDF中提取文本再进行下一步的操作。为了提高效率，对...

99+

2023-09-03

python pdf 自动化
通过Python的pdfplumber库提取pdf中表格数据

文章目录前言一、pdfplumber库是什么？二、安装pdfplumber库三、查看pdfplumber库版本四、提取pdf中表格数据1.引入库2.定义pdf文件路径3.打开pdf文件4.获...

99+

2023-09-05

python pdf 开发语言
python用pdfplumber提取pdf表格数据并保存到excel文件中

目录pdfplumber操作pdf文件一、pdfplumber安装及导入二、pdfplumber基础使用1、基础知识2、获取pdf基础信息3、pdfplumber提取表格数据三、提取...

99+

2024-04-02
numpy怎么从数组中提取所有奇数

您可以使用numpy中的逻辑运算符和索引来提取所有奇数。下面是一个示例代码： import numpy as np # 创建一个n...

99+

2023-10-26

numpy
如何在Linux上从图像和PDF中提取文本

本篇内容介绍了“如何在Linux上从图像和PDF中提取文本”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！gImageReader是Tesse...

99+

2023-06-15
Python怎么从不同表格中提取数据

Python怎么从不同表格中提取数据，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。获取谷歌表格数据访问谷歌表格是这三种方法中最复杂的，因为你需要在使用谷歌表格API前设置一些证...

99+

2023-06-16
C#/VB.NET实现从PPT中提取图片的示例代码

目录程序环境从整个演示文稿中提取图像完整代码效果图从特定演示幻灯片中提取图像完整代码效果图PowerPoint是用于制作幻灯片（演示文稿）的应用软件，每张幻灯片中都可以包含文字、图形...

99+

2023-03-14

C#实现PPT提取图片 C# PPT提取图片 C# PPT 图片
C++如何从文件中提取英文单词

本篇内容主要讲解“C++如何从文件中提取英文单词”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“C++如何从文件中提取英文单词”吧!思路：打开文件读取每一行找到特殊的标点符号的位置，进行删除。根据...

99+

2023-07-02
python提取word文件中的所有图片

前言办公中，偶尔会碰到一种情况，需要提取word文档中的图片，决定写这样一款工具自动提取图片。关于脚本的使用：情景1：如果你拿到的是一个文件夹，所有的word文件都在这个文件夹...

99+

2024-04-02
TS从目录中提取所有指定扩展名文件的方法

这篇文章主要介绍了TS从目录中提取所有指定扩展名文件的方法，具有一定借鉴价值，需要的朋友可以参考下。下面就和我一起来看看吧。“.ts”是一种高清视频封装格式文件，全称为MPEG2-TS，TS表示TransportStream；MPEG2-T...

99+

2023-07-06
TS如何从目录中提取所有指定扩展名的文件

目录TS如何从目录中提取所有指定扩展名的文件“.ts”是一种高清视频封装格式文件，全称为MPEG2-TS，TS表示TransportStream；MPEG2-...

99+

2023-05-20

TS提取所有指定扩展名的文件 TS提取目录扩展名文件