iis服务器助手广告广告
返回顶部
首页 > 资讯 > 操作系统 >如何在Linux上从图像和PDF中提取文本
  • 173
分享到

如何在Linux上从图像和PDF中提取文本

2023-06-15 14:06:16 173人浏览 八月长安
摘要

本篇内容介绍了“如何在linux上从图像和pdf中提取文本”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!gImageReader是Tesse

本篇内容介绍了“如何在linux上从图像和pdf中提取文本”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

gImageReader是Tesseract开源OCR引擎的前端。Tesseract最初是由HP开发的,然后于2006年开源。

基本上,OCR(Optical Character Recognition光学字符识别)引擎使您可以扫描图片或文件(PDF)中的文本。默认情况下,它可以检测多种语言,并且还支持通过Unicode字符进行扫描。

但是,Tesseract本身就是没有任何GUI的命令行工具。因此,在这里,gImageReader可以帮助任何用户利用它来从图像和文件中提取文本。

让我重点介绍一些有关它的内容,同时提及我在测试期间的使用经验。

gImageReader:Tesseract OCR的跨平台前端

为了简化工作,gImageReader可以方便地从PDF文件或包含任何类型文本的图像中提取文本。

无论是拼写检查还是翻译都需要它,它对于特定的用户组应该很有用。

gImageReader功能介绍:

  •  从磁盘,扫描设备,剪贴板和屏幕截图添加PDF文档和图像

  •  旋转图像的能力

  •  通用图像控件可调节亮度,对比度和分辨率

  •  直接通过应用程序扫描图像

  •  能够一次处理多个图像或文件

  •  手动或自动识别区域定义

  •  识别纯文本或hOCR文档

  •  编辑器显示识别的文本

  •  可以拼写检查提取的文本

  •  从hOCR文档转换/导出为PDF文档

  •  将提取的文本导出为.txt文件

  •  跨平台(windows

在Linux上安装gImageReader

注意:您需要显式安装Tesseract语言包以从软件管理器中的图像/文件中进行检测。

您可以在某些Linux发行版(例如Fedora和Debian)的默认存储库中找到gImageReader。

对于ubuntu,您需要添加一个PPA,然后再安装它。为此,您需要在终端中输入以下内容:

linuxmi@linuxmi:~/www.linuxmi.com$ sudo add-apt-repository ppa:sandromani/gimagereader  linuxmi@linuxmi:~/www.linuxmi.com$ sudo apt update linuxmi@linuxmi:~/www.linuxmi.com$ sudo apt install gimagereader tesseract-ocr tesseract-ocr-eng tesseract-ocr-chi-sim tesseract-ocr-chi-tra -y  linuxmi@linuxmi:~/www.linuxmi.com$ sudo apt install tesseract-ocr-chi-sim-vert tesseract-ocr-chi-tra-vert -y

您还可以从其构建服务中为openSUSE找到它,AUR将成为Arch Linux用户的地方。

到存储库和软件包的所有链接都可以在其GitHub页面中找到。

使用gImageReader的经验

gImageReader是一个非常有用的工具,可以在需要时从图像中提取文本。当您尝试使用PDF文件时,它的效果很好。

为了从智能手机拍摄的照片中提取图像,检测很接近,但是有点不准确。也许当您扫描某些内容时,从文件中识别字符可能会更好。

因此,您必须自己尝试一下,看看它在您的用例中的效果如何。我在Ubuntu 20.04.2 LTS上进行了尝试。

操作步骤

打开 gImageReader

添加pdf

识别语言选择 多种语言 ==> 简体字[chi_sim]+ English[eng]

如何在Linux上从图像和PDF中提取文本

复制或保存识别文本

操作结果参照下图:

如何在Linux上从图像和PDF中提取文本

我只是在管理设置中的语言时遇到了一个问题,但没有得到快速的解决方案。如果遇到此问题,则可能需要对其进行故障排除,并进一步了解如何解决该问题。

如何在Linux上从图像和PDF中提取文本

“如何在Linux上从图像和PDF中提取文本”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注编程网网站,小编将为大家输出更多高质量的实用文章!

--结束END--

本文标题: 如何在Linux上从图像和PDF中提取文本

本文链接: https://www.lsjlt.com/news/280603.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 如何在Linux上从图像和PDF中提取文本
    本篇内容介绍了“如何在Linux上从图像和PDF中提取文本”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!gImageReader是Tesse...
    99+
    2023-06-15
  • 如何在Linux上使用gImageReader从图像和PDF中提取文本
    本篇文章为大家展示了如何在Linux上使用gImageReader从图像和PDF中提取文本,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。gImageReader 是一个 GUI 工具,用于在 Lin...
    99+
    2023-06-15
  • Linux中如何从ISO镜像提取和复制文件
    这篇文章给大家分享的是有关Linux中如何从ISO镜像提取和复制文件的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。在 Linux 系统下提取 ISO 镜像文件为了完成该测试,你得有一个 ISO 镜像文件(我使用 ...
    99+
    2023-06-27
  • Python从图像中提取文本及其坐标
    Python从图像中提取文本及其坐标 在数字化时代,文本数据已经成为人们生活和工作中重要的数据形式。有时候我们需要从图片中提取文字信息,这就要用到Python编程语言中OCR技术的应用了。本文将介绍如...
    99+
    2023-09-06
    python 数学建模 开发语言
  • 在 Python 中从图像中提取表格
    从图像中提取表格可能是一项乏味且耗时的任务,尤其是当您有大量图像需要处理时。但是,使用正确的工具和技术,您可以自动化此过程并快速轻松地从图像中提取表格。 在本文中,我们将探讨如何使用 Python 从...
    99+
    2023-09-05
    python opencv 开发语言
  • 学习如何使用Microsoft的PowerToys提取图像、PDF或屏幕中的文本
    当Windows 11首次发布时,许多高级用户对操作系统提供的缺乏工具感到失望。 Microsoft长期以来一直在开发PowerToys,因为它提供了更强大的工具来执行PC上的各种任务。多年来,PowerToys中添加了许多功能和工具,最新...
    99+
    2023-08-03
  • Python--从PDF中提取文本的方法总结
    目录 前言 一、pdfplumber 二、pdfminer 三、fitz / pymupdf 四、性能对比 前言 这段时间做了好几个关于年报的需求,其中无一例外需要从年报PDF中提取文本再进行下一步的操作。为了提高效率,对...
    99+
    2023-09-03
    python pdf 自动化
  • Python中怎么从图像中读取文本
    本篇文章为大家展示了Python中怎么从图像中读取文本,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。OpenCV现在,这个库将只用于加载图像,实际上你不需要事先对它有太多了解(尽管它可能有帮助,你将...
    99+
    2023-06-16
  • 如何提高Android从文件中读取图像的效率
    本篇文章给大家分享的是有关如何提高Android从文件中读取图像的效率,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。方法一start_time = Syst...
    99+
    2023-05-31
    android roi %d
  • Python如何从PDF中提取元数据
    这篇文章主要讲解了“Python如何从PDF中提取元数据”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python如何从PDF中提取元数据”吧!PyPdf PyPDF2 PyPDF4的历史最...
    99+
    2023-06-02
  • 在Linux系统下怎么从ISO镜像中提取和复制文件
    这篇文章主要介绍了在Linux系统下怎么从ISO镜像中提取和复制文件,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。在 Linux 系统下提取 ISO 镜像文件为了完成该测试,...
    99+
    2023-06-16
  • 如何在Linux上将文本文件转换成PDF格式
    本篇内容介绍了“如何在Linux上将文本文件转换成PDF格式”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!提问: 我想要将一个纯文本文件转换...
    99+
    2023-06-13
  • Linux系统中如何利用node.js提取Word(doc/docx)及PDF文本
    这篇文章给大家分享的是有关Linux系统中如何利用node.js提取Word(doc/docx)及PDF文本的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。前言想要做全文...
    99+
    2024-04-02
  • 如何在iPhone上提取RAR文件
    很多时候,非常大的文件很难在设备之间共享,尤其是智能手机等。因此,这些文件先被RAR文件存档/压缩,然后共享到另一设备。但问题是RAR文件不容易在iPhone上提取。要提取zip文件,只需轻点一下即可。对于初学者来说,提取RAR文件在iPh...
    99+
    2023-07-12
  • 如何从 HTML 中读取文本文件
    html无法直接读取文本文件。可以通过javascript使用filereader api实现:1. 获取文件输入元素;2. 监听文件选择事件;3. 创建一个filereader对象;4...
    99+
    2024-04-09
    html 文本文件
  • 如何在 PHP 中从 JSON 中提取数据
    在本文中,我们将介绍在 PHP 中从 JSON 中提取数据的方法。 使用 json_decode() 函数 在 PHP 中使用 json_decode() 函数从 JSON 中提取数据...
    99+
    2024-02-27
  • C++如何从文件中提取英文单词
    本篇内容主要讲解“C++如何从文件中提取英文单词”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“C++如何从文件中提取英文单词”吧!思路:打开文件读取每一行找到特殊的标点符号的位置,进行删除。根据...
    99+
    2023-07-02
  • C#/VB.NET如何实现从PPT中提取图片
    本文小编为大家详细介绍“C#/VB.NET如何实现从PPT中提取图片”,内容详细,步骤清晰,细节处理妥当,希望这篇“C#/VB.NET如何实现从PPT中提取图片”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。程序环...
    99+
    2023-07-05
  • 学习php中如何获取pdf文件中的文本内容
    学习php中如何获取pdf文件中的文本内容 要使用PHP获取PDF文件中的文本内容,可以使用PDF解析库。以下是一些流行的PDF解析库: pdftotext:它是一个命令行工具,可以将PD...
    99+
    2023-09-01
    学习 php pdf
  • 如何在图片上使用Alt文本
    在图片上使用Alt文本包括以下几个核心步骤:1、选择合适的图片,2、编写描述性的Alt文本,3、合理使用关键词,4、遵守长度限制,5、代码插入。Alt文本(替代文本)是用于描述图片内容的文本,主要用于提高网站的可访问性和搜索引擎优化。一个好...
    99+
    2023-10-29
    文本 如何在 图片
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作