首页 > 资讯 > 后端开发 > Python >通过Python的pytesseract库识别图片中的文字

626

分享到

通过Python的pytesseract库识别图片中的文字

python 人工智能计算机视觉图像处理 2023-09-12 22:09:38 626人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

文章目录前言一、pytesseract1.pytesseract是什么？2.安装pytesseract3.查看pytesseract版本4.安装PIL5.查看PIL版本二、Tesser

文章目录

前言
一、pytesseract
二、Tesseract OCR
三、使用方法
总结

前言

大家好，我是空空star，本篇给大家分享一下通过python的pytesseract库识别图片中的文字。
本篇所用软件相关版本：
MacOS 11.6.5
Python 3.8.9
pytesseract 0.3.10
Pillow 9.4.0

一、pytesseract

1.pytesseract是什么？

Pytesseract是一个Python的OCR库，它可以识别图片中的文本并将其转换成文本形式。Pytesseract基于Google的Tesseract OCR引擎，具有较高的准确性和可靠性。它可以读取多种格式的图片，包括PNG、JPEG、GIF等。Pytesseract可以应用于自然语言处理、数据挖掘、OCR识别等领域。

2.安装pytesseract

pip install pytesseract

3.查看pytesseract版本

pip show pytesseract

Name: pytesseract
Version: 0.3.10
Summary: Python-tesseract is a python wrapper for Google’s Tesseract-OCR
Home-page: https://GitHub.com/madmaze/pytesseract
Author: Samuel Hoffstaetter
Author-email: samuel@hoffstaetter.com
License: Apache License 2.0
Requires: packaging, Pillow
Required-by:

4.安装PIL

Pillow库是Python图像处理库，pytesseract使用它来处理图像。

pip install pillow

5.查看PIL版本

pip show pillow

Name: Pillow
Version: 9.4.0
Summary: Python Imaging Library (Fork)
Home-page: Https://python-pillow.org
Author: Alex Clark (PIL Fork Author)
Author-email: aclark@python-pillow.org
License: HPND
Requires:
Required-by: image, imageio, matplotlib, pytesseract, Wordcloud

二、Tesseract OCR

1.Tesseract OCR是什么？

Tesseract OCR是一种开源的OCR（Optical Character Recognition，光学字符识别）引擎，它能够将图像中的文本内容识别并转换为可编辑的文本格式。它最初由惠普实验室开发，现在由谷歌维护和更新。Tesseract OCR支持超过100种语言，包括中文、英文、法文、德文等。它可以在多种操作系统上运行，包括windows、linux、macOS等。Tesseract OCR被广泛应用于数字化文档、自动化数据输入、智能搜索等方面。

2.安装Tesseract OCR

macOS下：

brew install tesseract

3.安装 Tesseract OCR 语言包

macOS下：

brew install tesseract-lang

三、使用方法

1.引入库

import pytesseractfrom PIL import Image

2.打开图片文件

img = Image.open("demo.png")

3.使用Tesseract进行文字识别

text = pytesseract.image_to_string(img, lang='chi_sim')

4.输出识别结果

print(text)

左：原图
右：识别出的文字截图

总结

image_to_string是一个Python函数，它是由tesseract OCR引擎提供的。这个函数的作用是将一个图像中的文本转换成字符串，也就是把图像中的文字识别出来，并把它们转换成计算机可以处理的字符串格式。这个函数可以接受多种格式的图像，例如JPEG、PNG、BMP等。在使用这个函数前，需要确保已经安装了tesseract OCR引擎。

来源地址：https://blog.csdn.net/weixin_38093452/article/details/130507160

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 通过Python的pytesseract库识别图片中的文字

本文链接: https://www.lsjlt.com/news/405164.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

通过Python的pytesseract库识别图片中的文字

文章目录前言一、pytesseract1.pytesseract是什么？2.安装pytesseract3.查看pytesseract版本4.安装PIL5.查看PIL版本二、Tesser...

99+

2023-09-12

python 人工智能计算机视觉图像处理
Python通过pytesseract库实现识别图片中的文字

目录前言一、pytesseract1.pytesseract是什么2.安装pytesseract3.查看pytesseract版本4.安装PIL5.查看PIL版本二、Tesserac...

99+

2023-05-19

Python pytesseract识别图片中文字 Python pytesseract识别文字 Python pytesseract
【Python • 图片识别】pytesseract快速识别提取图片中的文字

提示：本文多图，请手机端注意流量。文章目录前言一、配置环境1. 安装python依赖2. 安装识别引擎安装tesseract识别引擎`（可跳过）`验证是否安装成功二、使...

99+

2023-09-10

python 开发语言
python利用pytesseract快速识别提取图片中的文字((图片识别)

目录前言一、配置环境1. 安装python依赖2. 安装识别引擎二、使用步骤1.引入库2.提取图片文字3.运行效果总结提示：本文多图，请手机端注意流量。前言利用python做图...

99+

2022-11-13

python pytesseract识别图片文字 python pytesseract提取图片文字 python pytesseract图片中文字
如何利用Python识别图片中的文字

这篇文章将为大家详细讲解有关如何利用Python识别图片中的文字，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。一、Tesseract文字识别是ORC的一部分内容，ORC的意思是光学字符识别，通俗讲就是文字...

99+

2023-06-15
使用python进行图片的文字识别

使用python进行图片的文字识别文章目录使用python进行图片的文字识别安装 Tesseract OCR安装过程配置系统的环境变量安装python的第三方库Pytesserac...

99+

2023-09-08

python windows pytesseract Tesseract ORC
Python 图片文字识别的实现之PaddleOCR

目录项目使用项目结构环境部署1、安装Anaconda，构造虚拟环境2、依赖包下载测试代码参数补充总结前言什么是OCR? 光学字符识别（Optical Character R...

99+

2024-04-02
使用Python中的pytesseract模块实现抓取图片中文字

目录一、需求分析二、方案选择三、实验实操3.1、配置环境3.2、 Anaconda配置3.3、安装tesseract程序3.4、安装pytesseract模块3.5、见证奇迹的环节一...

99+

2022-11-13

Python pytesseract模块抓取图片中文字 Python pytesseract图片文字 python识别图片文字
如何利用Python识别图片中的文字详解

一、Tesseract 文字识别是ORC的一部分内容，ORC的意思是光学字符识别，通俗讲就是文字识别。Tesseract是一个用于文字识别的工具，我们结合Python使用可以很快的实...

99+

2024-04-02
Python如何实现图片文字识别

这篇文章主要为大家展示了“Python如何实现图片文字识别”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“Python如何实现图片文字识别”这篇文章吧。前言什么是OCR光学字符识别（Optical...

99+

2023-06-25
通过Python的fitz库提取pdf中的图片

文章目录前言一、fitz库是什么？二、安装fitz库三、查看fitz库版本四、pymupdf库是什么？五、安装pymupdf库六、查看pymupdf库版本七、fitz和pymupdf是什么关...

99+

2023-08-31

python pdf 开发语言
C#.NET实现扫描识别图片中的文字

目录环境配置操作步骤调用API接口扫描并读取图片中的文字C#VB.NET注意事项环境配置本文以C#及VB.NET代码为例，介绍如何扫描并读取图片中的文字。本次程序环境如下： ...

99+

2024-04-02
Python实现识别图片为文字的示例代码

目录1、环境准备2、业务实现3、效果展示本来想着做一个将图片识别为文字的小功能，本想到Google上面第一页全是各种收费平台的广告。这些平台提供的基本都是让我们通过调用相关的三方接...

99+

2024-04-02
通过Python的PIL库给图片添加文本水印

文章目录前言一、PIL是什么？二、安装PIL三、查看PIL版本四、使用PIL库给图片添加文本水印1.引入库2.打开图片文件3.新建一个Draw对象4.设置水印文字、字体、大小5.设置水印颜色...

99+

2023-10-25

图像处理人工智能 python
python常用的OCR文字识别与图片定位方式

python常用的OCR文字识别与图片定位方式前言统一版本更换pip源 1. Python调用百度文字识别ocr的实现方式1.1 使用PyCharm安装依赖baidu-aipcharde...

99+

2023-09-02

python pycharm 开发语言
Python基于百度API识别并提取图片中文字

利用百度 AI 开发平台的 OCR 文字识别 API 识别并提取图片中的文字。首先需注册获取 API 调用的 ID 和 key，步骤如下：打开百度AI开放平台，进入控制台中的文字识...

99+

2024-04-02
通过Python的PyPDF2库提取pdf中的文字

文章目录前言一、PyPDF2库是什么？二、安装PyPDF2库三、查看PyPDF2库版本四、使用方法1.引入库2.定义pdf路径3.打开PDF文件4.创建PDF阅读器对象5.获取PDF文件中的...

99+

2023-09-10

pdf 人工智能开发语言 python
python图片文本识别的简单实现

http://blog.sina.com.cn/s/blog_628cc2b70101cjvp.html Python图片文本识别使用的工具是PIL和pytesser。因为他们使用到很多的python库文件，为了避免一个个工具的安装，建议...

99+

2023-01-31

文本简单图片
C# .NET如何实现扫描识别图片中的文字

C# .NET如何实现扫描识别图片中的文字，针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。环境配置本文以C#及VB.NET代码为例，介绍如何扫描并读取图片中的文字。...

99+

2023-06-22
python识别批量网站中的图片

需要实现的功能：给出一个网站列表，抓出这些网页上的图片。实现方式：下载网页源码，在源码中识别包含图片url的标签，如<img>,<div>,<li>。由于对html了解较少，哪些标签可能含有图片是从...

99+

2023-01-30

批量图片网站