iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >如何用 Python 进行 OCR 图像识别
  • 293
分享到

如何用 Python 进行 OCR 图像识别

2023-06-15 15:06:34 293人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

这篇文章主要介绍“如何用 python 进行 OCR 图像识别”,在日常操作中,相信很多人在如何用 Python 进行 OCR 图像识别问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何用 Python 进行

这篇文章主要介绍“如何用 python 进行 OCR 图像识别”,在日常操作中,相信很多人在如何用 Python 进行 OCR 图像识别问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何用 Python 进行 OCR 图像识别”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

数据采集就怕遇到图片,只能看不能复制怎么办。手动将文字提取出来,要耗费很大的工作量。例如下图,某楼盘的一房一价表,怎么样发现单价低位的房子?光凭肉眼很难发现吧,能否让计算机进行文字的识别,然后再对这些数值型信息进行数据分析

如何用 Python 进行 OCR 图像识别

如何用 Python 进行 OCR 图像识别

如何用 Python 进行 OCR 图像识别

首先把图片中的单价提取出来,

如何用 Python 进行 OCR 图像识别

进而生成图像:

如何用 Python 进行 OCR 图像识别

用python就可以实现,采用现在流行的OCR图像识别。主要思路是使用机器学习模式,通过已有图片手动训练出一个图像识别模型,具体步骤如下:

一、将图片预处理,更方便计算机识别

(一)把图像灰化

使用open-cv库对图片进行处理。

如何用 Python 进行 OCR 图像识别

使用灰化后的图片,如下图,排除干扰信息,能让识别更加稳定。

如何用 Python 进行 OCR 图像识别

(二)把图片分割

将图片分割成小方块,一是提高识别精度,二是方便将数据储存为表格形式。可以设定好参数,根据坐标系把图片裁剪成一个个小方块,如下图,储存为jpg格式。

如何用 Python 进行 OCR 图像识别

二、建立图像识别模型

(一)将分割好的小方块图片合并成tiff文件

下载jTessBoxEditor,打开jTessBoxEditor.jar,使用tools下的merge tiff工具,将图片合并成tiff文件。

(二)使用已有模型对tiff文件进行初识别

下载并安装tesseract,并配置好环境变量,将Tesseract-OCR和tessdata的路径加入到环境变量下的path下面。Tesseract自带图像识别的模型,例如中文简体汉字识别模型chi_sim.traineddata,英文识别模型eng.traineddata,这些模型可以网上下载,放到tessdata里面即可使用。

然后进入tiff所在文件夹。在命令窗口,输入:tesseract ***.tif *** -l +++ -psm 7 batch.nochop  makebox,按回车生成box文件。其中***为tif的文件名,+++为要生成的traindata的文件名。

(三)使用jTessBoxEditor对tiff和box文件进行调整

打开jTessBoxEditor.jar,在box  editor中的open按钮,打开要编辑的tif文件。编辑之后保存,生成box文件。保存在同一个文件夹里。

(四)使用tiff和box文件生成模型

在tiff和box的文件中,在命令窗口输入以下代码,最终生成模型(traindata文件)

如何用 Python 进行 OCR 图像识别

上述脚本也可以写在bat文件中,运行脚本来生成traindata,最终仅需要将traindata复制到tessdata里面,即可使用该模型。

三、应用图像识别模型

安装完,训练完模型之后,就要在python中使用模型了。安装pytesseract,找到pytesseract.py文件,打开编辑,将其中的“tesseract_cmd  = 'tesseract'”,改成tesseract的安装路径(如C:\Program Files\Tesseract-OCR\\tesseract)。

因为模型是采用灰化后的图片训练的,所以在识别时也要使用灰化。

如何用 Python 进行 OCR 图像识别

四、优化图像识别模型

在使用中,如果有错误,可以存下来,加入训练库,优化图像识别模型。在一般是识别错误的图片,积攒一阵子后。累积做成tif文件。注意:同类错误选择几个记号了,训练库尽量小而精。

到此,关于“如何用 Python 进行 OCR 图像识别”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注编程网网站,小编会继续努力为大家带来更多实用的文章!

--结束END--

本文标题: 如何用 Python 进行 OCR 图像识别

本文链接: https://www.lsjlt.com/news/280663.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 如何用 Python 进行 OCR 图像识别
    这篇文章主要介绍“如何用 Python 进行 OCR 图像识别”,在日常操作中,相信很多人在如何用 Python 进行 OCR 图像识别问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何用 Python 进行...
    99+
    2023-06-15
  • 如何使用Python实现图像文字识别OCR
    要使用Python实现图像文字识别OCR,可以使用以下步骤: 安装Tesseract OCR引擎 Tesseract是一种开源OCR引擎,可以处理多种语言和字体。要使用Python进行OCR,需要安装Tesseract OCR引擎。安装...
    99+
    2023-09-09
    python opencv 计算机视觉 Powered by 金山文档
  • 如何用Python实现图像文字识别OCR工具
    这篇文章主要介绍“如何用Python实现图像文字识别OCR工具”,在日常操作中,相信很多人在如何用Python实现图像文字识别OCR工具问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何用Python实现图像...
    99+
    2023-06-22
  • 如何使用PHP进行图像识别?
    随着人工智能技术的发展,图像识别在各个领域的应用越来越广泛。而PHP作为一种流行的Web编程语言,也可用于图像识别的应用。本文将介绍如何使用PHP进行图像识别。一、什么是图像识别?图像识别,也被称为图像分类或图像识别,是通过计算机程序对数字...
    99+
    2023-05-21
    机器学习 PHP 图像识别
  • 如何使用PHP进行OCR识别和文字识别?
    随着数字化时代的不断发展,有大量的纸质文件需要进行数字化,以方便存储和检索。为了能够有效地进行数据转换,很多公司和个人选择了OCR技术(Optical Character Recognition,光学字符识别),它可以将扫描的纸质文档中的文...
    99+
    2023-05-21
    PHP OCR识别 文字识别
  • 如何在Python中进行图像处理和识别
    如何在Python中进行图像处理和识别摘要:现代技术使得图像处理和识别在许多领域中成为了一个重要的工具。Python作为一种易于学习和使用的编程语言,具有丰富的图像处理和识别库。本文将介绍如何使用Python进行图像处理和识别,并提供具体的...
    99+
    2023-10-22
    图像处理 图像识别 Python编程
  • 基于Python实现图像文字识别OCR工具
    目录引言功能列表OCR部分界面部分软件代码参考链接引言 最近在技术交流群里聊到一个关于图像文字识别的需求,在工作、生活中常常会用到,比如票据、漫画、扫描件、照片的文本提取。 博主基于...
    99+
    2024-04-02
  • java使用tesseract-ocr进行文字识别
    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、tesseract-ocr是什么?二、使用步骤1.下载exe安装包2.安装3.使用3.设置全局path...
    99+
    2023-09-11
    java 开发语言
  • 使用python如何做图像识别
    在python中使用pytesseract模块实现一个图像识别,具体方法如下:import pytesseract #导入pytesseract模块from PIL import Imageclass GetImageDate(object...
    99+
    2024-04-02
  • 【python 图像识别】图像识别从菜鸟
    一、安装配置(python2.7) 1.pip install pytesseract 2、pip install pyocr 3、pip install pillow 4、安装tesseract-ocr:http://jaist...
    99+
    2023-01-31
    图像 菜鸟 python
  • 如何使用PHP进行图像识别和物体检测?
    随着人工智能技术的不断发展,图像识别与物体检测已成为热门的研究方向。而在实践中,PHP作为一种流行的脚本语言,也可以用于图像识别和物体检测。本文将介绍如何使用PHP进行图像识别和物体检测。一、PHP图像处理库在使用PHP进行图像识别和物体检...
    99+
    2023-05-23
    PHP 图像识别 物体检测
  • 如何使用Python实现图像识别?
            在当今的数字化时代,图像识别技术已经成为了人工智能领域中的一个热门话题。图像识别技术可以将数字图像转换为可供计算机程序理解的数据,并对图像内容进行分析和处理。Python是目前最受欢迎的编程语言之一,也是图像识别技术中最常用...
    99+
    2023-09-01
    python
  • 如何实现Opencv图片的OCR识别
    小编给大家分享一下如何实现Opencv图片的OCR识别,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!一、图片变换0、导入模块导入相关函数,遇到报错的话,直接pip...
    99+
    2023-06-06
  • 如何使用PHP进行AI人脸识别和图像分析?
    人工智能技术在现代社会中扮演着越来越重要的角色,其中人脸识别和图像分析是最常见的应用之一。虽然Python是人工智能领域中最流行的编程语言之一,但是PHP作为一种在Web开发中广泛使用的语言,它也可以用于实现AI人脸识别和图像分析。本文将带...
    99+
    2023-05-23
    AI 人脸识别 PHP
  • 如何利用OCR文字识别各种图文
    这篇文章主要讲解了“如何利用OCR文字识别各种图文”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“如何利用OCR文字识别各种图文”吧!【先上一张效果图】:一、原理:其实原理很简单:手机投屏到电...
    99+
    2023-06-19
  • Python中如何实现图像识别
    Python中如何实现图像识别,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。1. 安装Python 3.5.1或更高版本和pip(如果您已经安装了Python 3.5.1或...
    99+
    2023-06-17
  • C#使用Tesseract进行Ocr识别的方法实现
    目录1.Nuget搜索Tesseract2.项目安装Tesseract3.引用命名空间4.上Github下载别人的训练库5.选择图片进行识别1.Nuget搜索Tesseract 2...
    99+
    2024-04-02
  • Java如何使用Tessdata做OCR图片文字识别
    这篇文章主要介绍“Java如何使用Tessdata做OCR图片文字识别”,在日常操作中,相信很多人在Java如何使用Tessdata做OCR图片文字识别问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Java如...
    99+
    2023-06-20
  • PHP中如何进行人脸识别和图像处理应用开发?
    在当今数字化时代,图像处理技术已成为了一种必备的技能,而人脸识别技术则被广泛应用于各行各业。其中,PHP作为一门广泛应用于web开发的脚本语言,其在人脸识别和图像处理应用开发方面的技术初步成熟,而其开发工具和框架也在不断发展。本文将给大家介...
    99+
    2023-05-14
    人脸识别 图像处理 PHP
  • Python怎么识别图像
    这篇文章主要介绍“Python怎么识别图像”,在日常操作中,相信很多人在Python怎么识别图像问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Python怎么识别图像”的疑惑有所帮助!接下来,请跟着小编一起来...
    99+
    2023-06-17
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作