Mac 上使用 Tesseract OCR 识别图片文本

macos ocr 2023-10-07 10:10:04 387人浏览安东尼

摘要

Tesseract OCR 引擎：Tesseract是一个开源的OCR引擎，你需要先安装它。可以从Tesseract官方网站（https://GitHub.com/tesseract-ocr/tess

Tesseract OCR 引擎：Tesseract是一个开源的OCR引擎，你需要先安装它。可以从Tesseract官方网站（https://GitHub.com/tesseract-ocr/tesseract）下载适用于你的操作系统的安装程序或源代码，并按照官方文档进行安装。

Tesseract OCR 对于低分辨率或模糊的图片可能无法准确识别。尝试使用更高分辨率和清晰度的图片来提高识别结果的准确性。对于 Mac 上的截图，一般都是很清晰的，所以这个缺点影响不大。

在 Mac 上，使用官网推荐的方式安装：

brew install tesseract

The tesseract directory can then be found using brew info tesseract, e.g.

/usr/local/Cellar/tesseract/5.3.2/bin/tesseract

demo:

import pytesseractfrom PIL import Image# 可以写一个函数 crop_picture 将原图裁剪一下，只保留想要识别文本的部分，这样识别更加准确一些。def crop_picture(picture_path, crop_box: list):    """    crap picture with crop_box    :param picture_path: picture to be crapped    :param crop_box: crop region, eg: [100, 200, 300, 350]    :return: path of crapped picture    """    dirname = os.path.dirname(picture_path)    basename = os.path.basename(picture_path)    new_basename = ''.join([basename.split('.')[0], '_new.', basename.split('.')[1]])    picture_origin = Image.open(picture_path)    picture_origin_size = picture_origin.size    if crop_box[2] is None:        crop_box[2] = picture_origin_size[0]    if crop_box[3] is None:        crop_box[3] = picture_origin_size[1]    picture_new = picture_origin.crop(tuple(crop_box))    picture_new_path = os.path.join(dirname, new_basename)    picture_new.save(picture_new_path)    return picture_new_pathdef get_text_from_picture(picture_path, crop_box: list):    """    get text from picture    :param picture_path: picture to be crapped    :param crop_box: crop region, eg: [100, 200, 300, 350]    :return: text    """    pytesseract.pytesseract.tesseract_cmd = r'/usr/local/Cellar/tesseract/5.3.2/bin/tesseract'    picture_new_path = crop_picture(picture_path, crop_box=crop_box)    image = Image.open(picture_new_path)    text = pytesseract.image_to_string(image, lang='eng')    print(text)    return textif __name__ == '__main__':    get_text_from_picture('my_picture_path', crop_box=[585, 360, None, 800])

来源地址：https://blog.csdn.net/qq_31362767/article/details/131943091

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Mac 上使用 Tesseract OCR 识别图片文本

本文链接: https://www.lsjlt.com/news/424398.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Mac 上使用 Tesseract OCR 识别图片文本

Tesseract OCR 引擎：Tesseract是一个开源的OCR引擎，你需要先安装它。可以从Tesseract官方网站（https://github.com/tesseract-ocr/tess...

99+

2023-10-07

macos ocr
Java使用Tesseract-Ocr识别数字

目录前言简介在Java上使用创建项目，并引入Jar包导入traineddata编写测试代码训练工具训练数据仓库参考前言 Tesseract-Ocr是我在编写爬虫项目中，用来识别图片...

99+

2024-04-02
java使用tesseract-ocr进行文字识别

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、tesseract-ocr是什么？二、使用步骤1.下载exe安装包2.安装3.使用3.设置全局path...

99+

2023-09-11

java 开发语言
SpringBoot+OCR 实现图片文字识别

本篇介绍的是基于百度人工智能接口的文字识别实现。 1. 注册百度云，获得AppID 此处百度云非百度云盘，而是百度智能云。大家可进入https://cloud.baidu.com/...

99+

2024-04-02
Java如何使用Tessdata做OCR图片文字识别

这篇文章主要介绍“Java如何使用Tessdata做OCR图片文字识别”，在日常操作中，相信很多人在Java如何使用Tessdata做OCR图片文字识别问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Java如...

99+

2023-06-20
阿里云OCR图片文字识别（精确识别）

根据需求通过composer下载SDK包备注：composer 安装SDK包有问题可以指定版本进行升级（去掉版本号前的^符可以指定版本升级）代码实现： public function cs() { ...

99+

2023-09-07

阿里云服务器 php
如何在Java项目中使用OCR tesseract实现一个图文识别功能

如何在Java项目中使用OCR tesseract实现一个图文识别功能？针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。代码：package com.zhy.test; im...

99+

2023-05-31

java ocr tesseract ava
C#使用Tesseract进行Ocr识别的方法实现

目录1.Nuget搜索Tesseract2.项目安装Tesseract3.引用命名空间4.上Github下载别人的训练库5.选择图片进行识别1.Nuget搜索Tesseract 2...

99+

2024-04-02
Java使用Tessdata做OCR图片文字识别的详细思路

说到文字识别，目前除了用一些现成的api，大概就是 tessdata、canvas或者 ocrad等。 1、百度接口用过（可以自己去百度开发者申请，免费的），识别率吧，还可以，但也不...

99+

2024-04-02
不到十行实现javaCV图片OCR文字识别

spring boot项目pom文件中添加以下依赖 <!-- https://mvnrepository.com/artifact/org.bytedeco...

99+

2024-04-02
【项目管理】Java OCR实现图片文字识别

【项目管理】Java OCR实现图片文字识别 1.项目前言1.1 项目需求1.2 OCR引擎选择1.3 Tess4j介绍 2.项目实现2.1 项目搭建2.2 主要实现代码 3.效果演示...

99+

2023-09-03

Java Swing OCR Tess4J 文字识别
python常用的OCR文字识别与图片定位方式

python常用的OCR文字识别与图片定位方式前言统一版本更换pip源 1. Python调用百度文字识别ocr的实现方式1.1 使用PyCharm安装依赖baidu-aipcharde...

99+

2023-09-02

python pycharm 开发语言
如何使用Python实现图像文字识别OCR

要使用Python实现图像文字识别OCR，可以使用以下步骤：安装Tesseract OCR引擎 Tesseract是一种开源OCR引擎，可以处理多种语言和字体。要使用Python进行OCR，需要安装Tesseract OCR引擎。安装...

99+

2023-09-09

python opencv 计算机视觉 Powered by 金山文档
如何利用OCR文字识别各种图文

这篇文章主要讲解了“如何利用OCR文字识别各种图文”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“如何利用OCR文字识别各种图文”吧！【先上一张效果图】：一、原理：其实原理很简单：手机投屏到电...

99+

2023-06-19
如何使用PHP进行OCR识别和文字识别？

随着数字化时代的不断发展，有大量的纸质文件需要进行数字化，以方便存储和检索。为了能够有效地进行数据转换，很多公司和个人选择了OCR技术（Optical Character Recognition，光学字符识别），它可以将扫描的纸质文档中的文...

99+

2023-05-21

PHP OCR识别文字识别
使用python进行图片的文字识别

使用python进行图片的文字识别文章目录使用python进行图片的文字识别安装 Tesseract OCR安装过程配置系统的环境变量安装python的第三方库Pytesserac...

99+

2023-09-08

python windows pytesseract Tesseract ORC
python图片文本识别的简单实现

http://blog.sina.com.cn/s/blog_628cc2b70101cjvp.html Python图片文本识别使用的工具是PIL和pytesser。因为他们使用到很多的python库文件，为了避免一个个工具的安装，建议...

99+

2023-01-31

文本简单图片
如何用Python实现图像文字识别OCR工具

这篇文章主要介绍“如何用Python实现图像文字识别OCR工具”，在日常操作中，相信很多人在如何用Python实现图像文字识别OCR工具问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”如何用Python实现图像...

99+

2023-06-22
python利用pytesseract快速识别提取图片中的文字((图片识别)

目录前言一、配置环境1. 安装python依赖2. 安装识别引擎二、使用步骤1.引入库2.提取图片文字3.运行效果总结提示：本文多图，请手机端注意流量。前言利用python做图...

99+

2022-11-13

python pytesseract识别图片文字 python pytesseract提取图片文字 python pytesseract图片中文字
如何在图片上使用Alt文本

在图片上使用Alt文本包括以下几个核心步骤：1、选择合适的图片，2、编写描述性的Alt文本，3、合理使用关键词，4、遵守长度限制，5、代码插入。Alt文本（替代文本）是用于描述图片内容的文本，主要用于提高网站的可访问性和搜索引擎优化。一个好...

99+

2023-10-29

文本如何在图片