Python+OpenCV实战之实现文档扫描

2024-04-02 19:04:59 324人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

目录1.效果展示2.项目准备3.代码的讲解与展示4.项目资源5.项目总结与评价1.效果展示网络摄像头扫描：图片扫描：最终扫描保存的图片： &n

1.效果展示

网络摄像头扫描：

图片扫描：

最终扫描保存的图片：

（视频）

（图片）

2.项目准备

今天的项目文件只需要两个.py文件，其中一个.py文件是已经写好的函数，你将直接使用它，我不会在此多做讲解，因为我们将会在主要的.py文件import 导入它，如果想了解其中函数是如何写的，请自行学习。

utlis.py，需要添加的.py文件

import cv2
import numpy as np
 
# TO STACK ALL THE IMAGES IN ONE WINDOW
def stackImages(imgArray,scale,lables=[]):
    rows = len(imgArray)
    cols = len(imgArray[0])
    rowsAvailable = isinstance(imgArray[0], list)
    width = imgArray[0][0].shape[1]
    height = imgArray[0][0].shape[0]
    if rowsAvailable:
        for x in range ( 0, rows):
            for y in range(0, cols):
                imgArray[x][y] = cv2.resize(imgArray[x][y], (0, 0), None, scale, scale)
                if len(imgArray[x][y].shape) == 2: imgArray[x][y]= cv2.cvtColor( imgArray[x][y], cv2.COLOR_GRAY2BGR)
        imageBlank = np.zeros((height, width, 3), np.uint8)
        hor = [imageBlank]*rows
        hor_con = [imageBlank]*rows
        for x in range(0, rows):
            hor[x] = np.hstack(imgArray[x])
            hor_con[x] = np.concatenate(imgArray[x])
        ver = np.vstack(hor)
        ver_con = np.concatenate(hor)
    else:
        for x in range(0, rows):
            imgArray[x] = cv2.resize(imgArray[x], (0, 0), None, scale, scale)
            if len(imgArray[x].shape) == 2: imgArray[x] = cv2.cvtColor(imgArray[x], cv2.COLOR_GRAY2BGR)
        hor= np.hstack(imgArray)
        hor_con= np.concatenate(imgArray)
        ver = hor
    if len(lables) != 0:
        eachImgWidth= int(ver.shape[1] / cols)
        eachImgHeight = int(ver.shape[0] / rows)
        print(eachImgHeight)
        for d in range(0, rows):
            for c in range (0,cols):
                cv2.rectangle(ver,(c*eachImgWidth,eachImgHeight*d),(c*eachImgWidth+len(lables[d][c])*13+27,30+eachImgHeight*d),(255,255,255),cv2.FILLED)
                cv2.putText(ver,lables[d][c],(eachImgWidth*c+10,eachImgHeight*d+20),cv2.FONT_HERSHEY_COMPLEX,0.7,(255,0,255),2)
    return ver
 
def reorder(myPoints):
 
    myPoints = myPoints.reshape((4, 2))
    myPointsNew = np.zeros((4, 1, 2), dtype=np.int32)
    add = myPoints.sum(1)
 
    myPointsNew[0] = myPoints[np.argmin(add)]
    myPointsNew[3] =myPoints[np.argmax(add)]
    diff = np.diff(myPoints, axis=1)
    myPointsNew[1] =myPoints[np.argmin(diff)]
    myPointsNew[2] = myPoints[np.argmax(diff)]
 
    return myPointsNew
 
 
def biggestContour(contours):
    biggest = np.array([])
    max_area = 0
    for i in contours:
        area = cv2.contourArea(i)
        if area > 5000:
            peri = cv2.arcLength(i, True)
            approx = cv2.approxPolyDP(i, 0.02 * peri, True)
            if area > max_area and len(approx) == 4:
                biggest = approx
                max_area = area
    return biggest,max_area
def drawRectangle(img,biggest,thickness):
    cv2.line(img, (biggest[0][0][0], biggest[0][0][1]), (biggest[1][0][0], biggest[1][0][1]), (0, 255, 0), thickness)
    cv2.line(img, (biggest[0][0][0], biggest[0][0][1]), (biggest[2][0][0], biggest[2][0][1]), (0, 255, 0), thickness)
    cv2.line(img, (biggest[3][0][0], biggest[3][0][1]), (biggest[2][0][0], biggest[2][0][1]), (0, 255, 0), thickness)
    cv2.line(img, (biggest[3][0][0], biggest[3][0][1]), (biggest[1][0][0], biggest[1][0][1]), (0, 255, 0), thickness)
 
    return img
 
def nothing(x):
    pass
 
def initializeTrackbars(intialTracbarVals=0):
    cv2.namedWindow("Trackbars")
    cv2.resizeWindow("Trackbars", 360, 240)
    cv2.createTrackbar("Threshold1", "Trackbars", 200,255, nothing)
    cv2.createTrackbar("Threshold2", "Trackbars", 200, 255, nothing)
 
 
def valTrackbars():
    Threshold1 = cv2.getTrackbarPos("Threshold1", "Trackbars")
    Threshold2 = cv2.getTrackbarPos("Threshold2", "Trackbars")
    src = Threshold1,Threshold2
    return src

3.代码的讲解与展示

import cv2
import numpy as np
import utlis
 
 
########################################################################
WEBCamFeed = True                                                      #
pathImage = "1.jpg"                                                    #
cap = cv2.VideoCapture(1)                                              #
cap.set(10,160)                                                        #
heightImg = 640                                                        #
widthImg  = 480                                                        #
########################################################################
 
utlis.initializeTrackbars()
count=0
 
while True:
 
    if webCamFeed:
        ret, img = cap.read()
    else:
        img = cv2.imread(pathImage)
    img = cv2.resize(img, (widthImg, heightImg))
    imgBlank = np.zeros((heightImg,widthImg, 3), np.uint8) 
    imgGray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) 
    imgBlur = cv2.GaussianBlur(imgGray, (5, 5), 1) # 添加高斯模糊
    thres=utlis.valTrackbars() #获取阈值的轨迹栏值
    imgThreshold = cv2.Canny(imgBlur,thres[0],thres[1]) # 应用CANNY模糊
    kernel = np.ones((5, 5))
    imgDial = cv2.dilate(imgThreshold, kernel, iterations=2)
    imgThreshold = cv2.erode(imgDial, kernel, iterations=1)  
 
    # 查找所有轮廓
    imGContours = img.copy()
    imgBigContour = img.copy() 
    contours, hierarchy = cv2.findContours(imgThreshold, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE) # FIND ALL CONTOURS
    cv2.drawContours(imgContours, contours, -1, (0, 255, 0), 10) # 绘制所有检测到的轮廓
 
    # 找到最大的轮廓
    biggest, maxArea = utlis.biggestContour(contours) # 找到最大的轮廓
    if biggest.size != 0:
        biggest=utlis.reorder(biggest)
        cv2.drawContours(imgBigContour, biggest, -1, (0, 255, 0), 20) # 画最大的轮廓
        imgBigContour = utlis.drawRectangle(imgBigContour,biggest,2)
        pts1 = np.float32(biggest) # 为扭曲准备点
        pts2 = np.float32([[0, 0],[widthImg, 0], [0, heightImg],[widthImg, heightImg]]) # 为扭曲准备点
        matrix = cv2.getPerspectiveTransfORM(pts1, pts2)
        imgWarpcolored = cv2.warpPerspective(img, matrix, (widthImg, heightImg))
 
        #从每侧移除20个像素
        imgWarpColored=imgWarpColored[20:imgWarpColored.shape[0] - 20, 20:imgWarpColored.shape[1] - 20]
        imgWarpColored = cv2.resize(imgWarpColored,(widthImg,heightImg))
 
        # 应用自适应阈值
        imgWarpGray = cv2.cvtColor(imgWarpColored,cv2.COLOR_BGR2GRAY)
        imgAdaptiveThre= cv2.adaptiveThreshold(imgWarpGray, 255, 1, 1, 7, 2)
        imgAdaptiveThre = cv2.bitwise_not(imgAdaptiveThre)
        imgAdaptiveThre=cv2.medianBlur(imgAdaptiveThre,3)
 
        # 用于显示的图像阵列
        imageArray = ([img,imgGray,imgThreshold,imgContours],
                      [imgBigContour,imgWarpColored, imgWarpGray,imgAdaptiveThre])
 
    else:
        imageArray = ([img,imgGray,imgThreshold,imgContours],
                      [imgBlank, imgBlank, imgBlank, imgBlank])
 
    # 显示标签
    lables = [["Original","Gray","Threshold","Contours"],
              ["Biggest Contour","Warp Prespective","Warp Gray","Adaptive Threshold"]]
 
    stackedImage = utlis.stackImages(imageArray,0.75,lables)
    cv2.imshow("Result",stackedImage)
 
    # 按下“s”键时保存图像
    if cv2.waiTKEy(1) & 0xFF == ord('s'):
        cv2.imwrite("Scanned/myImage"+str(count)+".jpg",imgWarpColored)
        cv2.rectangle(stackedImage, ((int(stackedImage.shape[1] / 2) - 230), int(stackedImage.shape[0] / 2) + 50),
                      (1100, 350), (0, 255, 0), cv2.FILLED)
        cv2.putText(stackedImage, "Scan Saved", (int(stackedImage.shape[1] / 2) - 200, int(stackedImage.shape[0] / 2)),
                    cv2.FONT_HERSHEY_DUPLEX, 3, (0, 0, 255), 5, cv2.LINE_AA)
        cv2.imshow('Result', stackedImage)
        cv2.waitKey(300)
        count += 1
    elif cv2.waitKey(1) & 0xFF == 27:
        break

今天需要要讲解的还是主函数Main.py，由我来讲解，其实我也有点压力，因为这个项目它涉及了OpenCV核心知识点，有的地方我也需要去查找，因为学久必会忘，更何况我也是刚刚起步的阶段，所以我会尽我所能的去讲清楚。

注意：我是以网络摄像头为例，读取图片的方式，同理可得。

首先，请看＃号框内，我们将从这里开始起，设立变量webCamFeed，用其表示是否打开摄像头，接着亮度，宽，高的赋值。utlis.initializeTrackbars()是utlis.py文件当中的轨迹栏初始化函数。
然后，我们依次对图像进行大小调整、灰度图像、高斯模糊、Canny边缘检测、扩张、侵蚀。
之后，找出图像可以检测的所有轮廓，并找到最大的轮廓并且画出来，同时要为扫描到的文档找到四个顶点，也就是扭曲点，用cv2.getPerspectiveTransform()函数找到点的坐标，用cv2.warpPerspective()函数输出图像，如果到了这一步，我们去运行一下会发现有边角是桌子的颜色但并没有很多，所以我们需要从每侧移除20个像素，应用自适应阈值让图像变得较为清晰——黑色的文字更加的明显。
接着，配置utlis.stackImages()需要的参数——图像（列表的形式），规模，标签（列表的形式，可以不用标签，程序一样可以正确运行），展示窗口。
最后，如果你觉得比较满意，按下s键，即可保存，并在图中央出现有"Scan Saved"的矩形框。点击Esc键即可退出程序。

4.项目资源

GitHub：Opencv-project-training/Opencv project training/06 Document Scanner at main · Auorui/Opencv-project-training · gitHub

5.项目总结与评价

它是一个很好的项目，要知道我们要实现这种效果，即修正文档，还得清晰，要么有VIP，兑换积分，看广告等。如果你发现扫描的文档不清晰，请修改合适的分辨率。以我个人来看，它的实用性很高。本来今天是想要做人脸识别的项目的，但后面我一直没有解决下载几个包错误的问题（现在已经解决），文档扫描是明天的项目，今天是赶着做好的，那么希望你在今天的项目中玩得开心！

到此这篇关于python+OpenCV实战之实现文档扫描的文章就介绍到这了,更多相关Python OpenCV文档扫描内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python+OpenCV实战之实现文档扫描

本文链接: https://www.lsjlt.com/news/120436.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python+OpenCV实战之实现文档扫描

目录1.效果展示2.项目准备3.代码的讲解与展示4.项目资源5.项目总结与评价1.效果展示网络摄像头扫描：图片扫描：最终扫描保存的图片： &n...

99+

2022-11-11
C++OpenCV实战之文档照片转换成扫描文件

目录一、背景二、基础知识三、方案一：自动检测点1、读取图片文件（进行了指定尺寸缩放）2、创建直线类并计算两条直线的交点3、图像边缘检测Canny4、通过霍夫变换进行直线检测5、求单应...

99+

2022-11-13
Python构建一个文档扫描器的实现

目录准备好环境导入已安装的库获取并调整输入的大小将调整后的图像转换为灰度图像运用边缘检测器寻找最大的轮廓圈出文档轮廓的四个角使用扭曲透视获得所需的图像转换模块运用自适应阈值，保存扫描...

99+

2023-03-24

Python 文档扫描器 Python 文档扫描
Python+OpenCV实现自动扫雷，挑战扫雷世界记录！

目录准备 - 扫雷软件实现思路 - 01 窗体截取 - 02 雷块分割 - 03 雷块识别 - 04 扫雷算法实现福利：文末有Python全套资料哦我们一起来玩扫雷吧。用Python+Open...

99+

2023-08-31

python opencv 开发语言
Python实战之OpenCV实现猫脸检测

开发工具 Python版本：3.6.4 相关模块： cv2模块；以及一些Python自带的模块。环境搭建安装Python并添加到环境变量，pip安装需要的相关模块即可。原理简介简单地讲一讲Haar分类器，也...

99+

2022-06-02

OpenCV实现猫脸检测 Python OpenCV图像识别
opencv实现文档矫正

本文实例为大家分享了opencv实现文档矫正的具体代码，供大家参考，具体内容如下原始文档矫正后文档思路：只要获得倾斜文档的倾斜角度，然后通过仿射变化旋转一下就可以实现矫正...

99+

2022-11-11
python之Django自动化资产扫描的实现

目录1. Django项目搭建2. 配置开发及生产环境2.1 base.py2.2 创建开发环境配置2.3 创建生产环境配置2.4 修改/init.py2.5 迁移数据库3. pyc...

99+

2022-11-12
利用python实现IP扫描

需求：写一个脚本，判断192.168.11.0/24网络里，当前在线ip有哪些？知识点:1 使用subprocess模块，来调用系统命令，执行ping 192.168.11.xxx 命令2 调用系统命令执行ping命令的时候，会有返回值(p...

99+

2023-01-31

python IP
Python+OpenCV实战之拖拽虚拟方块的实现

目录一、项目效果二、核心流程三、代码流程1. 读取摄像头视频，画矩形2. 导入mediapipe处理手指坐标3. 位置计算完整代码一、项目效果学校宿舍今天搬家，累麻了，突然发现展...

99+

2022-11-11
python读取pdf文档-实战

# -*- coding: utf-8 -*- #读取pdf文档 from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LAPar...

99+

2023-01-31

实战文档 python
QT实战之打开最近文档功能的实现

目录一、项目介绍二、项目基本配置三、UI界面设置四、主程序实现4.1 mainwindow.h头文件4.2 mainwindow.cpp源文件4.3 main.cpp五、效果演示一、...

99+

2022-11-13
Python实现对网站目录扫描

一个很简单的版本,以后会做进一步的修改:多线程,从文件中读取,跟据Head头判断等等. 需要提供一个网站和不存在页面的错误提示 CODE: #!/usr/bin/env python # -*- coding:utf-8 -*-&...

99+

2023-01-31

目录网站 Python
Python+Opencv实战之人脸追踪详解

目录前言人脸追踪技术简介使用基于 dlib DCF 的跟踪器进行人脸跟踪使用基于 dlib DCF 的跟踪器进行对象跟踪小结前言人脸处理是人工智能中的一个热门话题，人脸处理可以使用...

99+

2022-11-12
C++OpenCV实战之网孔检测的实现

目录前言一、HSV通道转换二、图像修复2.1 OpenCV函数实现2.2 MyFunction三、轮廓提取四、效果显示五、源码总结前言前段时间，有位粉丝私信我，给我发了一张图片，如...

99+

2022-11-13
调用python-nmap实现扫描局域网

使用环境：Raspberry 3b+ +netifaces+python-nmap+nmap 调用netifaces自动获取ip地址： def get_gateways(): return netifaces.gateways(...

99+

2023-01-30

局域网 python nmap
python实现打印扫描效果详情

目录1. 介绍2. 完整代码 1. 介绍前面我们尝试通过python实现了代码雨以及字母随机闪烁的效果，这次，我们再来实现一个代码的线性扫面。同样的，此次我们仍然是使用30行代码...

99+

2022-11-11
python实现局域网ip地址扫描

python 遍历局域网ip 从知道python开始，我的视线里就没缺少过他。尤其是现如今开发语言大有傻瓜化的趋势。而作为这一趋势的领导，脚本语言就显得格外亮眼。不管是python还是ruby，perl，都火的不得了。就连java都出了个...

99+

2023-01-31

局域网地址 python
人脸检测实战终极之OpenCV+Python实现人脸对齐

目录前言实现面部矫正器导入必要的包对齐人脸展示结果前言这篇博文的目的是演示如何使用 OpenCV、Python 和面部标志对齐人脸。给定一组面部标志（输入坐标），我们的目标是将图...

99+

2022-11-12
C++OpenCV实战之标记点检测的实现

在实际应用中，能够直接利用霍夫圆检测这些理想方法的应用场景是非常少的，更多的是利用拟合的办法去寻找圆形。大致思路如下，首先先选择要处理的ROI部分，记录下该图的左上点在原图的坐标，...

99+

2022-11-13
Python项目实战:使用多线程进行TCP端口扫描

前言今天为大家一个利用Python扫描开放主机的TCP端口,首先你要查看其中的开放的端口,创建一个TCP全连接扫描器,一般使用socket来创建连接器的,测试当前主机和端口是否开放，直接使用socket连接导入第三方库...

99+

2023-06-02