iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >3行代码实现 Python 并行处理,速
  • 872
分享到

3行代码实现 Python 并行处理,速

代码Python 2023-01-31 02:01:32 872人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

来源 | towardsdatascience.com 编译 | 数说君 出品 | 数说工作室 原标题:Here’s how you can get a 2–6x speed-up on your data pre-processing

来源 | towardsdatascience.com

编译 | 数说君

出品 | 数说工作室

原标题:Here’s how you can get a 2–6x speed-up on your data pre-processing with python

最近在 Towards Data Science 上看到一篇文章,如何用 Python 进行并行处理,觉得非常有帮助,因此介绍给大家,用我的风格对文章做了编译。


数据的预处理,是机器学习非常重要的一环。尽管 Python 提供了很多让人欲罢不能的库,但数据量一大,就不是那么回事了。

面对着海量的数据,再狂拽炫酷的计算都苍白无力,每一个简单的计算都要不断告诉自己:

Python,你算的累不累,

饿不饿?

渴不渴?

会不会让我等待太久,

是否可以快一点。

一方面是低效率,另一方面呢,却是电脑资源的闲置,给你们算笔账:

现在我们做机器学习的个人电脑,大部分都是双CPU核的,有的是4核甚至6核(intel i7)。而 Python 默认情况下是用单核进行做数据处理,这就意味着,Python 处理数据时,电脑有50%的处理能力被闲置了!

还好,Python 有一个隐藏 “皮肤”,可以对核资源的利用率进行加成!这个隐藏“皮肤” 就是 concurrent.futures 模块,能够帮助我们充分利用所有CPU内核。

下面就举个例子进行说明:

在图像处理领域,我们有时候要处理海量的图像数据,比如几百万张照片进行尺寸统一化调整,然后扔到神经网络中进行训练。这时候 concurrent.futures 模块可以帮我们缩短数倍的时间。

为了便于比较,这里拿1000张照片做例子,我们需要:把这1000张照片统一调整成 600x600 的尺寸:

(1)一般的方法

上面是最常见的数据处理方法:

① 准备好要处理的原始文件,比如几百万个txt、jpg等;

② 用for循环一个一个的处理,每一个循环里面运行一次预处理,这里的预处理就是 imread() 和 resize(),即读入每一张图片,重新调整一下大小。

1000张照片的话,大概要花费多久呢?我们来跑一下时间:

time python standard_res_conversion.py

在作者的 i7-8700k 6核CPU处理器上,一共大概7.9864秒。才1000张照片,花了将近8秒,你可以闭上眼感受一下,互联网有一个「八秒定律」,即指用户访问一个网站时,如果等待网页打开的时间超过8秒,会有超过70%的用户放弃等待。

(2)快的方法

concurrent.futures 模块能够利用并行处理来帮我们加速,什么是并行处理,举个例子:

假设我们要把1000个钉子钉入一块木头里,钉一次要1秒,那么1000次就要1000秒。 但假如我们让4个人同时来钉,分摊成4个人,最快只要250秒。这就是并行处理

这1000张照片,也可以分成多个进程来处理。用 concurrent.futures 库只要多3行代码:

代码中,首先把具体的处理过程打包成函数 load_and_resize(),然后用框出来的3行代码,即可实现多线程处理:

with concurrent.futures.ProcessPoolExecutor() as executor:

这句意味着你有多少CPU核心,就启动多少Python进程,这里作者的电脑是6个核,就同时启动6个项。

image_files = glob.glob(".*jpg")

读入原始数据。

executor.map(load_and_resize, image_file)

这个是实际的处理语句,第一个参数是处理函数,第二个参数是原始数据。这个语句意味着,用6个进程,来并行对 image_file 文件进行 load_and_resize 处理。

再跑一下时间:

time python fast_res_conversion.py

这次只需要1.14265秒,快了几乎6倍!

(3)例外情况

由于并行的处理是没有顺序的,因此如果你需要的结果是按照特定顺序排列的,那么这种方法不是很适用。

另外就是数据类型必须要是Python能够去pickle的,比如:

  • None, True, 及 False
  • 整数,浮点数,复数
  • 字符串,字节,字节数组
  • 仅包含可选对象的元组,列表,集合和词典
  • 在模块的顶层定义的函数(用 def 定义,而不是lambda)
  • 在模块顶层定义的内置函数
  • 在模块顶层定义的类
  • 类的实例,这些类的__dict__或调用__getstate __()的结果是可选择的

--结束END--

本文标题: 3行代码实现 Python 并行处理,速

本文链接: https://www.lsjlt.com/news/186900.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 3行代码实现 Python 并行处理,速
    来源 | towardsdatascience.com 编译 | 数说君 出品 | 数说工作室 原标题:Here’s how you can get a 2–6x speed-up on your data pre-processing...
    99+
    2023-01-31
    代码 Python
  • 怎么用一行代码实现Python并行处理
    今天小编给大家分享一下怎么用一行代码实现Python并行处理的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。传统的例子简单搜索...
    99+
    2023-06-27
  • 一行 Python 代码实现并行
    Python 在程序并行化方面多少有些声名狼藉。撇开技术上的问题,例如线程的实现和 GIL,我觉得错误的教学指导才是主要问题。常见的经典 Python 多线程、多进程教程多显得偏"重"。而且往往隔靴搔痒,没有深入探讨日常工作中最有用的内容。...
    99+
    2023-05-14
    Python
  • 3行Python代码实现剪辑音乐
    目录前言1.音量变化2.重复片段3.渐进渐出4.反转音乐前言 你没看错,Python剪辑音乐,只需要3行语句就能瞬间完成,比如我要剪辑33秒到1分10秒的音乐片段: from pyd...
    99+
    2024-04-02
  • Python实际案例演示:一行 Python代码实现并行
    Python 在程序并行化方面多少有些声名狼藉。撇开技术上的问题,例如线程的实现和 GIL,我觉得错误的教学指导才是主要问题。常见的经典 Python 多线程、多进程教程多显得偏"重"。而且往往隔靴搔痒,没有深入探讨日常...
    99+
    2023-06-01
  • python 三行代码实现快速排序
    python 三行代码实现快速排序 最近在看 python cookbook , 里面的例子很精彩,这里就帮过来,做个备忘录 主要利用了行数的递归调用和Python的切片特性,解释一下每行代码的含义: 第1行: #codin...
    99+
    2023-01-31
    快速 代码 python
  • 只用3行代码,让Python提速4倍!最
    Python是一门非常适合处理数据和自动化完成重复性工作的编程语言。我们在用数据训练机器学习模型之前,通常都需要对数据进行预处理,而Python就非常适合完成这项工作,比如需要重新调整几十万张图像的尺寸,用Python没问题!你几乎总是能找...
    99+
    2023-01-31
    代码 Python
  • Python中怎么实现并行处理
    Python中怎么实现并行处理,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。传统的例子简单搜索下"Python 多线程教程",不难发现几乎所...
    99+
    2023-06-16
  • Python并行处理
    原文:Parallel Processing in Python 作者:Frank Hofmann 翻译:Diwei 当你在机器上启动某个程序时,它只是在自己的“bubble”里面运行,这个气泡的作用就是用来将同...
    99+
    2023-01-31
    Python
  • Java并行处理的实现
    目录1. 背景2.知识3. Java 中的并行处理4. 扩展线程池方式实现并行处理使用 fork/join框架5.参考:1. 背景 本文是一个短文章,介绍Java 中的并行处理。 ...
    99+
    2024-04-02
  • 三行Python代码提高数据处理脚本速度
    Python是一门非常适合处理数据和自动化完成重复性工作的编程语言,我们在用数据训练机器学习模型之前,通常都需要对数据进行预处理,而Python就非常适合完成这项工作,比如需要重新调...
    99+
    2024-04-02
  • Python快速实现分列转到行的示例代码
    之前看到Amily的一篇文章,用Excel快速实现分列转到行的操做。 数据源大致是这样的: 基于此,我动起了一个念头:看看如何用Python快速实现这个操作。 数据源已经构造好,咱...
    99+
    2023-05-13
    Python实现分列转行 Python分列转行 Python 分列
  • 3行Python代码完成人脸识别
    Face Recognition软件包这是世界上最简单的人脸识别库了。你可以通过Python引用或者命令行的形式使用它,来管理和识别人脸。该软件包使用dlib中最先进的人脸识别深度学习算法,使得识别准确率在《Labled Faces in ...
    99+
    2023-01-31
    代码 Python
  • Java并行处理的实现方法
    本篇内容介绍了“Java并行处理的实现方法”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!目录 背景知识 Java 中的并行处理 扩展线程池方...
    99+
    2023-06-20
  • python 代码检查,实现行级代码优化
        有时候运行一个python程序,它需要运行很长时间。你或许想提升该程序的运行效率。那该怎么做那?     首先需要你要找到该程序瓶颈在哪里~   比如,哪个函数的运行花费时间比较长? 哪个函数占用内存比较多,是否需要优化对内存的使用...
    99+
    2023-01-31
    代码 python
  • Python使用asyncio包处理并发的实现代码
    使用 asyncio 包处理并发 asyncio包:使用事件循环驱动的协程实现并发。 线程与协程的对比 '\ thinking' 旋转等待效果 In [1]: imp...
    99+
    2022-12-08
    Python asyncio包 Python asyncio包处理并发
  • python中如何实现代码换行
    这篇“python中如何实现代码换行”除了程序员外大部分人都不太理解,今天小编为了让大家更加理解“python中如何实现代码换行”,给大家总结了以下内容,具有一定借鉴价值,内容详细步骤清晰,细节处理妥当,希望大家通过这篇文章有所收获,下面让...
    99+
    2023-06-06
  • 怎么让Python代码加速运行
    本篇内容介绍了“怎么让Python代码加速运行”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!0. 代码优化原则本文会介绍不少的 Python...
    99+
    2023-06-16
  • python图像处理-利用一行代码实现灰度图抠图
    目录一行代码实现灰度图抠图Python抠图程序源码准备程序构思完整代码截图如下,每条语句均有功能注释一行代码实现灰度图抠图 抠图是ps的最基本技能,利用python可以实现用一行代码...
    99+
    2024-04-02
  • python批处理将图片进行放大实例代码
    目录python批处理图片放大python 图片比例缩放、批处理(分步骤完成)总结python批处理图片放大 有时候对于网络识别,将原始图片放进网络中并不能达到自己想要的效果,但是有...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作