Python提高运行速度工具之Pandarallel的使用教程

2024-04-02 19:04:59 434人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

目录1.准备2.使用 Pandarallel3.注意事项众所周知，由于 GIL 的存在，python 单进程中的所有操作都是在一个CPU核上进行的，所以为了提高运行速度，我们一般会采

1.准备

开始之前，你要确保Python和pip已经成功安装在电脑上

pip install pandarallel

2.使用 Pandarallel

使用前，需要对Pandarallel进行初始化：

from pandarallel import pandarallel
pandarallel.initialize()

这样才能调用并行计算的api，不过 initialize 中有一个重要参数需要说明，那就是 nb_workers ，它将指定并行计算的Worker数，如果没有设置，所有CPU的核都会用上。

Pandarallel一共支持8种Pandas操作，下面是一个apply方法的例子。

import pandas as pd
import time
import math
import numpy as np
from pandarallel import pandarallel

# 初始化
pandarallel.initialize()
df_size = int(5e6)
df = pd.DataFrame(dict(a=np.random.randint(1, 8, df_size),
                       b=np.random.rand(df_size)))
def func(x):
    return math.sin(x.a**2) + math.sin(x.b**2)

# 正常处理
res = df.apply(func, axis=1)

# 并行处理
res_parallel = df.parallel_apply(func, axis=1)

# 查看结果是否相同
res.equals(res_parallel)

其他方法使用上也是类似的，在原始的函数名称前加上 parallel_，比如 DataFrame.groupby.apply：

import pandas as pd
import time
import math
import numpy as np
from pandarallel import pandarallel

# 初始化
pandarallel.initialize()
df_size = int(3e7)
df = pd.DataFrame(dict(a=np.random.randint(1, 1000, df_size),
                       b=np.random.rand(df_size)))
def func(df):
    dum = 0
    for item in df.b:
        dum += math.log10(math.sqrt(math.exp(item**2)))
        
    return dum / len(df.b)

# 正常处理
res = df.groupby("a").apply(func)
# 并行处理
res_parallel = df.groupby("a").parallel_apply(func)
res.equals(res_parallel)

又比如 DataFrame.groupby.rolling.apply：

import pandas as pd
import time
import math
import numpy as np
from pandarallel import pandarallel

# 初始化
pandarallel.initialize()
df_size = int(1e6)
df = pd.DataFrame(dict(a=np.random.randint(1, 300, df_size),
                       b=np.random.rand(df_size)))
def func(x):
    return x.iloc[0] + x.iloc[1] ** 2 + x.iloc[2] ** 3 + x.iloc[3] ** 4

# 正常处理
res = df.groupby('a').b.rolling(4).apply(func, raw=False)
# 并行处理
res_parallel = df.groupby('a').b.rolling(4).parallel_apply(func, raw=False)
res.equals(res_parallel)

案例都是类似的，这里就直接列出表格，不浪费大家宝贵的时间去阅读一些重复的例子了:

3.注意事项

1. 我有 8 个 CPU，但 parallel_apply 只能加快大约4倍的计算速度。为什么？

答：正如我前面所言，Python中每个进程占用一个核，Pandarallel 最多只能加快到你所拥有的核心的总数，一个 4 核的超线程 CPU 将向操作系统显示 8 个 CPU，但实际上只有 4 个核心，因此最多加快4倍。

2. 并行化是有成本的（实例化新进程，通过共享内存发送数据，…），所以只有当并行化的计算量足够大时，并行化才是有意义的。对于很少量的数据，使用 Pandarallel 并不总是值得的。

到此这篇关于Python提高运行速度工具之Pandarallel的使用教程的文章就介绍到这了,更多相关Python Pandarallel内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python提高运行速度工具之Pandarallel的使用教程

本文链接: https://www.lsjlt.com/news/120644.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python提高运行速度工具之Pandarallel的使用教程

目录1.准备2.使用 Pandarallel3.注意事项众所周知，由于 GIL 的存在，Python 单进程中的所有操作都是在一个CPU核上进行的，所以为了提高运行速度，我们一般会采...

99+

2022-11-11
Python包管理工具之PDM的使用教程

目录前言安装使用PDM用pipx安装pdm配置 pdm 自动补全PDM初始化项目PDM 常用命令运行命令查看环境更新包切换Python版本命令别名方案兼容其他方案迁移到pdmpych...

99+

2022-11-11
Python中如何正确使用Pandas库提升项目的运行速度

今天就跟大家聊聊有关Python中如何正确使用Pandas库提升项目的运行速度，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。如何正确使用Pandas库提升项目的运行速度如果你从事大数...

99+

2023-06-02
使用Go语言进行异步编程，提高API响应速度的技巧

随着互联网应用的普及，API的响应速度已经成为了衡量应用质量的重要标准之一。对于高并发的API接口，如何提高其响应速度成为了开发者们必须要面对的难题。在这方面，Go语言是一个非常好的选择，它提供了一些强大的异步编程工具，使得开发者们能够轻...

99+

2023-11-08

异步编程响应 api
Win7系统定制自己的快速运行程序方式提高电脑使用效率

在Windows7系统中，快捷键可以实现的操作很多，当用户不喜欢使用鼠标时，用“运行”来打开程序是最快捷的。但这种方法需要记住所有Windows7程序，以及安装的应用程序名称才可以，这样很不实际，...

99+

2023-06-07

Win7 运行程序方式程序电脑运行系统
如何使用 Python 异步编程来提高 Git 存储库中的数据存储速度？

在 Git 存储库中，数据存储速度是非常关键的一个问题。传统的同步编程模式在处理大量数据存储时，效率会非常低下。因此，异步编程模式成为了提升数据存储速度的一种有效方法。本文将介绍如何使用 Python 异步编程来提高 Git 存储库中的数...

99+

2023-08-28

异步编程存储 git