首页 > 资讯 > 后端开发 > Python >Python高效处理大文件的方法详解

123

分享到

Python高效处理大文件的方法详解

2024-04-02 19:04:59 123人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

目录开始处理文本串行处理多进程处理并行处理并行批量处理将文件分割成批运行并行批处理tqdm 并发结论为了进行并行处理，我们将任务划分为子单元。它增加了程序处理的作业数量，减少了整体处

开始

我们将使用来自 Kaggle 的 US Accidents (2016 - 2021) 数据集，它包括280万条记录和47个列。

我们将导入multiprocessing、joblib和tqdm用于并行处理，pandas用于数据导入，re、nltk和string用于文本处理。

# Parallel Computing
import multiprocessing as mp
from joblib import Parallel, delayed
from tqdm.notebook import tqdm
# Data Ingestion  
import pandas as pd
# Text Processing  
import re  
from nltk.corpus import stopWords
import string

在我们开始之前，让我们通过加倍cpu_count()来设置n_workers。正如你所看到的，我们有8个workers。

n_workers = 2 * mp.cpu_count()
print(f"{n_workers} workers are available")
>>> 8 workers are available

下一步，我们将使用pandas read_csv函数读取大型CSV文件。然后打印出dataframe的形状、列的名称和处理时间。

%%time
file_name="../input/us-accidents/US_Accidents_Dec21_updated.csv"
df = pd.read_csv(file_name)
print(f"Shape:{df.shape}\n\nColumn Names:\n{df.columns}\n")

输出：

Shape:(2845342, 47)
Column Names:
Index(['ID', 'Severity', 'Start_Time', 'End_Time', 'Start_Lat', 'Start_Lng',
'End_Lat', 'End_Lng', 'Distance(mi)', 'Description', 'Number', 'Street',
'Side', 'City', 'County', 'State', 'Zipcode', 'Country', 'Timezone',
'Airport_Code', 'Weather_Timestamp', 'Temperature(F)', 'Wind_Chill(F)',
'Humidity(%)', 'Pressure(in)', 'Visibility(mi)', 'Wind_Direction',
'Wind_Speed(mph)', 'Precipitation(in)', 'Weather_Condition', 'Amenity',
'Bump', 'Crossing', 'Give_Way', 'Junction', 'No_Exit', 'Railway',
'Roundabout', 'Station', 'Stop', 'Traffic_Calming', 'Traffic_Signal',
'Turning_Loop', 'Sunrise_Sunset', 'Civil_Twilight', 'Nautical_Twilight',
'Astronomical_Twilight'],
dtype='object')
CPU times: user 33.9 s, sys: 3.93 s, total: 37.9 s
Wall time: 46.9 s

处理文本

clean_text是一个用于处理文本的简单函数。我们将使用nltk.copus获得英语停止词，并使用它来过滤掉文本行中的停止词。之后，我们将删除句子中的特殊字符和多余的空格。它将成为确定串行、并行和批处理的处理时间的基准函数。

def clean_text(text):  
 # Remove stop words
 stops = stopwords.words("english")
  text = " ".join([word for word in text.split() if word  
not in stops])
 # Remove Special Characters
 text = text.translate(str.maketrans('', '', string.punctuation))
 # removing the extra spaces
 text = re.sub(' +',' ', text)
 return text

串行处理

对于串行处理，我们可以使用pandas的.apply()函数，但是如果你想看到进度条，你需要为pandas激活tqdm，然后使用.progress_apply()函数。

我们将处理280万条记录，并将结果保存回 “Description” 列中。

%%time
tqdm.pandas()
df['Description'] = df['Description'].progress_apply(clean_text)

输出

高端处理器串行处理280万行花了9分5秒。

100% 2845342/2845342 [09:05<00:00, 5724.25it/s]
CPU times: user 8min 14s, sys: 53.6 s, total: 9min 7s
Wall time: 9min 5s

多进程处理

有多种方法可以对文件进行并行处理，我们将了解所有这些方法。multiprocessing是一个内置的Python包，通常用于并行处理大型文件。

我们将创建一个有8个workers的多处理池，并使用map函数来启动进程。为了显示进度条，我们将使用tqdm。

map函数由两部分组成。第一个部分需要函数，第二个部分需要一个参数或参数列表。

%%time
p = mp.Pool(n_workers)  
df['Description'] = p.map(clean_text,tqdm(df['Description']))

输出

我们的处理时间几乎提高了3倍。处理时间从9分5秒下降到3分51秒。

100% 2845342/2845342 [02:58<00:00, 135646.12it/s]
CPU times: user 5.68 s, sys: 1.56 s, total: 7.23 s
Wall time: 3min 51s

并行处理

我们现在将学习另一个Python包来执行并行处理。在本节中，我们将使用joblib的Parallel和delayed来复制map函数。

Parallel需要两个参数：n_job = 8和backend = multiprocessing。
然后，我们将在delayed函数中加入clean_text。
创建一个循环，每次输入一个值。

下面的过程是相当通用的，你可以根据你的需要修改你的函数和数组。我曾用它来处理成千上万的音频和视频文件，没有任何问题。

建议：使用 "try: "和 "except: "添加异常处理。

def text_parallel_clean(array):
 result = Parallel(n_jobs=n_workers,backend="multiprocessing")(
 delayed(clean_text)
  (text)  
 for text in tqdm(array)
 )
 return result

在text_parallel_clean()中添加“Description”列。

%%time
df['Description'] = text_parallel_clean(df['Description'])

输出

我们的函数比多进程处理Pool多花了13秒。即使如此，并行处理也比串行处理快4分59秒。

100% 2845342/2845342 [04:03<00:00, 10514.98it/s]
CPU times: user 44.2 s, sys: 2.92 s, total: 47.1 s
Wall time: 4min 4s

并行批量处理

有一个更好的方法来处理大文件，就是把它们分成若干批，然后并行处理。让我们从创建一个批处理函数开始，该函数将在单一批次的值上运行clean_function。

批量处理函数

def proc_batch(batch):
 return [
 clean_text(text)
 for text in batch
 ]

将文件分割成批

下面的函数将根据workers的数量把文件分成多个批次。在我们的例子中，我们得到8个批次。

def batch_file(array,n_workers):
 file_len = len(array)
 batch_size = round(file_len / n_workers)
 batches = [
 array[ix:ix+batch_size]
 for ix in tqdm(range(0, file_len, batch_size))
 ]
 return batches
batches = batch_file(df['Description'],n_workers)
>>> 100% 8/8 [00:00<00:00, 280.01it/s]

运行并行批处理

最后，我们将使用Parallel和delayed来处理批次。

%%time
batch_output = Parallel(n_jobs=n_workers,backend="multiprocessing")(
 delayed(proc_batch)
  (batch)  
 for batch in tqdm(batches)
 )
df['Description'] = [j for i in batch_output for j in i]

输出

我们已经改善了处理时间。这种技术在处理复杂数据和训练深度学习模型方面非常有名。

100% 8/8 [00:00<00:00, 2.19it/s]
CPU times: user 3.39 s, sys: 1.42 s, total: 4.81 s
Wall time: 3min 56s

tqdm 并发

tqdm将多处理带到了一个新的水平。它简单而强大。

process_map需要：

函数名称
Dataframe 列名
max_workers
chucksize与批次大小类似。我们将用workers的数量来计算批处理的大小，或者你可以根据你的喜好来添加这个数字。

%%time
from tqdm.contrib.concurrent import process_map
batch = round(len(df)/n_workers)
df['Description'] = process_map(clean_text,df['Description'], max_workers=n_workers, chunksize=batch)

输出

通过一行代码，我们得到了最好的结果：

100% 2845342/2845342 [03:48<00:00, 1426320.93it/s]
CPU times: user 7.32 s, sys: 1.97 s, total: 9.29 s
Wall time: 3min 51s

结论

我们需要找到一个平衡点，它可以是串行处理，并行处理，或批处理。如果你正在处理一个较小的、不太复杂的数据集，并行处理可能会适得其反。

在这个教程中，我们已经了解了各种处理大文件的Python包，它们允许我们对数据函数进行并行处理。

如果你只处理一个表格数据集，并且想提高处理性能，那么建议你尝试Dask、datatable和RapiDS。

到此这篇关于Python高效处理大文件的方法详解的文章就介绍到这了,更多相关Python处理大文件内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python高效处理大文件的方法详解

本文链接: https://www.lsjlt.com/news/119593.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python高效处理大文件的方法详解

目录开始处理文本串行处理多进程处理并行处理并行批量处理将文件分割成批运行并行批处理tqdm 并发结论为了进行并行处理，我们将任务划分为子单元。它增加了程序处理的作业数量，减少了整体处...

99+

2024-04-02
Python处理CSV文件的高效方法与技巧

python 提供了高效的 csv 模块来处理 csv 文件。可以通过以下步骤进行操作：安装 csv 模块。使用 csv.reader() 读取 csv 文件。逐行高效处理大文件。读写内...

99+

2024-04-03

python csv csv文件
提高Python处理文件效率的方法有哪些

本篇内容主要讲解“提高Python处理文件效率的方法有哪些”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“提高Python处理文件效率的方法有哪些”吧!打开&关闭文件读取或写入文件前，首先...

99+

2023-06-16
golang如何高效处理大文件

这篇文章主要介绍了golang如何高效处理大文件，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。使用Pandas分块处理大文件问题：今天在处理快手的用户数据时，遇到了一个差不多...

99+

2023-06-15
Python详解复杂CSV文件处理方法

目录项目简介项目笔记与心得1.分批处理与多进程及多线程加速2.优化算法提高效率总结项目简介鉴于项目保密的需要，不便透露太多项目的信息，因此，简单介绍一下项目存在的难点：海量数据：...

99+

2024-04-02
详解Python的文件处理

目录先学会文件的读写！我们看看一些文件操作示例吧读取文件数据写数据简单展示按行读取总结先学会文件的读写！比如像以前在学校读书的时候，第一门编程课设计要求是制作学生管理系统。这就需...

99+

2024-04-02
关于python处理大型json文件的方法

如图所示，要处理的数据是一个json数组，而且非常大下图为电脑配置，使用 json.load() 方法加载上述json文件电脑直接卡死解决思路：　　　　先用python进行...

99+

2024-04-02
python文件处理详解

目录文件操作1.txt文件打开文件2.数据维度3.Excel文件总结文件操作此为本人学习python过程中的笔记，将持续更新，欢迎提问指正。 1.txt文件 1.文本文件 tx...

99+

2024-04-02
Python编解码问题及文本文件处理方法详解

编解码器在字符与字节之间的转换过程称为编解码，Python自带了超过100种编解码器，比如： ascii（英文体系） gb2312（中文体系） utf-...

99+

2024-04-02
Python处理文本数据的方法详解

目录前言用python处理文本数据用python处理数值型数据前言 HI，好久不见，今天是关闭朋友圈的第60天，我是野蛮成长的AC-Asteroid。人生苦短，我用Python,通...

99+

2024-04-02
Python实现自动化处理PDF文件的方法详解

目录自动化处理PDF文件1. 批量合并PDF文件2. 批量拆分PDF文件3. 批量加密PDF文件4. 批量PDF添加水印完整代码自动化处理PDF文件使用Python完成简单的PDF...

99+

2024-04-02
Python文件的操作处理详解

目录1.使用open()函数打开文件夹2.文件的操作3.使用File操作文件 3.1Fi...

99+

2024-04-02
想要更高效地处理大数据文件？试试Python接口！

Python是一种高级编程语言，已经成为数据科学和机器学习领域的主流语言。Python的一个主要优势是它具有强大的数据处理能力。Python提供了许多处理大数据文件的接口，可以帮助我们更高效地处理数据文件。本文将介绍一些常用的Python...

99+

2023-08-21

接口大数据文件
Python字符串操作：简单高效的文本处理方法

Python字符串切片：简单易用的文本处理技巧引言在Python中，字符串是一种非常常见和重要的数据类型。在文本处理中，我们经常需要对字符串进行一些操作，如提取特定的子串、拼接多个字符串、替换字符串中的部分内容等。而Pyth...

99+

2024-02-03

python 字符串切片文本处理技巧
Java并发编程实战：高效处理大量文件

在现代计算机应用程序中，处理大量文件是一项常见的任务。处理大量文件的一个主要挑战是确保程序在处理文件时能够高效地利用计算机的多核处理能力。Java并发编程提供了一种优雅的方式来处理这个问题。在本文中，我们将介绍Java并发编程的一些基础知...

99+

2023-10-17

并发响应文件
详解批处理文件语法

目录1. 概述2. 常用命令列表2.1 rem / ::2.2 echo / @3. 常用特殊符号1. 概述批处理，顾名思义就是进行批量的处理，也称为批处理脚本，英译为 BATCH...

99+

2024-04-02
Python读取预处理DICOM文件方式详解

目录需要的库读取dicom需要的库 ●Simpleitk安装命令： conda install -c simpleitk simpleitk 使用： import SimpleITK...

99+

2023-05-13

Python读取DICOM文件预处理DICOM文件
处理PHP大文件发送问题的有效方案

处理PHP大文件发送问题的有效方案在Web开发中，我们经常会遇到需要处理大文件上传问题的情况，例如上传视频、音频或者其他大型文件。而在使用PHP进行文件上传时，由于PHP默认配置的限...

99+

2024-03-07

分块传输流式读取缓冲区管理内存占用
Java 文件操作的捷径：解锁高效处理文件的秘诀

Java 中的文件操作对于处理和管理数据至关重要。通过掌握有效的技术，开发人员可以提高文件处理的效率，从而增强应用程序的整体性能。本文将探讨 Java 文件操作的捷径，提供实用技巧，以优化文件处理任务。使用高效的数据结构 HashMa...

99+

2024-04-02
Python处理excel与txt文件详解

目录一、Python处理excel文件1.两个头文件2.读取excel文件3.写入excel文件二、Python处理txt文件1.打开txt文件2.读取txt文件3.写入txt文件（...

99+

2024-04-02