Python详解复杂CSV文件处理方法

2024-04-02 19:04:59 816人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

目录项目简介项目笔记与心得1.分批处理与多进程及多线程加速2.优化算法提高效率总结项目简介鉴于项目保密的需要，不便透露太多项目的信息，因此，简单介绍一下项目存在的难点：海量数据：

项目简介

鉴于项目保密的需要，不便透露太多项目的信息，因此，简单介绍一下项目存在的难点：

海量数据：项目是对CSV文件中的数据进行处理，而特点是数据量大...真的大！！！拿到的第一个CSV示例文件是110多万行(小CASE)，而第二个文件就到了4500万行，等到第三个文件......好吧，一直没见到第三个完整示例文件，因为太大了，据说是第二个示例文件的40多倍，大概二十亿行......
业务逻辑复杂：项目是需要对CSV文件的每一行数据的各种组合可能性进行判断，而判断的业务逻辑较为复杂，如何在解决复杂逻辑的同时保证较高的处理效率是难点之一。

项目笔记与心得

1.分批处理与多进程及多线程加速

因为数据量太大，肯定是要分批对数据进行处理，否则，效率低不谈，大概率也没有足够的内存能够支撑，需要用到chunksize，此外，为了节约内存，以及提高处理效率，可以将文本类的数据存储为“cateGory”格式：
项目整体是计算密集型的任务，因此，需要用到多进程，充分利用CPU的多核性能；
多线程进行读取与写入，其中，写入使用to_csv的增量写入方法，mode参数设置为'a'；
多进程与多线程开启一般为死循环，需要在合适的位置，放入结束循环的信号，以便处理完毕后退出多进程或多线程

"""鉴于项目保密需要，以下代码仅为示例"""
import time
import pathlib as pl
import pandas as pd
from threading import Thread
from multiprocessing import Queue, Process, cpu_count
# 导入多线程Thread,多进程的队列Queue,多进程Process，CPU核数cpu_count
# 存放分段读取的数据队列，注：maxsize控制队列的最大数量，避免一次性读取到内存中的数据量太大
data_queue = Queue(maxsize=cpu_count() * 2)  
# 存放等待写入磁盘的数据队列
write_queue = Queue()  
def read_data(path: pl.Path, data_queue: Queue, size: int = 10000):
    """
    读取数据放入队列的方法
    :return:
    """
    data_obj = pd.read_csv(path, sep=',', header=0, chunksize=size, dtype='category')
    for idx, df in enumerate(data_obj):
        while data_queue.full():  # 如果队列满了，那就等待
            time.sleep(1)
        data_queue.put((idx + 1, df))
    data_queue.put((None, None))  # 放入结束信号
def write_data(out_path: pl.Path, write_queue: Queue):
    """
    将数据增量写入CSV的方法
    :return:
    """
    while True:
        while write_queue.empty():
            time.sleep(1)
        idx, df = write_queue.get()
        if df is None:
            return  # 结束退出
        df.to_csv(out_path, mode='a', header=None, index=False, encoding='ansi')  # 输出CSV
def parse_data(data_queue: Queue, write_queue: Queue):
    """
    从队列中取出数据，并加工的方法
    :return:
    """
    while True:
        while write_queue.empty():
            time.sleep(1)
        idx, df = data_queue.get()
        if df is None:  # 如果是空的结束信号，则结束退出进程，
        # 特别注意结束前把结束信号放回队列，以便其他进程也能接收到结束信号！！！
            data_queue.put((idx, df))
            return
        """处理数据的业务逻辑略过"""
        write_queue.put((idx, df))  # 将处理后的数据放入写队列
# 创建一个读取数据的线程
read_pool = Thread(target=read_data, args=(read_data_queue, *args))
read_pool.start()  # 开启读取线程
# 创建一个增量写入CSV数据的线程
write_pool = Thread(target=write_data, args=(write_data_queue, *args))
write_pool.start()  # 开启写进程
pools = []  # 存放解析进程的队列
for i in range(cpu_count()):  # 循环开启多进程，不确定开多少个进程合适的情况下，那么按CPU的核数开比较合理
    pool = Process(target=parse_data, args=(read_data_queue, write_data_queue, *args))
    pool.start()  # 启动进程
    pools.append(pool)  # 加入队列
for pool in pools:
    pool.join()  # 等待所有解析进程完成
# 所有解析进程完成后，在写队列放入结束写线程的信号
write_data_queue.put((None, None))  
write_pool.join()  # 等待写线程结束
print('任务完成')

2.优化算法提高效率

将类对象存入dataframe列

在尝试了n种方案之后，最终使用了将类对象存到dataframe的列中，使用map方法，运行类方法，最后，将运行结果展开到多列中的方式。该方案本项目中取得了最佳的处理效率。

"""鉴于保密需要，以下代码仅为示例"""
class Obj:
    def __init__(self, ser: pd.Series):
        """
        初始化类对象
        :param ser: 传入series
        """
        self.ser = ser  # 行数据
        self.attrs1 = []  # 属性1
        self.attrs2 = []  # 属性2
        self.attrs3 = []  # 属性3
    def __repr__(self):
        """
        自定义输出
        """
        attrs1 = '_'.join([str(a) for a in self.attrs1])
        attrs2 = '_'.join([str(a) for a in self.attrs2])
        attrs3 = '_'.join([str(a) for a in self.attrs3])
        return '_'.join([attrs1, attrs2, attrs3])
    def run(self):
        """运行业务逻辑"""
# 创建obj列，存入类对象
data['obj'] = data.apply(lambda x: Obj(x), axis=1)
# 运行obj列中的类方法获得判断结果
data['obj'] = data['obj'].map(lambda x: x.run())
# 链式调用，1将类对象文本化->2拆分到多列->3删除空列->4转换为category格式
data[['col1', 'col2', 'col3', ...省略]] = data['obj'].map(str).str.split('_', expand=True).dropna(axis=1).astype('category')
# 删除obj列
data.drop(columns='obj', inplace=True)

减少计算次数以提高运行效率

在整个优化过程中，对运行效率产生最大优化效果的有两项：

一是改变遍历算法，采用直接对整行数据进行综合判断的方法，使原需要遍历22个组合的计算与判断大大减少
二是提前计算特征组合，制作成字典，后续直接查询结果，而不再进行重复计算

使用numpy加速计算

numpy还是数据处理上的神器，使用numpy的方法，比自己实现的方法效率要高非常多，本项目中就用到了：bincount、argsort，argmax、flipud、in1d、all等，即提高了运行效率，又解决了逻辑判断的问题：

"""numpy方法使用示例"""
import numpy as np
# 计算数字的个数组合bincount
np.bincount([9, 2, 13, 12, 9, 10, 11])
# 输出结果：array([0, 0, 1, 0, 0, 0, 0, 0, 0, 2, 1, 1, 1, 1], dtype=int64)
# 取得个数最多的数字argmax
np.argmax(np.bincount([9, 2, 13, 12, 9, 10, 11]))
# 输出结果: 9
# 将数字按照个数优先，其次大小进行排序argsort
np.argsort(np.bincount([9, 2, 13, 12, 9, 10, 11]))
# 输出结果：array([ 0,  1,  3,  4,  5,  6,  7,  8,  2, 10, 11, 12, 13,  9], dtype=int64)
# 翻转列表flipud
np.flipud(np.argsort(np.bincount([9, 2, 13, 12, 9, 10, 11])))
# 输出结果: array([ 9, 13, 12, 11, 10,  2,  8,  7,  6,  5,  4,  3,  1,  0], dtype=int64)
# 查找相同值in1d
np.in1d([2, 3, 4], [2, 9, 3])
# 输出结果: array([ True,  True, False]) 注：指2,3True，4False
np.all(np.in1d([2, 3], [2, 9, 3]))
# 输出结果: array([ True,  True])
# 是否全是all
np.all(np.in1d([2, 3, 4], [2, 9, 3]))  # 判断组合1是否包含在组合2中
# 输出结果: False
np.all(np.in1d([2, 3], [2, 9, 3]))
# 输出结果: True

优化前后的效率对比

总结

优化算法是在这个项目上时间花费最多的工作（没有之一）。4月12日接单，10天左右出了第1稿，虽能运行，但回头看存在两个问题:一是有bug需要修正，二是运行效率不高(4500万行数据，执行需要1小时21分钟，如果只是在这个版本上debug需要增加判断条件，效率只会更低)；后20多天是在不断的优化算法的同时对bug进行修正，最后版本执行相同数据只需要不足30分钟，效率提高了一倍多。回顾来看，虽然调优花费的时间多，但是每一个尝试不论成功还是失败都是一次宝贵的经验积累。

到此这篇关于python详解复杂CSV文件处理方法的文章就介绍到这了,更多相关Python CSV文件处理内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python详解复杂CSV文件处理方法

本文链接: https://www.lsjlt.com/news/119497.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python详解复杂CSV文件处理方法

目录项目简介项目笔记与心得1.分批处理与多进程及多线程加速2.优化算法提高效率总结项目简介鉴于项目保密的需要，不便透露太多项目的信息，因此，简单介绍一下项目存在的难点：海量数据：...

99+

2024-04-02
python处理csv文件的方法是什么

在Python中处理CSV（逗号分隔值）文件有多种方法，以下是其中几种常用的方法：1. 使用csv模块：Python内置的csv模块...

99+

2023-09-15

python
python如何处理csv文件

使用python处理csv文件的方法：1.新建python项目；2.导入csv库；3.使用open()函数打开文件，并创建文件对象；4.使用reader()和writer()函数获取文件对象；5.使用writerow()方法向文件中写入数据...

99+

2024-04-02
Python处理CSV文件的高效方法与技巧

python 提供了高效的 csv 模块来处理 csv 文件。可以通过以下步骤进行操作：安装 csv 模块。使用 csv.reader() 读取 csv 文件。逐行高效处理大文件。读写内...

99+

2024-04-03

python csv csv文件
如何用Python处理CSV文件

这篇文章主要介绍“如何用Python处理CSV文件”，在日常操作中，相信很多人在如何用Python处理CSV文件问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”如何用Python处理CSV文件”的疑惑有所帮助！...

99+

2023-07-02
Python高效处理大文件的方法详解

目录开始处理文本串行处理多进程处理并行处理并行批量处理将文件分割成批运行并行批处理tqdm 并发结论为了进行并行处理，我们将任务划分为子单元。它增加了程序处理的作业数量，减少了整体处...

99+

2024-04-02
python文件处理详解

目录文件操作1.txt文件打开文件2.数据维度3.Excel文件总结文件操作此为本人学习python过程中的笔记，将持续更新，欢迎提问指正。 1.txt文件 1.文本文件 tx...

99+

2024-04-02
详解Python读取和写入操作CSV文件的方法

目录什么是 CSV 文件？内置 CSV 库解析 CSV 文件读取 CSV 文件csv将 CSV 文件读入字典csv可选的 Python CSV reader参数使用 csv 写入文件...

99+

2024-04-02
node.js生成与读取csv文件方法详解

nodejs使用object-to-CSV库生成csv文件 object-to-CSV是一个非常棒的库，可以使用nodejs将对象数组快速写入CSV文件。当然，还有许多其他的库。只...

99+

2022-11-13

node.js生成csv文件方法 node.js与读取csv文件方法 object-to-CSV生成csv文件方法
Python修改CSV文件实例详解

目录前言Python 修改CSV文件前言由于 CSV 文件仅仅是简单的文本文件，因此更新 CSV 文件中内容的最佳方式是首先读取文件中的数据，并将它们处理为 P...

99+

2024-04-02
Python编解码问题及文本文件处理方法详解

编解码器在字符与字节之间的转换过程称为编解码，Python自带了超过100种编解码器，比如： ascii（英文体系） gb2312（中文体系） utf-...

99+

2024-04-02
C#实现读写CSV文件的方法详解

目录CSV文件标准文件示例RFC 4180简化标准读写CSV文件使用CsvHelper使用自定义方法总结项目中经常遇到CSV文件的读写需求，其中的难点主要是CSV文件的解析。本文会介...

99+

2024-04-02
怎么用Python Pandas处理CSV文件

本篇内容主要讲解“怎么用Python Pandas处理CSV文件”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“怎么用Python Pandas处理CSV文件”吧!读取Pand...

99+

2023-07-02
PythonPandas读写txt和csv文件的方法详解

目录一、文本文件1. read_csv()2. to_csv()一、文本文件文本文件，主要包括csv和txt两种等，相应接口为read_csv()和to_csv()，分别用于读写数...

99+

2024-04-02
详解Python的文件处理

目录先学会文件的读写！我们看看一些文件操作示例吧读取文件数据写数据简单展示按行读取总结先学会文件的读写！比如像以前在学校读书的时候，第一门编程课设计要求是制作学生管理系统。这就需...

99+

2024-04-02
使用Bash读取和处理CSV文件的方法

目录介绍如何使用 cut 命令如何使用 IFS 将列存储在变量中如何使用 IFS 将列存储在数组中（●）对于空格或制表符分隔的文件如何处理要读取的CSV文件如何使用awk命令介绍我将介绍它，因为在使用 linux Ba...

99+

2023-02-16

Bash处理CSV Bash读取CSV
Java 文件操作难题：解决文件处理的复杂挑战

文件处理是 Java 开发中的一个常见任务，但它也可能带来复杂的挑战，特别是当涉及大文件、并发访问或复杂数据格式时。为了解决这些挑战，需要采用各种策略和技术。大文件处理流式处理：避免将整个文件加载到内存中。而是逐块读取数据并进行处...

99+

2024-04-02
Python实现自动化处理PDF文件的方法详解

目录自动化处理PDF文件1. 批量合并PDF文件2. 批量拆分PDF文件3. 批量加密PDF文件4. 批量PDF添加水印完整代码自动化处理PDF文件使用Python完成简单的PDF...

99+

2024-04-02
Python处理文本数据的方法详解

目录前言用python处理文本数据用python处理数值型数据前言 HI，好久不见，今天是关闭朋友圈的第60天，我是野蛮成长的AC-Asteroid。人生苦短，我用Python,通...

99+

2024-04-02
Python读写csv文件的操作方法

这篇文章主要介绍了Python读写csv文件的操作方法，具有一定借鉴价值，需要的朋友可以参考下。下面就和我一起来看看吧。要在 Python 中写入 CSV，请使用 Python 的 csv 模块。例如，让我们将一个字符串列表写入一个新的 C...

99+

2023-07-06