Python大批量写入数据(百万级别)的方法

python批量写入文件 python处理大量数据 python批量处理数据 2023-08-08 05:08:09 178人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

目录背景方案代码方案二方案一总结背景现有一个百万行数据的csv格式文件，需要在两分钟之内存入数据库。方案方案一：多线程+协程+异步Mysql方案二：多线程+mysql批量插入

背景

现有一个百万行数据的csv格式文件，需要在两分钟之内存入数据库。

方案

方案一：多线程+协程+异步Mysql方案二：多线程+mysql批量插入

代码

   1，先通过pandas读取所有csv数据存入列表。
   2，设置N个线程，将一百万数据均分为N份，以start,end传递给线程以切片的方法读取区间数据（建议为16个线程）
   3，方案二线程内以 executemany 方法批量插入所有数据。
   4，方案一线程内使用异步事件循环遍历所有数据异步插入。
   5，方案一纯属没事找事型。

方案二

import threading

import pandas as pd
import asyncio
import time

import aiomysql
import pymysql

data=[]
error_data=[]

def run(start,end):
    global data
    global error_data
    print("start"+threading.current_thread().name)
    print(time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time())))
    mysdb = getDb("*", *, "*", "*", "*")
    cursor = mysdb.cursor()
    sql = """insert into *_*_* values(%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)"""
    cursor.executemany(sql,data[start:end])
    mysdb.commit()
    mysdb.close()
    print("end" + threading.current_thread().name)
    print(time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time())))

def csv_file_read_use_pd(csvFile):
    csv_result = pd.read_csv(csvFile,encoding="utf-16",sep='\t')
    csv_result = csv_result.fillna(value="None")
    result = csv_result.values.tolist()
    return result

class MyDataBase:
    def __init__(self,host=None,port=None,username=None,passWord=None,database=None):
        self.db = pymysql.connect(host=host,port=port,user=username,password=password,database=database)
    def close(self):
        self.db.close()

def getDb(host,port,username,password,database):
    MyDb = MyDataBase(host, port, username, password,database)
    return MyDb.db

def main(csvFile):
    global data  #获取全局对象  csv全量数据
    #读取所有的数据   将所有数据均分成   thread_lens   份 分发给  thread_lens  个线程去执行
    thread_lens=20
    csv_result=csv_file_read_use_pd(csvFile)
    day = time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time()))
    for item in csv_result:
        item.insert(0,day)

    data=csv_result
    thread_exe_count_list=[]   #线程需要执行的区间
    csv_lens=len(csv_result)
    avg = csv_lens // thread_lens
    remainder=csv_lens % thread_lens
    # 0,27517  27517,55,034
    nowIndex=0
    for i in range(thread_lens):
        temp=[nowIndex,nowIndex+avg]
        nowIndex=nowIndex+avg
        thread_exe_count_list.append(temp)
    thread_exe_count_list[-1:][0][1]+=remainder  #余数分给最后一个线程
    # print(thread_exe_count_list)

    #th(thread_exe_count_list[0][0],thread_exe_count_list[0][1])

    for i in range(thread_lens):
        sub_thread = threading.Thread(target=run,args=(thread_exe_count_list[i][0],thread_exe_count_list[i][1],))
        sub_thread.start()
        sub_thread.join()
        time.sleep(3)

if __name__=="__main__":
    #csv_file_read_use_pd("分公司箱型箱量.csv")
    main("分公司箱型箱量.csv")

方案一

import threading

import pandas as pd
import asyncio
import time

import aiomysql

data=[]
error_data=[]

async def async_basic(loop,start,end):
    global data
    global error_data
    print("start"+threading.current_thread().name)
    print(time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time())))
    conn = await aiomysql.connect(
        host="*",
        port=*,
        user="*",
        password="*",
        db="*",
        loop=loop
    )
    day = time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time()))
    sql = """insert into **** values(%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)"""
    async with conn.cursor() as cursor:
        for item in data[start:end]:
            params=[day]
            params.extend(item)
            try:
                x=await cursor.execute(sql,params)
                if x==0:
                    error_data.append(item)
                print(threading.current_thread().name+"   result "+str(x))
            except Exception as e:
                print(e)
                error_data.append(item)
                time.sleep(10)
                pass
    await conn.close()
    #await conn.commit()
    #关闭连接池
    # pool.close()
    # await pool.wait_closed()
    print("end" + threading.current_thread().name)
    print(time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time())))

def csv_file_read_use_pd(csvFile):
    csv_result = pd.read_csv(csvFile,encoding="utf-16",sep='\t')
    csv_result = csv_result.fillna(value="None")
    result = csv_result.values.tolist()
    return result

def th(start,end):
    loop = asyncio.new_event_loop()
    loop.run_until_complete(async_basic(loop,start,end))


def main(csvFile):
    global data  #获取全局对象  csv全量数据
    #读取所有的数据   将所有数据均分成   thread_lens   份 分发给  thread_lens  个线程去执行
    thread_lens=20
    csv_result=csv_file_read_use_pd(csvFile)
    data=csv_result
    thread_exe_count_list=[]   #线程需要执行的区间
    csv_lens=len(csv_result)
    avg = csv_lens // thread_lens
    remainder=csv_lens % thread_lens
    # 0,27517  27517,55,034
    nowIndex=0
    for i in range(thread_lens):
        temp=[nowIndex,nowIndex+avg]
        nowIndex=nowIndex+avg
        thread_exe_count_list.append(temp)
    thread_exe_count_list[-1:][0][1]+=remainder  #余数分给最后一个线程
    print(thread_exe_count_list)

    #th(thread_exe_count_list[0][0],thread_exe_count_list[0][1])

    for i in range(thread_lens):
        sub_thread = threading.Thread(target=th,args=(thread_exe_count_list[i][0],thread_exe_count_list[i][1],))
        sub_thread.start()
        time.sleep(3)

if __name__=="__main__":
    #csv_file_read_use_pd("分公司箱型箱量.csv")
    main("分公司箱型箱量.csv")

总结

到此这篇关于python大批量写入数据的文章就介绍到这了,更多相关Python大批量写入数据内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python大批量写入数据(百万级别)的方法

本文链接: https://www.lsjlt.com/news/366528.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python大批量写入数据(百万级别)的方法

目录背景方案代码方案二方案一总结背景现有一个百万行数据的csv格式文件，需要在两分钟之内存入数据库。方案方案一：多线程+协程+异步MySql方案二：多线程+MySql批量插入 ...

99+

2023-08-08

python批量写入文件 python处理大量数据 python批量处理数据
Java实现百万级数据量向MySQL批量插入

业务背景：大数据向mysql表同步百万级数量，我们需要将大数据表里同步过来的数据分别向三张业务表做数据同步，最终将业务表的数据展示给前台进行相关业务操作。数据量级大数据表：700w数据量三张业务表分别需要同步：23w、80w、680...

99+

2023-08-25

mysql java mybatis
Mysql百万量级数据如何高效导入Redis

Mysql百万量级数据如何高效导入Redis，很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。随着系统的运行，数据量变得越来越大，...

99+

2024-04-02
Mysql大数据批量插入方法

MySQL是当前最流行的关系型数据库之一，大数据批量插入是MySQL中常用的操作之一。在处理大量数据时，如果一条一条地插入会极大地影响效率，因此批量插入是一个更好的选择，可以大大提高数据的处理速度。下面介绍几种MySQL大数据批量插入的方法...

99+

2023-09-14

mysql 大数据数据库
Mybatis批量插入大量数据的方法有哪些

本文小编为大家详细介绍“Mybatis批量插入大量数据的方法有哪些”，内容详细，步骤清晰，细节处理妥当，希望这篇“Mybatis批量插入大量数据的方法有哪些”文章能帮助大家解决疑惑，下面跟着小编的思路慢慢深入，一起来学习新知识吧。Mybat...

99+

2023-07-05
python数据怎么批量写入数据库

在Python中，可以使用循环和SQL语句将数据批量写入数据库。以下是一个示例，展示了如何使用Python的`sqlite3`模块将...

99+

2023-10-11

python 数据库
Java实现批量向mysql写入数据的方法

本文实例讲述了Java实现批量向mysql写入数据的方法。分享给大家供大家参考，具体如下：private static String user = "root";private static String pass = "123456";p...

99+

2023-05-30

java mysql ava
ORACLE大批量插入数据的方法是什么

这篇文章主要介绍了ORACLE大批量插入数据的方法是什么的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇ORACLE大批量插入数据的方法是什么文章都会有所收获，下面我们一起来看看吧。最近有几张表随着时间不断的增长...

99+

2023-07-05
Python读取千万级数据自动写入MySQL数据库

目录前言场景一：数据不需要频繁的写入mysql场景二：数据是增量的，需要自动化并频繁写入mysql总结前言 Python 读取数据自动写入 MySQL 数据库，这个需求在工作中是非常...

99+

2024-04-02
C#实现Oracle批量写入数据的方法详解

目录文章描述开发环境开发工具实现代码文章描述往数据库批量写入数据，这个功能使用频率相对还是比较高的，特别是在做一些导入等功能的时候。net的程序大部分都是使用的sqlserver或...

99+

2022-11-13

C# Oracle批量写入数据 C# Oracle 写入数据 C# Oracle 数据 C# Oracle
mysql批量录入数据的方法

这篇文章主要介绍了mysql批量录入数据的方法，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。mysql批量录入数据的方法：1、使用循环插入；...

99+

2024-04-02
mysql大批量插入数据的4种方法示例

前言本文主要给大家介绍了关于mysql大批量插入数据的4种方法，分享出来供大家参考学习，下面话不多说了，来一起看看详细的介绍吧方法一：循环插入这个也是最普通的方式，如果数据量不是很大，可以使用，但是...

99+

2024-04-02
MySQL百万级数据大分页查询优化的实现

目录一、MySQL分页起点越大查询速度越慢二、 limit大分页问题的性能优化方法（1）利用表的覆盖索引来加速分页查询（2）用上次分页的最大id优化三、MySQL百万数据快速生成3....

99+

2024-04-02
百万级MySQL的数据量怎么快速完成数据迁移

这篇文章主要讲解了“百万级MySQL的数据量怎么快速完成数据迁移”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“百万级MySQL的数据量怎么快速完成数据迁移”...

99+

2024-04-02
Mybatis批量插入大量数据最优方式

Mybatis批量插入的方式有三种 1. 普通插入 2. foreach 优化插入 3. ExecutorType.BATCH插入下面对这三种分别进行比较: 1.普通插入默认的插入方式是遍历ins...

99+

2023-09-06

mybatis java mysql
python向mySQL批量插入数据的方

通过调用mySQLdb python库中的 cursor.executemany()函数完成批量处理。今天用这个函数完成了批量插入例程： def test_insertDB(): conn = database.Connect...

99+

2023-01-31

批量数据 python
如何高效的在Mysql百万级数据量级下迁移到Redis

如何高效的在Mysql百万级数据量级下迁移到Redis，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。redis协议学习协议的格式为：*<...

99+

2024-04-02
数据库批量插入数据的三种方法

一、准备工作测试环境：SpringBoot项目+MybatisPlus框架+MySQL数据库+Lombok 二、导入依赖 org.springframework.boot spring-...

99+

2023-08-20

mysql mybatis spring boot
怎么用Python读取千万级数据自动写入MySQL数据库

这篇文章主要介绍“怎么用Python读取千万级数据自动写入MySQL数据库”，在日常操作中，相信很多人在怎么用Python读取千万级数据自动写入MySQL数据库问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”怎...

99+

2023-07-02
Mybatis批量插入大量数据的最优方式总结

目录Mybatis批量插入的方式有三种下面对这三种分别进行比较:1.普通插入2.foreach 优化插入3.ExecutorType.BATCH插入总结:Mybatis批量插入的方式...

99+

2023-03-19

mybatis大量数据批量insert mybatis 批量插数据 mybatis批量新增数据