iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Pandas数据集的分块读取的实现
  • 118
分享到

Pandas数据集的分块读取的实现

2024-04-02 19:04:59 118人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

目录一、直接用分块方式读取数据集文件(更直接)二、先将数据集读取为可迭代对象,再分块读取(更灵活)总结所谓“分块”,顾名思义,就是将数据集分成几块进行读取,比

所谓“分块”,顾名思义,就是将数据集分成几块进行读取,比如有105条数据,一次读取10条,读取11次才能全部读完。以下提供两种分块读取的方法,两种方法各有优劣。

一、直接用分块方式读取数据集文件(更直接)

分块读取数据集文件是指用read_xxx()方法读取存储数据的文件时采用分块的方式,这里以.csv文件为例,在read_csv()中加入chunksize参数即可实现分块读取:

reader = pd.read_csv('某招聘网站数据.csv', usecols = ['positionId', 'companyId', 'positionName', 'skillLables'],
                     chunksize=10)

此时,返回的reader不是DataFrame,而是一个可迭代对象(iteration),需要注意的是,这个可迭代对象不能用下标访问。 下面遍历这个对象:

for r in reader:
    print(r)

遍历结果如下图所示:

这种分块读取方式比较直接,但是由于一开始就定义了分块大小,后续处理起来不够灵活。因此提供了第二种读取方法。

二、先将数据集读取为可迭代对象,再分块读取(更灵活)

 这种方法将数据集文件读取为时可迭代对象不定义分块,用分块的方式读取read_csv()方法返回的可迭代对象。实现第一步要在read_csv()方法中指定参数iterator为True:

reader = pd.read_csv('某招聘网站数据.csv', usecols = ['positionId', 'companyId', 'positionName'],
                    iterator=True)

以下是用分块方式遍历reader,注意使用到的get_chunk()方法和里面的参数,参数定义分块大小,可以灵活调节:

while True:
    try:
        print(reader.get_chunk(10))
    except StopIteration:
        break

总结

综上所述,两种方法都能用pandas实现数据的分块读取,对于数据量较大的数据集还是比较实用的。两种方法的优劣体现在直接性和灵活性上,可以根据实际需求自行选择。

到此这篇关于Pandas数据集的分块读取的实现的文章就介绍到这了,更多相关Pandas数据集分块读取内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: Pandas数据集的分块读取的实现

本文链接: https://www.lsjlt.com/news/119879.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Pandas数据集的分块读取的实现
    目录一、直接用分块方式读取数据集文件(更直接)二、先将数据集读取为可迭代对象,再分块读取(更灵活)总结所谓“分块”,顾名思义,就是将数据集分成几块进行读取,比...
    99+
    2022-11-11
  • pandas实现数据读取&清洗&分析的项目实践
    目录一、数据读取和写入1.1 CSV和txt文件:1.2 Excel文件:1.3 MYSQL数据库:二、数据清洗2.1 清除不需要的行数据2.2 清除不需要的列2.3 调整列的展示顺...
    99+
    2022-11-11
  • Pandas读取csv的实现
    目录一、Pandas读取表头:二、读取具体数据:对于文件的操作中,读写csv操作是一个比较常见的操作,很多时候可能会选择使用python中的文件读取的方式对csv文件操作,这种方式并...
    99+
    2023-01-15
    Pandas读取csv Pandas csv读取
  • pandas读取excel时获取读取进度的实现
    写在前面 QQ群里偶然看到群友问这个问题, pandas读取大文件时怎么才能获取进度? 我第一反应是: 除非pandas的read_excel等函数提供了回调函数的接口, 否...
    99+
    2022-11-12
  • Python Pandas模块实现数据的统计分析的方法
    一、groupby函数 Python中的groupby函数,它主要的作用是进行数据的分组以及分组之后的组内的运算,也可以用来探索各组之间的关系,首先我们导入我们需要用到的模块 import pandas as p...
    99+
    2022-06-02
    Pandas模块实现数据的统计分析 Python pandas
  • pytorch读取自制数据集的示例分析
    小编给大家分享一下pytorch读取自制数据集的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!问题1问题描述:TypeError: default_col...
    99+
    2023-06-15
  • 用Python的pandas读取excel文件中的数据
    一、前言 hello呀!各位铁子们大家好呀,今天呢来和大家聊一聊用Python的pandas读取excel文件中的数据。 二、读取Excel文件 使用pandas的read_excel()方法,可通过文件路径直接读取。注意到,在一个exce...
    99+
    2023-09-01
    python excel 软件测试 自动化测试 测试工程师
  • Pandas数据查询的集中实现方法
    目录Pandas查询数据的几种方法Pandas使用df.loc查询数据的方法0、进行数据预处理1、使用单个label值查询数据2、使用值列表批量查询3、使用数值区间进行范围查询4、使...
    99+
    2023-02-27
    Pandas数据查询 Pandas查询数据
  • Pandas数据查询的集中如何实现
    今天小编给大家分享一下Pandas数据查询的集中如何实现的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。Pandas查询数据的...
    99+
    2023-07-05
  • Pandas实现在线文件和剪贴板数据读取详解
    目录前言read_html在线文件1在线文件2读取在线CSV文件Pandas读取剪贴板前言 大家好,我是Peter~ 本文记录的是Pandas两种少用的读取文件方式: 读取在线文件的...
    99+
    2022-11-11
  • PyTorch数据读取的实现示例
    前言 PyTorch作为一款深度学习框架,已经帮助我们实现了很多很多的功能了,包括数据的读取和转换了,那么这一章节就介绍一下PyTorch内置的数据读取模块吧 模块介绍 pan...
    99+
    2022-11-11
  • 使用python的pandas读取excel文件中的数据详情
    目录一、读取Excel文件二、DataFrame对象的结构三、用values方式获取数据1.基本方法2.获取指定数据的写法3.示例四、用loc和iloc方式获取数据1.基本写法2.示...
    99+
    2022-11-11
  • python中Pandas读取数据文件的优点是什么
    这篇文章给大家分享的是有关python中Pandas读取数据文件的优点是什么的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。1、优点Pandas 提供了多种常用文件格式的读写函数,以上各种情况都能一行代码搞定。Pa...
    99+
    2023-06-15
  • 使用pandas模块实现数据的标准化操作
    如下所示: 3σ 原则 (u-3*σ ,u+3*σ ) ...
    99+
    2022-11-12
  • pytorch dataset实战案例之读取数据集的代码
    目录概述项目结构与代码总结参考资料概述 最近在跑一篇图像修复论文的代码,配置好环境之后开始运行,发现数据一直加载不进去。害,还是得看人家代码咋写的,一句一句看逻辑,准能找出问题。通读...
    99+
    2022-11-11
  • Python Pandas读取Excel日期数据的异常处理方法
    目录异常描述出现原因解决方案:修改自定义格式pandas直接解析Excel数值为日期总结 异常描述 有时我们的Excel有一个调整过自定义格式的日期字段: 当我们用pan...
    99+
    2022-11-13
  • pandas数据聚合与分组运算的实现
    数据聚合与分组运算 对数据集进行分组并对各组应用一个函数(无论是聚合还是转换),通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后,通常就是计算分组统计或生成透视表。p...
    99+
    2023-01-28
    pandas 数据聚合 pandas 分组运算
  • 针对Pandas的总结以及数据读取_pd.read_csv()的使用详解
    目录1. FilePathOrBuffer2. sep3. delim_whitespace(不常用)4. header 和 names5. index_col6. usecols7...
    99+
    2023-03-22
    pandas总结 pandas _pd.read_csv()
  • 解决pytorch读取自制数据集出现过的问题
    问题1 问题描述: TypeError: default_collate: batch must contain tensors, numpy arrays, numbers, d...
    99+
    2022-11-12
  • Python Pandas读取Excel日期数据的异常处理怎么办
    小编给大家分享一下Python Pandas读取Excel日期数据的异常处理怎么办,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!异常描述有时我们的Excel有一个调整过自定义格式的日期字段:当我们用pandas读...
    99+
    2023-06-29
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作