首页 > 资讯 > 后端开发 > Python >解决pytorch load huge dataset(大数据加载)

221

分享到

解决pytorch load huge dataset(大数据加载)

2024-04-02 19:04:59 221人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

问题最近用PyTorch做实验时，遇到加载大量数据的问题。实验数据大小在400Gb，而本身机器的memory只有256Gb，显然无法将数据一次全部load到memory。解决方法

问题

最近用PyTorch做实验时，遇到加载大量数据的问题。实验数据大小在400Gb，而本身机器的memory只有256Gb，显然无法将数据一次全部load到memory。

解决方法

首先自定义一个MyDataset继承torch.utils.data.Dataset，然后将MyDataset的对象feed in torch.utils.data.DataLoader()即可。

MyDataset在__init__中声明一个文件对象，然后在__getitem__中缓慢读取数据，这样就不会一次把所有数据加载到内存中了。训练数据存放在train.txt中，每一行是一条数据记录。


import torch.utils.data as Data
from tqdm import tqdm
class MyDataset(Data.Dataset):
	def __init__(self,filepath):
		number = 0
		with open(filepath,"r") as f:
			# 获得训练数据的总行数
			for _ in tqdm(f,desc="load training dataset"):
				number+=1
		self.number = number
		self.fopen = open(filepath,'r')
	def __len__(self):
		return self.number
	def __getitem__(self,index):
		line = self.fopen.__next__()
		# 自定义transfORM()对训练数据进行预处理
		data = transform(line)
		return data

train_dataset = MyDataset(filepath = "train.txt")
training_data = Data.DataLoader(dataset=train_dataset, batch_size=32,num_workers=1)

注意

1、num_workers只能设置为1。因为MyDataset初始化时只有一个文件对象，在dataloader时num_workers=1只用一个线程去操作文件对象读取数据。如果num_workers>1, 会出错，多个线程同时操作同一个文件对象，得到的数据并不是你想要的。

2、每一个epoch结束以后，需要重新声明train_dataset和training_data。因为一个epoch结束以后，文件对象已经指向文件末尾，下一个epoch取数据时，什么也得不到。

3、因为这里__getitem__()只是顺序的从文件中取出一行，而与index无关，那么在DataLoader时，即使参数shuffle指定为True，得到的数据依然是顺序的，即该方法无法shuffle数据。

补充：Pytorch加载自己的数据集(使用DataLoader读取Dataset)

1. 我们经常可以看到Pytorch加载数据集会用到官方整理好的数据集

很多时候我们需要加载自己的数据集，这时候我们需要使用Dataset和DataLoader

Dataset：是被封装进DataLoader里，实现该方法封装自己的数据和标签。

DataLoader：被封装入DataLoaderIter里，实现该方法达到数据的划分。

2.Dataset

阅读源码后，我们可以指导，继承该方法必须实现两个方法：

_getitem_()

_len_()

因此，在实现过程中我们测试如下：


import torch
import numpy as np

# 定义GetLoader类，继承Dataset方法，并重写__getitem__()和__len__()方法
class GetLoader(torch.utils.data.Dataset):
	# 初始化函数，得到数据
    def __init__(self, data_root, data_label):
        self.data = data_root
        self.label = data_label
    # index是根据batchsize划分数据后得到的索引，最后将data和对应的labels进行一起返回
    def __getitem__(self, index):
        data = self.data[index]
        labels = self.label[index]
        return data, labels
    # 该函数返回数据大小长度，目的是DataLoader方便划分，如果不知道大小，DataLoader会一脸懵逼
    def __len__(self):
        return len(self.data)

# 随机生成数据，大小为10 * 20列
source_data = np.random.rand(10, 20)
# 随机生成标签，大小为10 * 1列
source_label = np.random.randint(0,2,(10, 1))
# 通过GetLoader将数据进行加载，返回Dataset对象，包含data和labels
torch_data = GetLoader(source_data, source_label)

3.DataLoader

提供对Dataset的操作，操作如下：


torch.utils.data.DataLoader(dataset,batch_size,shuffle,drop_last，num_workers)

参数含义如下：

dataset：加载torch.utils.data.Dataset对象数据

batch_size：每个batch的大小

shuffle：是否对数据进行打乱

drop_last：是否对无法整除的最后一个datasize进行丢弃

num_workers：表示加载的时候子进程数

因此，在实现过程中我们测试如下（紧跟上述用例）：


from torch.utils.data import DataLoader

# 读取数据
datas = DataLoader(torch_data, batch_size=6, shuffle=True, drop_last=False, num_workers=2)

此时，我们的数据已经加载完毕了，只需要在训练过程中使用即可。

4.查看数据

我们可以通过迭代器（enumerate）进行输出数据，测试如下：


for i, data in enumerate(datas):
 # i表示第几个batch， data表示该batch对应的数据，包含data和对应的labels
    print("第 {} 个Batch \n{}".format(i, data))

输出结果如下图：

结果说明：由于数据的是10个，batchsize大小为6，且drop_last=False，因此第一个大小为6，第二个为4。每一个batch中包含data和对应的labels。

当我们想取出data和对应的labels时候，只需要用下表就可以啦，测试如下：


# 表示输出数据
print(data[0])
# 表示输出标签
print(data[1])

结果如图：

在这里插入图片描述

以上为个人经验，希望能给大家一个参考，也希望大家多多支持编程网。

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 解决pytorch load huge dataset(大数据加载)

本文链接: https://www.lsjlt.com/news/127188.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

解决pytorch load huge dataset(大数据加载)

问题最近用pytorch做实验时，遇到加载大量数据的问题。实验数据大小在400Gb，而本身机器的memory只有256Gb，显然无法将数据一次全部load到memory。解决方法...

99+

2022-11-12
Java的大数据处理，如何解决对象的加载问题？

随着大数据时代的到来，数据量的爆炸式增长，对于Java开发人员来说，如何高效地处理大数据成为了一个重要的问题。在处理大数据时，Java中的对象加载问题是一个非常关键的问题。在这篇文章中，我们将探讨Java的大数据处理中对象加载的问题，以及...

99+

2023-08-16

大数据对象 load
Python 容器打包：load() 方法详解，如何轻松加载数据？

在 Python 编程中，我们经常需要处理数据的存储和读取，而容器打包是其中一种常见的存储方式。Python 提供了 pickle 模块来实现容器打包，而其中的 load() 方法则是用于加载存储的数据。本文将详细介绍 load() 方法...

99+

2023-10-31

容器打包 load
pytorch加载自己的图片数据集的2种方法详解

目录ImageFolder 加载数据集使用pytorch提供的Dataset类创建自己的数据集。Dataset加载数据集总结pytorch加载图片数据集有两种方法。 1.ImageF...

99+

2022-11-11
iOS列表上拉（平滑加载数据）自动加载数据的问题解决

项目需求我的的列表需要改变，原来的分页加载采用的是MJRefresh框架进行加载更多数据，这需要有一个上拉动作才能触发，而我的产品的意思是当快要滑动到底部时自动加载下一页数据。我...

99+

2022-05-19

ios 上拉加载
chart控件加载数据卡如何解决

加载数据卡（loading）是指在数据加载过程中，页面显示一个loading图标或者文本，以提示用户数据正在加载中，避免用户的不耐烦...

99+

2023-09-21

chart
java往list添加大量数据慢怎么解决

如果在Java中向List添加大量数据很慢，可能是因为使用了较慢的数据结构或算法。下面提供几种可能的解决方案：1. 使用ArrayL...

99+

2023-08-30

java
【MySQL】使用LOAD DATA INFILE命令加载数据文件到MySQL数据库的方法和常见错误及解决方法

文章目录【MySQL】使用LOAD DATA INFILE命令加载数据文件到MySQL数据库的方法和常见错误及解决方法LOAD DATA INFILE的语法详细1.创建（选择）目标数据库和表2.将数据从 CSV 文件导入已创建的表...

99+

2023-08-17

数据库 mysql SQL
如何解决el-select数据过多懒加载问题

这篇文章主要介绍如何解决el-select数据过多懒加载问题，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！el-select数据过多处理方式在日常项目中el-select组件的使用频...

99+

2022-10-19
Python 容器打包：load() 方法详解，如何轻松加载数据并提高效率？

Python是一种高效的编程语言，而Python的容器打包功能是Python的一个重要特性之一。在Python中，容器打包是指将多个数据结构打包成一个单一的对象。当需要一起处理这些数据结构时，这个打包对象可以极大地提高效率。Python提供...

99+

2023-10-31

容器打包 load
Java大数据处理中的对象加载问题你了解吗？

随着大数据时代的到来，数据处理变得越来越复杂，而Java作为一种广泛应用于企业级应用程序的语言，也必须应对大数据处理方面的挑战。在处理大数据时，Java程序需要加载大量的对象，因此对象加载的效率成为了一个关键问题。本文将介绍Java大数据...

99+

2023-08-16

大数据对象 load
java连接数据库加载驱动失败如何解决

要解决Java连接数据库加载驱动失败的问题，可以尝试以下几个方法：1. 确保驱动库已添加到项目的classpath中。检查项目中是否...

99+

2023-09-22

java 数据库
解决Android ListView数据为空及加载错误的方法

在项目中，都会用到ListView或GridView等列表控件。一般会用来展示从网络请求的数据。如果请求的数据为空或者在请求的时候正好无没有网络了，我们的界面应该如何展示呢？...

99+

2022-06-06

方法 listview Android
如何解决Ajax加载JSon数据中文乱码问题

这篇文章主要介绍了如何解决Ajax加载JSon数据中文乱码问题，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。一、问题描述使用zTree的异步...

99+

2022-10-19
Android webView加载数据时内存溢出问题及解决

目录Android webView加载数据时内存溢出Android内存问题 (内存溢出内存泄漏内存抖动)总结Android webView加载数据时内存溢出今天使用webVie...

99+

2022-12-08

Android webView webView加载数据 webView内存溢出
如何解决bootstrap-select动态加载数据不显示的问题

小编给大家分享一下如何解决bootstrap-select动态加载数据不显示的问题，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！...

99+

2022-10-19
Python实现实时增量数据加载工具的解决方案

目录创建增量ID记录表数据库连接类增量数据服务客户端结果测试本次主要分享结合单例模式实际应用案例：实现实时增量数据加载工具的解决方案。最关键的是实现一个可进行添加、修改、删除等操作的...

99+

2022-11-13
PHPMyAdmin编辑数据库显示“正在加载”报错的解决方法

这篇文章主要介绍了PHPMyAdmin编辑数据库显示“正在加载”报错的解决方法，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。PHPMyAdm...

99+

2022-10-18
vue如何解决数据加载时,插值表达式闪烁问题

目录数据加载,插值表达式闪烁问题1.在公共的css样式中加入2.在el挂载的标签上添加解决插值表达式渲染数据闪动先看代码出现的问题解决方法如下图数据加载,插值表达式闪烁问题 1.在公...

99+

2022-11-13
Numpy数据加载时常见的问题和解决方法是什么？

在数据科学领域中，Numpy是一个非常重要的库，它为数据分析和科学计算提供了强大的支持。但是，在使用Numpy进行数据加载时，常会遇到一些问题。这篇文章将介绍Numpy数据加载时常见的问题及其解决方法。问题一：数据类型不匹配当我们使用...

99+

2023-08-11

日志 numy load