首页 > 资讯 > 后端开发 > Python >解决Pytorch内存溢出,Ubuntu进程killed的问题

180

分享到

解决Pytorch内存溢出,Ubuntu进程killed的问题

2024-04-02 19:04:59 180人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

PyTorch显存越来越多的一个原因 optimizer.zero_grad() loss.backward() optimizer.step() train_loss += l

PyTorch显存越来越多的一个原因


optimizer.zero_grad()
loss.backward()
optimizer.step()
train_loss += loss

参考了别人的代码发现那句loss一般是这样写


loss_sum += loss.data[0]

这是因为输出的loss的数据类型是Variable。而PyTorch的动态图机制就是通过Variable来构建图。主要是使用Variable计算的时候，会记录下新产生的Variable的运算符号，在反向传播求导的时候进行使用。如果这里直接将loss加起来，系统会认为这里也是计算图的一部分，也就是说网络会一直延伸变大那么消耗的显存也就越来越大。

用Tensor计算要写成：


train_loss += loss.item()

correct_total += torch.eq(predict, label_batch).sum().item()
train_loss += loss.item()

当需要将模型中变量提取出来参与计算时，需要使用** .item()**

补充：linux下运行pytorch程序显示“killed”或者“已杀死”

这是由pytorch对于内存不足的反应，确切说，是linux内核对pytorch程序占用太多内存的反应。Linux内核一旦因为内存资源不足而生气的时候，会使用OOM killer将占用内存最多的进程杀掉。

这种情况下，pytorch的python程序根本就来不及显示相关的内存日志，直接在呼喊出killed这一个简短有力的词语后，就game over了。如果不提前掌握这个背景的话，你可真是会手足无措啊。

既然我们确定了是内存不足导致的问题（dmesg也能明确的显示出kernel把占了近10个GB的Python进程给kill了），

那我们的解决方案就有2个：

第一个是加大内存，将我的x99平台的内存从16GB增加到64GB；这个方案先放弃了，因为内存条涨价太猛，我买不起了；

第二个是增加swap分区，当然性能会降低，但不需要额外增加成本。所以Gemfield今天的选择就是第二个方案。

1、先禁止掉swap功能


sudo swapoff /swapfile

这个命令执行之后，如果你用free命令查看的话会发现swap分区的大小变为了0。

2、增加 /swapfile的大小


sudo dd if=/dev/zero of=/swapfile bs=1M count=30720 oflag=append conv=notrunc

这个命令会在现有的/swapfile后面追加30GB，加上之前的2GB的swap分区，现在共有32个GB的swap分区了。如果按照固态硬盘128GB有300多块钱来算的话，这个命令花了七八十块钱呢。

3、设置这个文件为swap分区的挂载点：


sudo mkswap /swapfile

4、再次启用swap


sudo swapon /swapfile

以上为个人经验，希望能给大家一个参考，也希望大家多多支持编程网。

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 解决Pytorch内存溢出,Ubuntu进程killed的问题

本文链接: https://www.lsjlt.com/news/127051.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

解决Pytorch内存溢出,Ubuntu进程killed的问题

PyTorch显存越来越多的一个原因

用Tensor计算要写成：

那我们的解决方案就有2个：

1、先禁止掉swap功能

2、增加 /swapfile的大小

3、设置这个文件为swap分区的挂载点：

4、再次启用swap

本篇文章演示代码以及资料文档资料下载

解决Pytorch内存溢出,Ubuntu进程killed的问题

解决vue内存溢出报错的问题

java堆内存溢出问题怎么解决

Java中的内存溢出问题怎么解决

android内存溢出和内存泄漏问题怎么解决

c语言内存溢出问题如何解决

Spring Cloud Gateway内存溢出问题如何解决

如何解决angular4中JavaScript内存溢出问题

解决运行vue项目内存溢出问题

mybatis一级缓存内存溢出问题怎么解决

vue项目内存溢出问题及解决方案

如何解决PHP开发中的内存溢出问题

Android加载图片内存溢出问题解决方法

如何理解Java中的内存溢出问题

Java通过导出超大Excel文件解决内存溢出问题

解决MyEclipse下启动项目时JBoss内存溢出的问题

android 解决ViewPager加载大量图片内存溢出问题

Android webView加载数据时内存溢出问题及解决

Java内存溢出问题深入探究及其解决策略

如何解决基于node的前端项目编译时内存溢出问题

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python进程池创建队列的方法是什么

python字符串处理与应用的方法有哪些

python全局变量如何定义

python如何读取文件夹下所有文件

python keyerror错误怎么解决

python如何提取字符串的数字

python中怎么将回车作为输入内容