torch.cuda.OutOfMemoryError: CUDA out of memory.

pytorch 深度学习人工智能服务器 2023-09-01 05:09:39 678人浏览独家记忆

摘要

训练清华ChatGLM-6B时报错, 原因是显存不够 torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 96.00 MiB (GPU 0; 23.70

训练清华ChatGLM-6B时报错, 原因是显存不够

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 96.00 MiB (GPU 0; 23.70 GiB total capacity; 4.37 GiB already allocated; 64.81 MiB free; 4.37 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PyTorch_CUDA_ALLOC_CONF

尝试将

model = AutoModel.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True).half().cuda()

改为

model = AutoModel.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True).half().quantize(4).cuda()

仍然报错

RuntimeError: CUBLAS error: CUBLAS_STATUS_NOT_INITIALIZED

排错流程如下

查看服务器显存占用情况

watch -n 0.1 nvidia-smi

发现gpu:0显存被PID:19409程序大量占用, 报错应该是默认在gpu:0训练导致显存不足, 接着查看gpu:0上程序所属用户(如果不是师兄的我就kill了)

top

一看是root的, 惹不起还躲不起嘛, 换张卡跑, 顺嘴一提, 权限内的程序可以kill -9 {pid}掉释放显存

kill -9 19409

发现gpu:1空闲, 指定gpu:1上训练模型, 有多种方法,

(1) 可以在py代码开头（一定要在开头）加

import osos.environ['CUDA_VISIBLE_DEVICES']='1'

这样即可指定在gpu:1上训练, 实际上是只设置gpu:1可见, 而屏蔽其他gpu卡

(2) 可以在代码运行前shell或bash脚本中加

CUDA_VISIBLE_DEVICES=1 python xxx.py

这样即可指定在gpu:1上训练, 实际上是只设置gpu:1可见, 而屏蔽其他gpu卡

(3)在程序中使用set_device()

import torchtorch.cuda.set_device(id)

设置完成后查看显存占用情况可以看到, gpu:1显存占用马上上升了, 不影响其他gpu卡的显存

可以看到清华的ChatGLM-6B约占12G显存(其他卡显存增加是写文章的时候其他小伙伴在跑)

来源地址：https://blog.csdn.net/Hello_World1023/article/details/130355998

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: torch.cuda.OutOfMemoryError: CUDA out of memory.

本文链接: https://www.lsjlt.com/news/387548.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

torch.cuda.OutOfMemoryError: CUDA out of memory.

训练清华ChatGLM-6B时报错, 原因是显存不够 torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 96.00 MiB (GPU 0; 23.70 ...

99+

2023-09-01

pytorch 深度学习人工智能服务器
部署stable diffusion 错误torch.cuda.OutOfMemoryError: CUDA out of memory.

以来安装完毕，开始执行web_ui.bat 错误截图：猜测原因：GPU用错了 webUI.py加一行代码 os.environ["CUDA_VISIBLE_DEVICES"] = "1" 在此启动web_ui.bat，成功打开网页页面...

99+

2023-09-05

stable diffusion 深度学习 python
CUDA报错:Out of Memory

如果报错里提示Pytorch reserved的内存远大于Already allocated的内存，那么就是因为分配显存时单位过大，导致出现大量内存碎片无法继续分配（与操作系统内存管理同理）。我们可以限制一次分配的最大单位来解决这个问题。...

99+

2023-09-13

python 开发语言
报错记录torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 90.00 MiB (GPU 0； 7.93 GiB to

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 90.00 MiB (GPU 0; 7.93 GiB total ...

99+

2023-09-10

深度学习 python 人工智能
如何解决CUDA out of memory的问题

小编给大家分享一下如何解决CUDA out of memory的问题，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！复现大佬project发现GPU跑不动，出现如下...

99+

2023-06-15
粗暴解决CUDA out of memory的问题

小渣渣复现大佬project发现GPU跑不动，出现如下报错： RuntimeError: CUDA out of memory. 看下来最简单粗暴方法就是减少batch_size...

99+

2024-04-02
基于CUDA out of memory的解决方法是什么

今天小编给大家分享一下基于CUDA out of memory的解决方法是什么的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收...

99+

2023-07-05
【ERROR】ORA-27102: out of memory 解决方法

一、问题描述...

99+

2024-04-02
ORA-27163: out of memory ORACLE 报错故障修复远程处理

文档解释 ORA-27163: out of memory Cause: The program ran out of memory when allocating a temporary data structure. Action: I...

99+

2023-11-05

报错故障 ORA
ORA-27102: out of memory ORACLE 报错故障修复远程处理

文档解释 ORA-27102: out of memory Cause: Out of memory Action: Consult the trace file for details ORA-27102：发生了内存不足，而无法满足Or...

99+

2023-11-05

报错故障 ORA
ORA-16506: out of memory ORACLE 报错故障修复远程处理

文档解释 ORA-16506: out of memory Cause: Process exceeded private or shared memory limits. Action: Check for memory leaks, i...

99+

2023-11-05

报错故障 ORA
ORA-01341: LogMiner out-of-memory ORACLE 报错故障修复远程处理

文档解释 ORA-01341: LogMiner out-of-memory Cause: The LogMiner session requires more system resources than is currently avai...

99+

2023-11-05

报错故障 ORA
MySQL报Out of sort memory, consider increasing server sort buffer size的两种情况

目录情况一:sort内存溢出，考虑增加服务器的排序缓冲区(sort_buffer_size)大小情况二:SQL语句问题情况一:sort内存溢出，考虑增加服务器的排序缓冲区(sort_buffer_size)大小查看缓冲区大...

99+

2023-08-18

mysql 数据库 sql
MYSQL排序加分页报错Out of sort memory, consider increasing server sort buffer size

前言出现该问题的是在做分页查询时出现的，确切的说是order by 和 limit一起用的时候出现的。而起是由于limit m，n 中m过大时会出现Out of sort memory, consi...

99+

2023-09-20

mysql 数据库 java
ORA-06580: Hash Join ran out of memory while keeping large rows in memory ORACLE 报错故障修复远程处理

文档解释 ORA-06580: Hash Join ran out of memory while keeping large rows in memory Cause: Hash Join reserves 3 slots (each s...

99+

2023-11-05

报错故障 Join
解决Vue使用百度地图BMapGL内存泄漏问题 Out of Memory

目录使用百度地图BMapGL内存泄漏 Out of Memory解决1.对象不定义在data中2.在vue中组件使用 v-if 指令会从dom中移除总结使用百度地图BMapGL内存泄...

99+

2022-12-08

Vue使用百度地图百度地图内存泄漏 BMapGL内存泄漏
ORA-29554: unhandled Java out of memory condition ORACLE 报错故障修复远程处理

文档解释 ORA-29554: unhandled Java out of memory condition Cause: The session encountered an out of memory condition in Java...

99+

2023-11-05

报错故障 unhandled
ORA-06263: NETNTT: out of memory in pi_connect ORACLE 报错故障修复远程处理

文档解释 ORA-06263: NETNTT: out of memory in pi_connect Cause: Two-task driver could not allocate data buffers. Action: Ther...

99+

2023-11-04

报错故障 NETNTT
ORA-08274: Out of memory for environment variable ORACLE 报错故障修复远程处理

文档解释 ORA-08274: Out of memory for environment variable Cause: There is insufficient memory to return the requested value...

99+

2023-11-05

报错故障 memory
ORA-49452: Archiving utility out of memory [string] [string] ORACLE 报错故障修复远程处理

文档解释 ORA-49452: Archiving utility out of memory [string] [string] Cause: The archiving utility (zip/unzip) returned an e...

99+

2023-11-05

报错故障 Archiving