OOM during training #151

Freddie1946 · 2025-03-11T18:09:55Z

Hello! I encountered an OOM issue during training. I am using 4×4090 (24GB). Does this fail to meet the minimum memory requirement?

Here are my training settings:

torchrun --nproc_per_node="4"
--nnodes="1"
--node_rank="0"
--master_addr="127.0.0.1"
--master_port="12346"
src/open_r1/grpo_rec.py
--deepspeed local_scripts/zero3.json
--output_dir output/$RUN_NAME
--model_name_or_path Qwen/Qwen2.5-VL-3B-Instruct
--dataset_name
--image_root
--max_prompt_length 1024
--num_generations 4
--per_device_train_batch_size 1
--gradient_accumulation_steps 2
--logging_steps 1
--bf16
--torch_dtype bfloat16
--data_seed 42
--report_to none
--gradient_checkpointing true
--attn_implementation flash_attention_2
--num_train_epochs 2
--run_name $RUN_NAME
--save_steps 100
--save_only_model true

melodyangle · 2025-03-13T07:25:02Z

不够用的，需要6*24G。但GPU够用了，还是出现了内核问题，你的内核是多少；uname -r命令可以查看

Freddie1946 · 2025-03-14T16:47:34Z

不够用的，需要6*24G。但GPU够用了，还是出现了内核问题，你的内核是多少；uname -r命令可以查看

6.8.0-51-generic 是这个

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

OOM during training #151

OOM during training #151

Freddie1946 commented Mar 11, 2025

melodyangle commented Mar 13, 2025 •

edited

Loading

Freddie1946 commented Mar 14, 2025

OOM during training #151

OOM during training #151

Comments

Freddie1946 commented Mar 11, 2025

melodyangle commented Mar 13, 2025 • edited Loading

Freddie1946 commented Mar 14, 2025

melodyangle commented Mar 13, 2025 •

edited

Loading