diff --git a/examples/qwen3/README.md b/examples/qwen3/README.md index 8256a1a7..d0fefedf 100644 --- a/examples/qwen3/README.md +++ b/examples/qwen3/README.md @@ -111,7 +111,7 @@ OUTPUT_BASEPATH=${27} # 训练输出日志文件路径 ``` #### 预训练示例 -使用以下命令启动对qwen2的继续预训练。 +使用以下命令启动对qwen3的继续预训练。 备注:当`AC=offload`或`full`时,可设置`MP_AC_LAYERS`环境变量来控制Checkpointing或Offload的TransformerLayer层数(默认值:`1`)。 ```bash @@ -254,4 +254,4 @@ accelerate launch --main_process_port 29051 -m lm_eval \ --model_args pretrained=/mnt/qwen-ckpts/Qwen3-30B-A3B-mcore-te-to-hf,trust_remote_code=True \ --tasks cmmlu,ceval-valid \ --batch_size 16 -``` \ No newline at end of file +```