wan2.2 5B reward lora训练问题

看到repo里wan系列的reward lora好像只缺少wan2.2 5B。想请问一下wan2.2 5B的reward lora是比较难训，还是没有列入训练计划内呢？
我自己尝试训练了一下，在MPS setting下训完和原始模型好像区别不大，不知道是否是我训练的有问题呢？