看到repo里wan系列的reward lora好像只缺少wan2.2 5B。想请问一下wan2.2 5B的reward lora是比较难训,还是没有列入训练计划内呢? 我自己尝试训练了一下,在MPS setting下训完和原始模型好像区别不大,不知道是否是我训练的有问题呢?