我采用了一个简化的结构,只使用人脸过 seglip 的特征作为 condition, 然后使用 和 WithAnyone 一样的 Cross Attention 进行条件注入,单纯使用 Flow Matching 的损失函数,但是出现了梯度消失的问题,请问,你们在训练过程中出现过类似的情况吗?
我采用了一个简化的结构,只使用人脸过 seglip 的特征作为 condition, 然后使用 和 WithAnyone 一样的 Cross Attention 进行条件注入,单纯使用 Flow Matching 的损失函数,但是出现了梯度消失的问题,请问,你们在训练过程中出现过类似的情况吗?