作者你好,我注意到计算cls policy的gumbel softmax并不是一个确定性算子,而且代码中没有出现训练和推理的不同设定。请问在推理中仍然使用gumbel softmax而不是某个对应的特定算子(argmax, onehot)的考量是什么?
作者你好,我注意到计算cls policy的gumbel softmax并不是一个确定性算子,而且代码中没有出现训练和推理的不同设定。请问在推理中仍然使用gumbel softmax而不是某个对应的特定算子(argmax, onehot)的考量是什么?