关于gumbel softmax的使用

作者你好，我注意到计算cls policy的gumbel softmax并不是一个确定性算子，而且代码中没有出现训练和推理的不同设定。请问在推理中仍然使用gumbel softmax而不是某个对应的特定算子（argmax, onehot）的考量是什么？