Feat: modify ACRL2 for chunk_size

yuxguo · yuxguo · commit 88c67325d861 · 2025-09-19T15:34:36.000+08:00
diff --git a/rsl_rl/modules/actor_critic_rl2.py b/rsl_rl/modules/actor_critic_rl2.py
@@ -50,8 +50,8 @@ def __init__(
 
         # ActorCritic base expects num_actor_obs = rnn_hidden_dim
         super().__init__(
-            num_actor_obs=rnn_hidden_dim + num_actor_obs,   # 现在的实验条件默认critic_obs=actor_obs
-            num_critic_obs=rnn_hidden_dim + num_critic_obs,
+            num_actor_obs=num_actor_obs,   # 现在的实验条件默认critic_obs=actor_obs
+            num_critic_obs=num_critic_obs,
             num_actions=num_actions,
             actor_hidden_dims=actor_hidden_dims,
             critic_hidden_dims=critic_hidden_dims,
@@ -111,7 +111,7 @@ def act(self, observations, prev_actions, masks=None, hidden_states=None):
         input_a = torch.cat([observations, prev_actions], dim=-1)
         input_a = self.memory_a(input_a, masks, hidden_states)
         mlp_a_input = torch.cat([input_a.squeeze(0), observations], dim=-1)
-        return super().act(mlp_a_input)
+        return super().act(observations)
 
     # 脚本训练过程用不到，应该不影响训练，暂时不修改
     def act_inference(self, observations, prev_actions):
@@ -124,7 +124,7 @@ def evaluate(self, critic_observations, prev_action, masks=None, hidden_states=N
         # actor和critic共用一个RNN
         input_c = self.memory_a(input_c, masks, hidden_states)
         mlp_c_input = torch.cat([input_c.squeeze(0), critic_observations], dim=-1)
-        return super().evaluate(mlp_c_input)
+        return super().evaluate(critic_observations)
 
     # # 我们改成critic和actor使用同一个RNN，输入相同context和obs拼接
     # def evaluate(self, observations, prev_actions, masks=None, hidden_states=None):