Merge pull request #3 from MLDS-Laboratory/aarunsrinivas5/issue-1

aarunsrinivas5 · web-flow · commit 23cb60be4b43 · 2025-04-04T23:51:24.000-04:00
Switch TD(lambda) to GAE
diff --git a/.gitignore b/.gitignore
@@ -46,8 +46,10 @@ src
 .cache
 *.lprof
 *.prof
+*.zip
 
 MUJOCO_LOG.TXT
 
+dummy.py
 rsa2c/
 exptd3/
diff --git a/stable_baselines3/common/buffers.py b/stable_baselines3/common/buffers.py
@@ -420,34 +420,37 @@ def compute_returns_and_advantage(self, last_values: th.Tensor, dones: np.ndarra
         :param dones: if the last step was a terminal step (one bool for each env).
         """
         # # Convert to numpy
-        # last_values = last_values.clone().cpu().numpy().flatten()  # type: ignore[assignment]
-
-        # last_gae_lam = 0
-        # for step in reversed(range(self.buffer_size)):
-        #     if step == self.buffer_size - 1:
-        #         next_non_terminal = 1.0 - dones.astype(np.float32)
-        #         next_values = last_values
-        #     else:
-        #         next_non_terminal = 1.0 - self.episode_starts[step + 1]
-        #         next_values = self.values[step + 1]
-        #     delta = self.rewards[step] + self.gamma * next_values * next_non_terminal - self.values[step]
-        #     last_gae_lam = delta + self.gamma * self.gae_lambda * next_non_terminal * last_gae_lam
-        #     self.advantages[step] = last_gae_lam
-        # # TD(lambda) estimator, see Github PR #375 or "Telescoping in TD(lambda)"
-        # # in David Silver Lecture 4: https://www.youtube.com/watch?v=PnHCvfgC_ZA
-        # self.returns = self.advantages + self.values
-
         last_values = last_values.clone().cpu().numpy().flatten()  # type: ignore[assignment]
-        values = np.concatenate((self.values, last_values.reshape(1, -1)))
-        dones = np.concatenate((self.episode_starts, dones.reshape(1, -1)))
-        next_non_terminal = (1.0 - dones.astype(np.float32))[1:]
 
-        returns = [self.values[-1]]
-        interm = self.rewards + self.gamma * (1 - self.gae_lambda) * next_non_terminal * values[1:]
+        last_gae_lam = 0
         for step in reversed(range(self.buffer_size)):
-            returns.append(interm[step] + self.gamma * self.gae_lambda * next_non_terminal[step] * returns[-1])
-        self.returns = np.stack(list(reversed(returns))[:-1], 0)
-        self.advantages = self.returns - self.values
+            if step == self.buffer_size - 1:
+                next_non_terminal = 1.0 - dones.astype(np.float32)
+                next_values = last_values
+            else:
+                next_non_terminal = 1.0 - self.episode_starts[step + 1]
+                next_values = self.values[step + 1]
+            delta = self.rewards[step] + self.gamma * next_values * next_non_terminal - self.values[step]
+            last_gae_lam = delta + self.gamma * self.gae_lambda * next_non_terminal * last_gae_lam
+            self.advantages[step] = last_gae_lam
+        # TD(lambda) estimator, see Github PR #375 or "Telescoping in TD(lambda)"
+        # in David Silver Lecture 4: https://www.youtube.com/watch?v=PnHCvfgC_ZA
+        self.returns = self.advantages + self.values
+
+        # last_values = last_values.clone().cpu().numpy().flatten()  # type: ignore[assignment]
+        # values = np.concatenate((self.values, last_values.reshape(1, -1)))
+        # dones = np.concatenate((self.episode_starts, dones.reshape(1, -1)))
+        # next_non_terminal = (1.0 - dones.astype(np.float32))[1:]
+
+        # # self.returns = self.rewards + self.gamma * next_non_terminal * values[1:]
+        # # self.advantages = self.returns - self.values
+
+        # returns = [self.values[-1]]
+        # interm = self.rewards + self.gamma * (1 - self.gae_lambda) * next_non_terminal * values[1:]
+        # for step in reversed(range(self.buffer_size)):
+        #     returns.append(interm[step] + self.gamma * self.gae_lambda * next_non_terminal[step] * returns[-1])
+        # self.returns = np.stack(list(reversed(returns))[:-1], 0)
+        # self.advantages = self.returns - self.values
 
     def add(
         self,
@@ -541,37 +544,37 @@ def __init__(self, buffer_size, observation_space, action_space, device = "auto"
 
     def compute_returns_and_advantage(self, last_values, dones):
 
-        # # Convert to numpy
-        # last_values = last_values.clone().cpu().numpy().flatten()  # type: ignore[assignment]
+        # Convert to numpy
+        last_values = last_values.clone().cpu().numpy().flatten()  # type: ignore[assignment]
 
-        # last_gae_lam = 0
-        # for step in reversed(range(self.buffer_size)):
-        #     if step == self.buffer_size - 1:
-        #         next_non_terminal = 1.0 - dones.astype(np.float32)
-        #         next_values = last_values
-        #     else:
-        #         next_non_terminal = 1.0 - self.episode_starts[step + 1]
-        #         next_values = self.values[step + 1]
-        #     delta = np.exp(self.beta * self.rewards[step] + self.gamma * np.log(1e-15 + np.maximum(next_values, 0)) * next_non_terminal) - self.values[step]
-        #     # delta = self.rewards[step] + self.gamma * next_values * next_non_terminal - self.values[step]
-        #     last_gae_lam = delta + self.gamma * self.gae_lambda * next_non_terminal * last_gae_lam
-        #     self.advantages[step] = last_gae_lam
-        # # TD(lambda) estimator, see Github PR #375 or "Telescoping in TD(lambda)"
-        # # in David Silver Lecture 4: https://www.youtube.com/watch?v=PnHCvfgC_ZA
-        # self.returns = self.advantages + self.values
+        last_gae_lam = 0
+        for step in reversed(range(self.buffer_size)):
+            if step == self.buffer_size - 1:
+                next_non_terminal = 1.0 - dones.astype(np.float32)
+                next_values = last_values
+            else:
+                next_non_terminal = 1.0 - self.episode_starts[step + 1]
+                next_values = self.values[step + 1]
+            delta = np.exp(self.beta * self.rewards[step] + self.gamma * np.log(1e-15 + np.maximum(next_values, 0)) * next_non_terminal) - self.values[step]
+            # delta = self.rewards[step] + self.gamma * next_values * next_non_terminal - self.values[step]
+            last_gae_lam = delta + self.gamma * self.gae_lambda * next_non_terminal * last_gae_lam
+            self.advantages[step] = last_gae_lam
+        # TD(lambda) estimator, see Github PR #375 or "Telescoping in TD(lambda)"
+        # in David Silver Lecture 4: https://www.youtube.com/watch?v=PnHCvfgC_ZA
+        self.returns = self.advantages + self.values
 
 
-        last_values = last_values.clone().cpu().numpy().flatten()  # type: ignore[assignment]
-        values = np.concatenate((self.values, last_values.reshape(1, -1)))
-        dones = np.concatenate((self.episode_starts, dones.reshape(1, -1)))
-        next_non_terminal = (1.0 - dones.astype(np.float32))[1:]
-              
-        returns = [self.values[-1]]
-        interm = self.beta * self.rewards + self.gamma * (1 - self.gae_lambda) * next_non_terminal * np.log(1e-15 + np.maximum(0, values[1:]))
-        for step in reversed(range(self.buffer_size)):
-            returns.append(np.exp(interm[step] + self.gamma * self.gae_lambda * next_non_terminal[step] * np.log(1e-15 + np.maximum(0, returns[-1]))))
-        self.returns = np.stack(list(reversed(returns))[:-1], 0)
-        self.advantages = self.returns - self.values
+        # last_values = last_values.clone().cpu().numpy().flatten()  # type: ignore[assignment]
+        # values = np.concatenate((self.values, last_values.reshape(1, -1)))
+        # dones = np.concatenate((self.episode_starts, dones.reshape(1, -1)))
+        # next_non_terminal = (1.0 - dones.astype(np.float32))[1:]
+
+        # returns = [self.values[-1]]
+        # interm = self.beta * self.rewards + self.gamma * (1 - self.gae_lambda) * next_non_terminal * np.log(1e-15 + np.maximum(0, values[1:]))
+        # for step in reversed(range(self.buffer_size)):
+        #     returns.append(np.exp(interm[step] + self.gamma * self.gae_lambda * next_non_terminal[step] * np.log(1e-15 + np.maximum(0, returns[-1]))))
+        # self.returns = np.stack(list(reversed(returns))[:-1], 0)
+        # self.advantages = (self.returns - self.values)