Implemented REINFORCE into the library

2019-02-16 20:30:27 -05:00 · 2019-02-16 20:30:27 -05:00 · 21b820b401
commit 21b820b401
parent 14ba64d525
7 changed files with 250 additions and 2 deletions
--- a/rltorch/action_selector/StochasticSelector.py
+++ b/rltorch/action_selector/StochasticSelector.py
@ -0,0 +1,24 @@
+from random import randrange
+import torch
+from torch.distributions import Categorical
+import rltorch
+from rltorch.action_selector import ArgMaxSelector
+
+class StochasticSelector(ArgMaxSelector):
+    def __init__(self, model, action_size, memory, device = None):
+        super(StochasticSelector, self).__init__(model, action_size, device = device)
+        self.model = model
+        self.action_size = action_size
+        self.device = device
+        if not isinstance(memory, rltorch.memory.EpisodeMemory):
+            raise ValueError("Memory must be of instance EpisodeMemory")
+        self.memory = memory
+    def best_act(self, state, log_prob = True):
+        if self.device is not None:
+            state = state.to(self.device)
+        action_probabilities = self.model(state)
+        distribution = Categorical(action_probabilities)
+        action = distribution.sample()
+        if log_prob:
+            self.memory.append_log_probs(distribution.log_prob(action))
+        return action.item()
--- a/rltorch/action_selector/init.py
+++ b/rltorch/action_selector/init.py
@ -1,3 +1,4 @@
 from .ArgMaxSelector import * 
 from .EpsilonGreedySelector import * 
-from .RandomSelector import * 
+from .RandomSelector import * 
+from .StochasticSelector import * 
--- a/rltorch/agents/REINFORCEAgent.py
+++ b/rltorch/agents/REINFORCEAgent.py
@ -0,0 +1,51 @@
+import rltorch
+from copy import deepcopy
+import torch
+import numpy as np
+
+class REINFORCEAgent:
+  def __init__(self, net , memory, config, target_net = None, logger = None):
+    self.net = net
+    if not isinstance(memory, rltorch.memory.EpisodeMemory):
+      raise ValueError("Memory must be of instance EpisodeMemory")
+    self.memory = memory
+    self.config = deepcopy(config)
+    self.target_net = target_net
+    self.logger = logger
+
+  def _discount_rewards(self, rewards):
+    discounted_rewards = torch.zeros_like(rewards)
+    running_add = 0
+    for t in reversed(range(len(rewards))):
+      running_add = running_add * self.config['discount_rate'] + rewards[t]
+      discounted_rewards[t] = running_add
+
+    # Normalize rewards
+    discounted_rewards = (discounted_rewards - discounted_rewards.mean()) / (discounted_rewards.std() + np.finfo('float').eps)
+    return discounted_rewards
+  
+  def learn(self):
+    episode_batch = self.memory.recall()
+    state_batch, action_batch, reward_batch, next_state_batch, done_batch, log_prob_batch = zip(*episode_batch)
+
+    discount_reward_batch = self._discount_rewards(torch.tensor(reward_batch))
+    log_prob_batch = torch.cat(log_prob_batch)
+
+    policy_loss = (-1 * log_prob_batch * discount_reward_batch).sum()
+    
+    if self.logger is not None:
+            self.logger.append("Loss", policy_loss.item())
+
+    self.net.zero_grad()
+    policy_loss.backward()
+    self.net.clamp_gradients()
+    self.net.step()
+
+    if self.target_net is not None:
+      if 'target_sync_tau' in self.config:
+        self.target_net.partial_sync(self.config['target_sync_tau'])
+      else:
+        self.target_net.sync()
+
+    # Memory is irrelevant for future training
+    self.memory.clear()
--- a/rltorch/agents/init.py
+++ b/rltorch/agents/init.py
@ -1 +1,2 @@
-from .DQNAgent import *
+from .DQNAgent import *
+from .REINFORCEAgent import *
--- a/rltorch/memory/EpisodeMemory.py
+++ b/rltorch/memory/EpisodeMemory.py
@ -0,0 +1,44 @@
+import random
+from collections import namedtuple
+import torch
+Transition = namedtuple('Transition',
+    ('state', 'action', 'reward', 'next_state', 'done'))
+
+class EpisodeMemory(object):
+    def __init__(self):
+        self.memory = []
+        self.log_probs = []
+
+    def append(self, *args):
+        """Saves a transition."""
+        self.memory.append(Transition(*args))
+    
+    def append_log_probs(self, logprob):
+        self.log_probs.append(logprob)
+
+    def clear(self):
+        self.memory.clear()
+        self.log_probs.clear()
+
+    def recall(self):
+        if len(self.memory) != len(self.log_probs):
+            raise ValueError("Memory and recorded log probabilities must be the same length.")
+        return list(zip(*tuple(zip(*self.memory)), self.log_probs))
+
+    def __len__(self):
+        return len(self.memory)
+
+    def __iter__(self):
+        return iter(self.memory)
+
+    def __contains__(self, value):
+        return value in self.memory
+
+    def __getitem__(self, index):
+        return self.memory[index]
+
+    def __setitem__(self, index, value):
+        self.memory[index] = value
+
+    def __reversed__(self):
+        return reversed(self.memory)
--- a/rltorch/memory/init.py
+++ b/rltorch/memory/init.py
@ -1,2 +1,3 @@
+from .EpisodeMemory import *
 from .ReplayMemory import * 
 from .PrioritizedReplayMemory import *