Initial Commit

2019-06-05 21:56:01 -04:00 · 2019-06-05 21:56:01 -04:00 · c38ccbfe8e
commit c38ccbfe8e
4 changed files with 147 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1 @@
+__pycache__
--- a/README.md
+++ b/README.md
@ -0,0 +1,4 @@
+# HTTP interface for OpenAI Gym
+This library adds a HTTP interface for the [OpenAI Gym Project](https://github.com/openai/gym). Hopefully you will be able to use it in your reinforcement learning projects without noticing!
+
+Why would I want to do this? If you want to decouple the processing of the environment from the training of your models this might be beneficial.
--- a/gymclient.py
+++ b/gymclient.py
@ -0,0 +1,47 @@
+import pickle
+import numpy
+import requests
+
+
+# [TODO] Error handling for if server is down
+class Environment:
+    def __init__(self, address, port, ssl = False):
+        self.address = address
+        self.port = port
+        protocol = "https://" if ssl else "http://"
+        self.server = protocol + address + ":" + str(port)        
+
+    ##
+    # Helper Functions
+    ##
+    def get_environment_name(self):
+        r = requests.get(self.server + "/environment")
+        return r.text
+    def get_state(self):
+        r = requests.get(self.server + "/state")
+        return pickle.loads(r.content)
+    def get_reward(self):
+        r = requests.get(self.server + "/reward")
+        return float(r.text)
+    def get_score(self):
+        r = requests.get(self.server + "/reward", params = {'all':''})
+        return float(r.text)
+    def get_done(self):
+        r = requests.get(self.server + "/done")
+        return r.text == "True"
+    def get_info(self):
+        r = requests.get(self.server + "/info")
+        return r.json()
+    
+    ##
+    # Common API
+    ##
+    def reset(self):
+        r = requests.get(self.server + "/reset")
+        return pickle.loads(r.content)
+    def step(self, action):
+        r = requests.post(self.server + "/action", data={'id': action})
+        content = r.json()
+        return self.get_state(), float(content['reward']), content['done'] == "True", content['info']
+    
+# env = Environment("127.0.0.1", 5000)
--- a/gymserver.py
+++ b/gymserver.py
@ -0,0 +1,95 @@
+import sys
+import gym
+from flask import Flask
+from flask import request
+import pickle
+import json
+
+
+##
+# OpenAI Gym State
+##
+# environment_name = sys.argv[1]
+# environment_name = "Acrobot-v1"
+environment_name = "Pong-v0"
+env = gym.make(environment_name)
+
+# Observations to release to agent
+state = env.reset()
+reward = 0
+score = 0
+done = False
+info = {}
+
+##
+# Helper Functions
+##
+# [TODO] Evaluate whether pickling is the right option here
+def pickle_state():
+    global state
+    return pickle.dumps(state)
+
+
+
+##
+# Flask Environment
+##
+app = Flask(__name__)
+
+@app.route('/environment', methods=['GET'])
+def get_env():
+    global env, environment_name
+    if request.args.get('shape') is not None:
+        shape = {}
+        shape['observation'] = env.observation_space.shape
+        shape['action'] = env.action_space.n
+        return json.dumps(shape)
+    return environment_name
+
+@app.route('/state', methods=['GET'])
+def get_state():
+    return pickle_state()
+
+@app.route('/reward', methods=['GET'])
+def get_reward():
+    global score, reward
+    if request.args.get('all') is not None:
+        return str(score)
+    else:
+        return str(reward)
+
+@app.route('/done', methods=['GET'])
+def is_done():
+    global done
+    return str(done)
+
+@app.route('/info', methods=['GET'])
+def get_info():
+    global info
+    return json.dumps(info)
+
+@app.route('/action', methods=['POST'])
+def perform_action():
+    global state, reward, done, info, score
+    action = int(request.form['id'])
+
+    # [TODO] Check to see if 'action' is valid
+    state, reward, done, info = env.step(action)
+    score += reward
+
+    content = {}
+    content['reward'] = reward
+    content['done'] = done
+    content['info'] = info
+    return json.dumps(content)
+
+@app.route('/reset')
+def reset_env():
+    global env, state, reward, done, info, score
+    state = env.reset()
+    reward = 0
+    done = False
+    info = {}
+    score = 0
+    return pickle_state()
+