https://github.com/captaine/rlsolutionssutton

attempted solutions for Sutton-barto version 2.0
https://github.com/captaine/rlsolutionssutton

Last synced: 17 days ago
JSON representation

attempted solutions for Sutton-barto version 2.0

Host: GitHub
URL: https://github.com/captaine/rlsolutionssutton
Owner: CaptainE
License: mit
Created: 2019-08-31T15:58:44.000Z (almost 7 years ago)
Default Branch: master
Last Pushed: 2019-08-31T16:01:40.000Z (almost 7 years ago)
Last Synced: 2025-01-15T18:40:06.557Z (over 1 year ago)
Language: Jupyter Notebook
Size: 2.2 MB
Stars: 1
Watchers: 2
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md
- License: LICENSE

Awesome Lists containing this project

README

          ### Overview

This repository provides code, exercises and solutions for popular Reinforcement Learning algorithms. These are meant to serve as a learning tool to complement the theoretical materials from

- [Reinforcement Learning: An Introduction (2nd Edition)](http://incompleteideas.net/book/bookdraft2018jan1.pdf)

- [David Silver's Reinforcement Learning Course](http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html)

Each folder in corresponds to one or more chapters of the above textbook and/or course. In addition to exercises and solution, each folder also contains a list of learning goals, a brief concept summary, and links to the relevant readings.

All code is written in Python 3 and uses RL environments from [OpenAI Gym](https://gym.openai.com/). Advanced techniques use [Tensorflow](https://www.tensorflow.org/) for neural network implementations.

### Table of Contents

- [Introduction to RL problems & OpenAI Gym](Introduction/)

- [MDPs and Bellman Equations](MDP/)

- [Dynamic Programming: Model-Based RL, Policy Iteration and Value Iteration](DP/)

- [Monte Carlo Model-Free Prediction & Control](MC/)

- [Temporal Difference Model-Free Prediction & Control](TD/)

- [Function Approximation](FA/)

- [Deep Q Learning](DQN/) (WIP)

- [Policy Gradient Methods](PolicyGradient/) (WIP)

- Learning and Planning (WIP)

- Exploration and Exploitation (WIP)

### List of Implemented Algorithms

- [Dynamic Programming Policy Evaluation](DP/Policy%20Evaluation%20Solution.ipynb)

- [Dynamic Programming Policy Iteration](DP/Policy%20Iteration%20Solution.ipynb)

- [Dynamic Programming Value Iteration](DP/Value%20Iteration%20Solution.ipynb)

- [Monte Carlo Prediction](MC/MC%20Prediction%20Solution.ipynb)

- [Monte Carlo Control with Epsilon-Greedy Policies](MC/MC%20Control%20with%20Epsilon-Greedy%20Policies%20Solution.ipynb)

- [Monte Carlo Off-Policy Control with Importance Sampling](MC/Off-Policy%20MC%20Control%20with%20Weighted%20Importance%20Sampling%20Solution.ipynb)

- [SARSA (On Policy TD Learning)](TD/SARSA%20Solution.ipynb)

- [Q-Learning (Off Policy TD Learning)](TD/Q-Learning%20Solution.ipynb)

- [Q-Learning with Linear Function Approximation](FA/Q-Learning%20with%20Value%20Function%20Approximation%20Solution.ipynb)

- [Deep Q-Learning for Atari Games](DQN/Deep%20Q%20Learning%20Solution.ipynb)

- [Double Deep-Q Learning for Atari Games](DQN/Double%20DQN%20Solution.ipynb)

- Deep Q-Learning with Prioritized Experience Replay (WIP)

- [Policy Gradient: REINFORCE with Baseline](PolicyGradient/CliffWalk%20REINFORCE%20with%20Baseline%20Solution.ipynb)

- [Policy Gradient: Actor Critic with Baseline](PolicyGradient/CliffWalk%20Actor%20Critic%20Solution.ipynb)

- [Policy Gradient: Actor Critic with Baseline for Continuous Action Spaces](PolicyGradient/Continuous%20MountainCar%20Actor%20Critic%20Solution.ipynb)

- Deterministic Policy Gradients for Continuous Action Spaces (WIP)

- Deep Deterministic Policy Gradients (DDPG) (WIP)

- [Asynchronous Advantage Actor Critic (A3C)](PolicyGradient/a3c)

### Resources

Textbooks:

- [Reinforcement Learning: An Introduction (2nd Edition)](http://incompleteideas.net/book/bookdraft2018jan1.pdf)

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/captaine/rlsolutionssutton

Awesome Lists containing this project

README