All Pages

This is an old revision of the document!

Gym c’est une boite à outil qui propose plusieurs environnements de simulation pour des algorithmes de renforcement et d’apprentissage.

Gym propose plusieurs types d’environnement qui sont les suivants :

Algorithms
Atari
Box2D
Classic control
MuJoCo
Robotics
Toy text

Pour des raisons de compatibilités avec l’algorithme d’apprentissage que nous avions, notre intérêt c’est porté sur les environnements Box2D et MuJoCo.

Gym est simplement une librairie python qui offre des fonctionnalités. Ainsi, sont installations est simple :

pip install gym

Une seconde méthode existe en installant directement le package via git

git clone https://github.com/openai/gym
cd gym
pip install -e .

Une fois que l’installation est fait, on peut commencer à s’amuser avec des fonctionnalités de base :

gym.make(“environment name”) : retourne l’environnement dont le nom a été passé en paramètre

env.reset() : reset l’environnement, retourne l’observation initiale

env.render() : permet d’afficher la fenêtre de simulation.

env.step() : exécute une action et retourne 4 paramètres (observation, reward, done, info)

La fonction env.step() prend en paramètre une action et retourne les 4 paramètres suivants :

observation : un objet spécifique à l’environnement représentant une observation

reward : un nombre de récompense obtenu par l’action précédente

done : une valeur booléenne qui indique si il faut reset l’environnement ou non

info : des informations de diagnostic utile pour le débuggage

Il est important de noter que ces informations dépendent de l’environnement dans lequel elles sont définies.

Gym propose plusieurs type d’environnement et plusieurs environnements par type. Au début, notre choix était porté vers l’environnement CarRacing-v0, avec la vue de dessus mais il c’est avéré que les observations retournés étaient au format image avec un tableau 96x96x3 de nombre correspondant à des couleurs

Une autre solution était l’installation de MuJoCo, mais cette dernière à posé des soucis et n’as pas pu être faite sur les machines de l’école.

Donc au final, l’environnement le plus adapté suivant toutes nos contraintes était l'environnement BipedalWalker-v2, malgré le fait que la vue soit de côté, les observations conviennent bien à l’algorithme d’apprentissage.

Pour le code, nous avons chacun développez un code qui fait l’interface entre l’algorithme d’apprentissage et le simulateur. Pour avoir une interface commune nous avons créez une classe abstraite dont nous héritons et implémentons les méthodes. De ce fait, nous utilisons les mêmes noms de méthodes pour chaque simulateur mais leur implémentations est différentes

La difficulté a été de trouver les points qu’on pouvait mettre en commun entre les différents simulateurs, au niveau des fonctionnalités disponibles des simulateurs et des valeurs d’entrées et de sorties des méthodes.

Au final, concernant Gym, j’ai réussi à convertir l’environnement et ses données, en type Entity et ses Property, comme voulu à la base.

class Environment() : Cette classe hérite de notre interface commune et implémente ses méthodes

def loadEnvironment() : Cette méthode charge l’environnement dont le nom a été spécifié dans le constructeur de la classe et retourne un objet de type environment correspondant

def startSimulation(): lance une simulation avec 100 timesteps par défaut

def resetSimulation(): termine la simulation prématurément

def getListObject(): affiche la liste des propriétés de l’entité

def getSimulationTime() : Affiche le temps passer depuis le lancement du script

class GymSimulator(): classe héritant de la classe Entity et par conséquent, implémente ses méthodes

def getFormat(): affiche les formats de données des actions et des observations

class BipedalWalker(): classe fille de GymSimulator() pour l’environnement BidepalWalker

class CarRacing(): classe fille de GymSimulator() pour l’environnement CarRacing

def move(): envoie une action au simulateur et retourne les résultats de cette action

if main==”main”:

Fonction d’exemple d’utilisation avec l’environnement BipedalWalker, 100 timesteps, une affiche de l’environnement dans une fenêtre et toutes les actions effectués d’un coup.

Pour avoir un mode interactif action par action, passer le paramètre self.interactiveMode à True ligne 16

Pour avoir un mode sans l’affichage de la fenêtre, passer le paramètre self.displayMode à False ligne 75

Pour changer le nombre de Timesteps changer la valeur de n, ligne 28.

Exemple de code

#!/usr/bin/env python
# coding: utf-8

#import des librairies nécessaires
import gym
import re
from gym import envs
from random import randint

#Récupération de l'environnement
#Ici on récupère l’environnement CarRacing-v0
env = gym.make('CarRacing-v0')

#Liste les environnements disponibles
for i in envs.registry.all():
           print(i)

#Récupération des formats de données de action et observation
print("Actions : "+str(self.env.action_space))
print("Observations : "+str(self.env.observation_space))

#Remise à zéro de l'environnement
env.reset()

#Pour 1000 timesteps
for t in range(1000):
            #on affiche la fenêtre de simulation
       env.render()
            #on récupère une action aléatoire possible pour l’environnement
       action = env.action_space.sample()       
       #on exécute l’action et on récupère les informations
       observation, reward, done, info = env.step(action)
             #on affiche les informations
       print("action : "+str(action))
       print("reward : "+str(reward))
       print("done : "+str(done))
       print("info : "+str(info))
             #si il y a une réussite ou une erreur, on arrête la simulation
       if (done == 1):
                    break

Ci-dessous notre classe abstraite :

class scene:
    #Gasebo param is null
    #Vrep param is the port connection
    #Gym  param is the name of the environment loaded
    def __init__(self, param = None):
        pass
    def startSimulation(self):
        pass
    def pauseSimulation(self):
        pass
    def resetSimulation(self, onlyWorld = None):
        pass
    def getListObject(self):
        pass
    #Vrep param is the path to find the scene
    #Gym  param is null
    def loadEnvironment(self, param = None):
        pass
    def getSimulationTime(self):
        pass

Le simulateur Gym est dépendant des environnements qui existent, si vous ne trouvez pas d’environnements qui vous conviennent, il est possible de créer son propre environnement. Je n’ai pas eu l’occasion d'approfondir cette partie donc voici la documentation associé : https://github.com/openai/gym/tree/master/gym/envs#how-to-create-new-environments-for-gym

Documentation de gym : https://gym.openai.com/docs/ Code de car_racing.py : https://github.com/openai/gym/blob/master/gym/envs/box2d/car_racing.py Git de gym : https://github.com/openai/gym

Action generation and evaluation system based on deep learning networks	2020/07/17 14:45	Mai Nguyen
Analyse de données Kinect et Xsens	2017/03/06 15:45	Delphine Binoux
Détection de nouveauté ; application aux objets 3D	2017/03/13 10:34	Mai Nguyen
Mary Text-To-Speech	2016/02/19 00:09	Mai Nguyen
Mobile Vehicle	2015/10/28 14:28	Nicolas Favé
Poppy-Kine : S4 project 2015-2016	2016/06/20 07:23	Projet s4 projet 12 année 2016
Poppy-Kine : S4 project 2016-2017	2015/10/28 13:01
Poppy-Kine : S5 project 2015-2016	2015/10/28 13:01
Poppy-Kine : Stage d'été 2017 PoppyImitatesKinect	2017/08/28 21:22	Projet s4
Poppy-Kine : Stage d'été 2017 PoppySystèmeDeLEDs	2017/08/28 23:35	Projet s4
Projet P205: Capture du mouvement humain pour le suivi des activités de la vie quotidienne	2019/03/10 23:43	Madeleine Bailleux
robocup	2015/10/28 13:01
robot and home automation	2015/10/28 13:01
Robotic Arm	2015/10/28 13:01
simulators	2019/02/12 13:04	Yao - Fabien - Flavien
The Sims pour la recherche, un simulateur de maison connectée	2020/07/03 17:48	Mai Nguyen

Application de la cinématique inverse au robot Poppy Torso dans un jeu de morpion	2018/10/25 09:52	Kone
Copycat	2019/09/06 14:54	Loan Guilbaud
Mobile Vehicle	2015/10/28 14:28	Nicolas Favé
Nao robot	2017/03/31 08:48	Mai Nguyen
Pepper	2023/10/11 11:47	Christophe
Poppy robot	2015/10/28 13:01
Robotic Arm	2015/10/28 13:01
Yumi experiment with the tactile table	2018/04/05 16:33	Nicolas Duminy

Arduino	2015/10/28 15:04	Nicolas Favé
Available computers and servers	2015/11/26 16:15	Mai Nguyen
Dynamixel	2015/10/28 16:14	Nicolas Favé
Kinect and other rgbd-cameras	2016/01/26 09:37	Mai Nguyen
Main préhensile pour le robot Poppy et interface tangible	2018/08/01 17:11	Mai Nguyen
Mobile Vehicle	2015/10/28 14:28	Nicolas Favé
Nao robot	2017/03/31 08:48	Mai Nguyen
Odroid XU4	2016/01/20 10:29
Poppy robot	2015/10/28 13:01
Projet P205: Capture du mouvement humain pour le suivi des activités de la vie quotidienne	2019/03/10 23:43	Madeleine Bailleux
The tactile table reactable	2018/08/02 09:38	Mai Nguyen
Yumi experiment with the tactile table	2018/04/05 16:33	Nicolas Duminy

Analyse de données Kinect et Xsens	2017/03/06 15:45	Delphine Binoux
Mobile Vehicle	2015/10/28 14:28	Nicolas Favé
Navigation strategy with pepper	2018/06/20 08:15	Khalil Serrakh
Openni_Launch (ROS package)	2015/10/28 15:21	Nicolas Favé
Openni_Tracker (ROS package)	2015/10/28 15:32	Nicolas Favé
Openni_Tracker_Modified	2015/10/28 15:44	Nicolas Favé
Requirement	2016/02/03 13:45
Robotic Arm	2015/10/28 13:01

Analyse de données Kinect et Xsens	2017/03/06 15:45	Delphine Binoux
Arduino	2015/10/28 15:04	Nicolas Favé
Gaussian Mixture Model (GMM) on Riemannian manifold	2018/04/09 20:33	Maxime Devanne
Gaussian Process Latent Variable Model (GPLVM)	2018/04/03 09:06	Maxime Devanne
Install	2018/09/11 22:45	Mai Nguyen
Kinect Library	2017/02/28 10:13	Maxime Devanne
Kinect_aux_robotic_arm (ROS package)	2016/02/19 14:33	Nicolas Favé
Main préhensile pour le robot Poppy et interface tangible	2018/08/01 17:11	Mai Nguyen
Mary Text-To-Speech	2016/02/19 00:09	Mai Nguyen
Mobile Vehicle	2015/10/28 14:28	Nicolas Favé
Object_detection (ROS package)	2016/02/19 14:33	Nicolas Favé
Openni_Launch (ROS package)	2015/10/28 15:21	Nicolas Favé
Openni_Tracker (ROS package)	2015/10/28 15:32	Nicolas Favé
Openni_Tracker_Modified	2015/10/28 15:44	Nicolas Favé
Poppy GRR Keraal: The web interface to record and replay movements	2017/03/03 15:48	Maxime Devanne
Poppy robot	2015/10/28 13:01
Poppy Software	2015/12/02 14:45	Mai Nguyen
Robot Operating System	2015/10/28 13:01
Robotic Arm	2015/10/28 13:01
Robotic_arm (ROS package)	2016/02/19 14:32	Nicolas Favé
Robotic_arm_controler (ROS package)	2016/02/19 14:33	Nicolas Favé
simulators	2019/02/12 13:04	Yao - Fabien - Flavien
speech recognition and text-to-speech	2015/11/03 19:01	Mai Nguyen
The Sims pour la recherche, un simulateur de maison connectée	2020/07/03 17:48	Mai Nguyen
xAAL protocol	2015/10/28 13:01
Yumi experiment with the tactile table	2018/04/05 16:33	Nicolas Duminy

Le simulateur Gym

Présentation de Gym

Installation de Gym

Les fonctionnalités de Gym

Les environnements de Gym

Notre développement

Utilisation du simulateur Gym

Documentation