Outils pour utilisateurs

Outils du site


reinforcement_learning

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
reinforcement_learning [2019/02/16 23:21]
colin
reinforcement_learning [2019/02/17 02:33] (Version actuelle)
colin
Ligne 3: Ligne 3:
  
  
-<​WRAP ​center ​round tip 60%>+<​WRAP ​left round tip 80%>
 Sauter à la navigationSauter à la recherche Sauter à la navigationSauter à la recherche
 En intelligence artificielle,​ plus précisément en apprentissage automatique,​ l'​apprentissage par renforcement consiste, pour un agent autonome (robot, etc.), à apprendre les actions à prendre, à partir d'​expériences,​ de façon à optimiser une récompense quantitative au cours du temps. L'​agent est plongé au sein d'un environnement,​ et prend ses décisions en fonction de son état courant. En retour, l'​environnement procure à l'​agent une récompense,​ qui peut être positive ou négative. L'​agent cherche, au travers d'​expériences itérées, un comportement décisionnel (appelé stratégie ou politique, et qui est une fonction associant à l'​état courant l'​action à exécuter) optimal, en ce sens qu'il maximise la somme des récompenses au cours du temps. En intelligence artificielle,​ plus précisément en apprentissage automatique,​ l'​apprentissage par renforcement consiste, pour un agent autonome (robot, etc.), à apprendre les actions à prendre, à partir d'​expériences,​ de façon à optimiser une récompense quantitative au cours du temps. L'​agent est plongé au sein d'un environnement,​ et prend ses décisions en fonction de son état courant. En retour, l'​environnement procure à l'​agent une récompense,​ qui peut être positive ou négative. L'​agent cherche, au travers d'​expériences itérées, un comportement décisionnel (appelé stratégie ou politique, et qui est une fonction associant à l'​état courant l'​action à exécuter) optimal, en ce sens qu'il maximise la somme des récompenses au cours du temps.
Ligne 9: Ligne 9:
 [[https://​fr.wikipedia.org/​wiki/​Apprentissage_par_renforcement|Wikipedia]] [[https://​fr.wikipedia.org/​wiki/​Apprentissage_par_renforcement|Wikipedia]]
 </​WRAP>​ </​WRAP>​
 +
 +===== Liens =====
 +
 +[[https://​github.com/​DRL-CASIA/​StarCraft-AI|StarCraft-AI]]
 +[[http://​blog.dlib.net/​2015/​06/​reinforcement-learning-control-and-3d.html|Dlib control-and-3d]]
 +[[https://​github.com/​maximecb/​gym-minigrid|Gym]]
 +[[https://​github.com/​erilyth/​Flappy-Bird-Genetic-Algorithms|Flappy-Bird]]
 +https://​github.com/​topics/​flappybird?​o=desc&​s=
  
reinforcement_learning.1550355705.txt.gz · Dernière modification: 2019/02/16 23:21 par colin