Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
reinforcement_learning [2019/02/16 23:21] colin |
reinforcement_learning [2019/02/17 02:33] (Version actuelle) colin |
||
---|---|---|---|
Ligne 3: | Ligne 3: | ||
- | <WRAP center round tip 60%> | + | <WRAP left round tip 80%> |
Sauter à la navigationSauter à la recherche | Sauter à la navigationSauter à la recherche | ||
En intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome (robot, etc.), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement, et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative. L'agent cherche, au travers d'expériences itérées, un comportement décisionnel (appelé stratégie ou politique, et qui est une fonction associant à l'état courant l'action à exécuter) optimal, en ce sens qu'il maximise la somme des récompenses au cours du temps. | En intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome (robot, etc.), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement, et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative. L'agent cherche, au travers d'expériences itérées, un comportement décisionnel (appelé stratégie ou politique, et qui est une fonction associant à l'état courant l'action à exécuter) optimal, en ce sens qu'il maximise la somme des récompenses au cours du temps. | ||
Ligne 9: | Ligne 9: | ||
[[https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement|Wikipedia]] | [[https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement|Wikipedia]] | ||
</WRAP> | </WRAP> | ||
+ | |||
+ | ===== Liens ===== | ||
+ | |||
+ | [[https://github.com/DRL-CASIA/StarCraft-AI|StarCraft-AI]] | ||
+ | [[http://blog.dlib.net/2015/06/reinforcement-learning-control-and-3d.html|Dlib control-and-3d]] | ||
+ | [[https://github.com/maximecb/gym-minigrid|Gym]] | ||
+ | [[https://github.com/erilyth/Flappy-Bird-Genetic-Algorithms|Flappy-Bird]] | ||
+ | https://github.com/topics/flappybird?o=desc&s= | ||