Catégorie

Machine Learning

Catégorie

Reinforcement Learning

⌚: 3 minutes

L’apprentissage par le renforcement est une méthode de formation basée sur la récompense des comportements souhaités et/ou la punition des comportements non souhaités. Cette méthode d’apprentissage a été adoptée en intelligence artificielle (IA) comme méthode pour diriger l’apprentissage machine non supervisé par le biais de récompenses et de sanctions. L’apprentissage par renforcement est utilisé dans la recherche opérationnelle, la théorie de l’information, la théorie des jeux, la théorie du contrôle, l’optimisation basée sur la simulation, les systèmes multi-agents, l’intelligence des essaims, les statistiques et les algorithmes génétiques.

Alors que les algorithmes d’apprentissage supervisé sont généralement formés avec un ensemble de réponses correctes connues, l’apprentissage d’un agent par renforcement ne l’est pas. Un agent d’apprentissage par renforcement apprend de l’environnement dans lequel il accomplit sa tâche. Tout d’abord, une méthode de récompense des comportements souhaités et de punition des comportements négatifs est élaborée. Des valeurs positives sont attribuées aux comportements souhaités pour fournir un renforcement positif et des valeurs négatives aux comportements non souhaités pour un renforcement négatif.

L’agent est programmé pour rechercher une récompense globale maximale et à long terme afin de parvenir à une solution optimale. Les objectifs à long terme permettent d’éviter que l’agent ne retarde la réalisation d’objectifs moins importants tout en évitant les risques. Il convient également de noter l’ajout de mécanismes visant à encourager l’exploration. Les processus de décision de Markov sont parfois utilisés dans les décisions d’exploration où un agent peut ignorer une récompense afin d’explorer ; à cette fin, les développeurs peuvent ajouter un effet, comme la curiosité, qui aide à faire des découvertes.

Un algorithme d’apprentissage jouant Pac Man pourrait avoir la capacité de se déplacer dans l’une des quatre directions possibles, sauf en cas d’obstruction. À partir de données de pixels, un agent pourrait recevoir une récompense numérique pour le résultat d’une unité de déplacement : 0 pour un espace vide, 1 pour des pastilles, 2 pour des fruits, 3 pour une pastille de puissance, 4 pour une pastille de puissance post-fantôme, 5 pour avoir collecté toutes les pastilles et terminé un niveau, mais avoir perdu 5 points en cas de collision avec un fantôme. L’agent passe d’un jeu aléatoire à un jeu sophistiqué, en apprenant que l’objectif est d’obtenir toutes les pastilles pour terminer le niveau. Avec le temps, l’agent peut même apprendre des tactiques comme la conservation des pastilles de puissance jusqu’à ce qu’ils soient nécessaires à l’autodéfense.

Parce qu’il est basé sur une compréhension des systèmes biologiques, l’apprentissage du renforcement fait partie de l’informatique bio-inspirée. En tant que principe psychologique, l’apprentissage par renforcement est issu de l’école de psychologie comportementale.