AlphaGo

⌚: 3 minutes

AlphaGo est une intelligence artificielle (IA) spécialisé pour jouer au Go, un jeu de stratégie chinois, contre des concurrents humains. AlphaGo est un projet de Google DeepMind.

La capacité à créer un algorithme d’apprentissage capable de battre un joueur humain aux jeux de stratégie est une mesure du développement de l’IA. AlphaGo est conçu comme une IA autodidacte et joue contre lui-même pour maîtriser le jeu stratégique complexe du Go. Il y a eu des versions d’AlphaGo qui ont battu des joueurs humains, mais de nouvelles versions sont encore en cours de création.

Le Go est un jeu de plateau chinois similaire aux échecs avec deux joueurs, l’un utilisant des pièces noires et l’autre des pièces blanches, plaçant une pièce à chaque tour. Les pièces sont placées sur une grille dont la taille varie en fonction du niveau de jeu jusqu’à 19×19 points de placement. Le but est de capturer plus de territoire (espaces vides) ou de pièces ennemies en les entourant avec vos pièces. Seules les positions qui sont horizontales et verticales par rapport aux joueurs doivent être couvertes pour capturer ; il n’est pas nécessaire qu’elles soient toutes diagonales. Les pièces ou le territoire peuvent être capturés individuellement ou en groupe.

Les échecs sont peut-être un jeu de société plus connu avec des pièces blanches et noires, mais le Go a des règles qui offrent plus de possibilités de mouvements. Le nombre de positions possibles rend impossible une approche traditionnelle par force brute, comme celle utilisée avec le Big Blue d’IBM aux échecs, avec les ordinateurs actuels. Cette différence de complexité du problème a nécessité une nouvelle approche.

AlphaGo est basé sur un algorithme de Monte Carlo basé sur une recherche arborescente en regardant une liste de coups possibles de son répertoire appris par machine. Les algorithmes et l’apprentissage diffèrent selon les différentes versions d’AlphaGo. AlphaGo Master, la version qui a battu le champion du monde de go Ke Jie, utilise l’apprentissage supervisé. AlphaGo Zero, la version à apprentissage non supervisé d’AlphaGo, apprend en jouant contre lui-même. D’abord, l’IA joue au hasard, puis avec une sophistication croissante. Sa sophistication accrue est telle qu’elle bat constamment la version Master qui domine les joueurs humains.