L’IA auto-apprenanteautodidacte est la meilleure à ce jour au jeu de stratégie Go

Xavierarnau/Getty

AlphaGo Zero a trouvé des stratégies de Go que les joueurs humains n’ont pas inventées depuis des milliers d’années.

Un programme d’intelligence artificielle (IA) de la société DeepMind, propriété de Google, a atteint un niveau surhumain au jeu de stratégie Go – sans apprendre d’aucun coup humain.

Cette capacité à s’auto-former sans apport humain est une étape cruciale vers le rêve de créer une IA générale capable de s’attaquer à n’importe quelle tâche. À plus court terme, cependant, elle pourrait permettre aux programmes de relever des défis scientifiques tels que le repliement des protéines ou la recherche sur les matériaux, a déclaré Demis Hassabis, directeur général de DeepMind, lors d’un point de presse. « Nous sommes assez excités parce que nous pensons que c’est maintenant assez bon pour faire des progrès réels sur certains problèmes réels. »

Les précédents ordinateurs de jeu de Go développés par DeepMind, qui est basé à Londres, ont commencé par s’entraîner sur plus de 100 000 parties humaines jouées par des experts. Le dernier programme, connu sous le nom d’AlphaGo Zero, part plutôt de zéro en utilisant des mouvements aléatoires, et apprend en jouant contre lui-même. Après 40 jours d’entraînement et 30 millions de parties, l’IA a réussi à battre le précédent meilleur « joueur » au monde, une autre IA de DeepMind connue sous le nom d’AlphaGo Master. Les résultats sont publiés aujourd’hui dans Nature1, accompagnés d’un commentaire2.

Parvenir à ce que cette technique, connue sous le nom d’apprentissage par renforcement, fonctionne bien est difficile et demande beaucoup de ressources, explique Oren Etzioni, directeur général de l’Allen Institute for Artificial Intelligence à Seattle, Washington. Que l’équipe ait pu construire un tel algorithme qui a surpassé les versions précédentes en utilisant moins de temps d’entraînement et de puissance informatique « n’est rien moins qu’étonnant », ajoute-t-il.

Strategy supremo

L’ancien jeu chinois du Go consiste à placer des pierres noires et blanches sur un plateau pour contrôler un territoire. Comme ses prédécesseurs, AlphaGo Zero utilise un réseau neuronal profond – un type d’IA inspiré de la structure du cerveau – pour apprendre des concepts abstraits à partir des plateaux. Ne connaissant que les règles du jeu, il apprend par essais et erreurs, renvoyant des informations sur ce qui a fonctionné pour s’améliorer après chaque partie.

Au début, l’apprentissage d’AlphaGo Zero reflétait celui des joueurs humains. Il a commencé par essayer avidement de capturer des pierres, comme le font souvent les débutants, mais après trois jours, il avait maîtrisé des tactiques complexes utilisées par les experts humains. « On le voit redécouvrir des milliers d’années de connaissances humaines », a déclaré M. Hassabis. Après 40 jours, le programme avait trouvé des pièces inconnues des humains (voir « Découvrir de nouvelles connaissances »).

Découvrir de nouvelles connaissances

Deepmind

Les approches utilisant purement l’apprentissage par renforcement ont eu du mal dans l’IA parce que les capacités ne progressent pas toujours de manière cohérente, a déclaré David Silver, un scientifique de DeepMind qui a dirigé le développement d’AlphaGo, lors du briefing. Les robots battent souvent leur prédécesseur, mais oublient comment battre les versions précédentes d’eux-mêmes. Il s’agit de la première « version vraiment stable et solide de l’apprentissage par renforcement du projet, qui est capable d’apprendre complètement à partir de zéro », a-t-il déclaré.

Les prédécesseurs d’AlphaGo Zero utilisaient deux réseaux neuronaux distincts : un pour prédire les meilleurs coups probables, et un pour évaluer, parmi ces coups, celui qui avait le plus de chances de gagner. Pour ce faire, ils utilisaient des « roll outs », c’est-à-dire qu’ils jouaient plusieurs parties rapides et aléatoires pour tester les résultats possibles. AlphaGo Zero, en revanche, utilise un seul réseau neuronal. Au lieu d’explorer les résultats possibles pour chaque position, il demande simplement au réseau de prédire un gagnant. Cela revient à demander à un expert de faire une prédiction, plutôt que de s’appuyer sur les parties de 100 joueurs faibles, a déclaré Silver. « Nous préférons de loin faire confiance aux prédictions de ce seul expert fort. »

Fusionner ces fonctions en un seul réseau neuronal a rendu l’algorithme à la fois plus fort et beaucoup plus efficace, a déclaré Silver. Il nécessitait encore une énorme puissance de calcul – quatre des puces spécialisées appelées unités de traitement tensoriel, qu’Hassabis a estimé à 25 millions de dollars de matériel. Mais ses prédécesseurs utilisaient dix fois ce nombre. Il s’est également entraîné en quelques jours, plutôt qu’en quelques mois. L’implication est que « les algorithmes comptent beaucoup plus que le calcul ou les données disponibles », a déclaré Silver.

Penser en dehors du conseil

Plusieurs chercheurs de DeepMind sont déjà passés du travail sur AlphaGo à l’application de techniques similaires à des applications pratiques, a déclaré Hassabis. Un domaine prometteur, a-t-il suggéré, est la compréhension du repliement des protéines, un outil essentiel pour la découverte de médicaments.

Générer des exemples de repliement de protéines peut impliquer des années de cristallographie minutieuse, il y a donc peu de données à partir desquelles apprendre, et il y a trop de solutions possibles pour prédire les structures à partir de séquences d’acides aminés en utilisant une recherche par force brute. Le puzzle partage toutefois certaines caractéristiques essentielles avec le jeu de Go. Tous deux font intervenir des règles bien connues et ont un objectif bien décrit. À plus long terme, de tels algorithmes pourraient être appliqués à des tâches similaires en chimie quantique, en conception de matériaux et en robotique.

Silver a reconnu que pour appliquer plus généralement son approche à des tâches du monde réel, l’IA devra être capable d’apprendre à partir de plus petites quantités de données et d’expérience. Une autre étape essentielle sera d’apprendre les règles d’un jeu par elle-même, comme l’a fait un autre bot de DeepMind en 2015 pour les jeux d’arcade. M. Hassabis estime qu’AlphaGo Zero pourrait éventuellement y parvenir : « Nous sommes à peu près sûrs que cela fonctionnerait, cela prolongerait juste beaucoup le temps d’apprentissage », a-t-il déclaré.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *