La IA autodidacta es la mejor en el juego de estrategia Goenseñó la IA es la mejor hasta ahora en el juego de estrategia Go

Xavierarnau/Getty

AlphaGo Zero ideó estrategias de Go que los jugadores humanos no han inventado en miles de años.

Un programa de inteligencia artificial (IA) de la empresa DeepMind, propiedad de Google, ha alcanzado un nivel sobrehumano en el juego de estrategia Go, sin aprender de ninguna jugada humana.

Esta capacidad de autoentrenamiento sin intervención humana es un paso crucial hacia el sueño de crear una IA general que pueda abordar cualquier tarea. A corto plazo, sin embargo, podría permitir que los programas se encarguen de retos científicos como el plegado de proteínas o la investigación de materiales, dijo el director ejecutivo de DeepMind, Demis Hassabis, en una rueda de prensa. «Estamos bastante entusiasmados porque creemos que esto es ahora lo suficientemente bueno como para hacer algunos progresos reales en algunos problemas reales»

Los anteriores ordenadores para jugar al Go desarrollados por DeepMind, que tiene su sede en Londres, comenzaron entrenándose con más de 100.000 juegos humanos jugados por expertos. El último programa, conocido como AlphaGo Zero, en cambio, empieza desde cero utilizando movimientos aleatorios, y aprende jugando contra sí mismo. Tras 40 días de entrenamiento y 30 millones de partidas, la IA fue capaz de vencer al anterior mejor «jugador» del mundo, otra IA de DeepMind conocida como AlphaGo Master. Los resultados se publican hoy en Nature1, con un comentario adjunto2.

Conseguir que esta técnica, conocida como aprendizaje por refuerzo, funcione bien es difícil y requiere muchos recursos, dice Oren Etzioni, director ejecutivo del Instituto Allen de Inteligencia Artificial en Seattle, Washington. Que el equipo haya podido construir un algoritmo de este tipo que supera a las versiones anteriores utilizando menos tiempo de entrenamiento y potencia de computación «es poco menos que sorprendente», añade.

Supremo de estrategia

El antiguo juego chino del Go consiste en colocar piedras blancas y negras en un tablero para controlar el territorio. Al igual que sus predecesores, AlphaGo Zero utiliza una red neuronal profunda -un tipo de IA inspirada en la estructura del cerebro- para aprender conceptos abstractos de los tableros. Con sólo las reglas del juego, aprende por ensayo y error, retroalimentando la información sobre lo que ha funcionado para mejorar después de cada partida.

Al principio, el aprendizaje de AlphaGo Zero reflejaba el de los jugadores humanos. Empezó intentando capturar piedras con avidez, como suelen hacer los principiantes, pero al cabo de tres días ya dominaba las complejas tácticas que utilizan los expertos humanos. «Se ve que redescubre los miles de años de conocimiento humano», dijo Hassabis. Al cabo de 40 días, el programa había encontrado juegos desconocidos para los humanos (ver ‘Descubriendo nuevos conocimientos’).

Descubriendo nuevos conocimientos

Deepmind

Los enfoques que utilizan puramente el aprendizaje de refuerzo han tenido problemas en la IA porque la habilidad no siempre progresa de forma consistente, dijo David Silver, un científico de DeepMind que ha liderado el desarrollo de AlphaGo, en la sesión informativa. Los robots suelen vencer a su predecesor, pero olvidan cómo vencer a las versiones anteriores de sí mismos. Esta es la primera «versión realmente estable y sólida de aprendizaje por refuerzo, que es capaz de aprender completamente desde cero», dijo.

Los predecesores de AlphaGo Zero utilizaban dos redes neuronales separadas: una para predecir las mejores jugadas probables, y otra para evaluar, de entre esas jugadas, cuál era la más probable para ganar. Para hacer esto último, utilizaban «roll outs», es decir, jugar múltiples partidas rápidas y aleatorias para probar los posibles resultados. AlphaGo Zero, sin embargo, utiliza una única red neuronal. En lugar de explorar los posibles resultados de cada posición, simplemente pide a la red que prediga un ganador. Esto es como pedir a un experto que haga una predicción, en lugar de confiar en las partidas de 100 jugadores débiles, dijo Silver. «Preferimos confiar en las predicciones de ese único experto fuerte».

La fusión de estas funciones en una sola red neuronal hizo que el algoritmo fuera más fuerte y mucho más eficiente, dijo Silver. Sigue necesitando una enorme cantidad de potencia de cálculo: cuatro de los chips especializados llamados unidades de procesamiento tensorial, que Hassabis calcula que suponen 25 millones de dólares de hardware. Pero sus predecesores utilizaban diez veces ese número. Además, se entrenó en días, en lugar de meses. La implicación es que «los algoritmos importan mucho más que la computación o los datos disponibles», dijo Silver.

Pensar fuera del tablero

Varios investigadores de DeepMind ya han pasado de trabajar en AlphaGo a aplicar técnicas similares a aplicaciones prácticas, dijo Hassabis. Un área prometedora, sugirió, es la comprensión de cómo se pliegan las proteínas, una herramienta esencial para el descubrimiento de fármacos.

Generar ejemplos de plegado de proteínas puede implicar años de minuciosa cristalografía, por lo que hay pocos datos de los que aprender, y hay demasiadas soluciones posibles para predecir estructuras a partir de secuencias de aminoácidos utilizando una búsqueda de fuerza bruta. Sin embargo, el rompecabezas comparte algunas características clave con el Go. Ambos implican reglas bien conocidas y tienen un objetivo bien descrito. A largo plazo, estos algoritmos podrían aplicarse a tareas similares en química cuántica, diseño de materiales y robótica.

Silver reconoció que para aplicar su enfoque a tareas del mundo real de forma más general, la IA necesitará la capacidad de aprender a partir de menores cantidades de datos y experiencia. Otro paso esencial será aprender las reglas de un juego por sí mismo, como hizo otro bot de DeepMind en 2015 para los juegos de arcade. Hassabis considera que esto es algo que AlphaGo Zero podría llegar a hacer: «Estamos bastante seguros de que funcionaría, solo habría que alargar mucho el tiempo de aprendizaje», dijo.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *