L’intelligenza artificiale autodidattaL’IA autodidatta è la migliore nel gioco di strategia Go

Xavierarnau/Getty

AlphaGo Zero ha elaborato strategie di Go che i giocatori umani non inventano da migliaia di anni.

Un programma di intelligenza artificiale (AI) della società DeepMind, di proprietà di Google, ha raggiunto un livello sovrumano nel gioco di strategia Go – senza imparare da nessuna mossa umana.

Questa capacità di auto-addestramento senza input umano è un passo fondamentale verso il sogno di creare un’AI generale che possa affrontare qualsiasi compito. A breve termine, però, potrebbe consentire ai programmi di affrontare sfide scientifiche come la piegatura delle proteine o la ricerca sui materiali, ha detto l’amministratore delegato di DeepMind Demis Hassabis in un briefing per la stampa. “Siamo abbastanza eccitati perché pensiamo che questo sia ora abbastanza buono per fare progressi reali su alcuni problemi reali.”

I precedenti computer che giocano a Go sviluppati da DeepMind, che ha sede a Londra, hanno iniziato allenandosi su più di 100.000 partite umane giocate da esperti. L’ultimo programma, conosciuto come AlphaGo Zero, parte invece da zero usando mosse casuali, e impara giocando contro se stesso. Dopo 40 giorni di allenamento e 30 milioni di partite, l’IA è stata in grado di battere il precedente miglior ‘giocatore’ del mondo – un’altra IA di DeepMind conosciuta come AlphaGo Master. I risultati sono pubblicati oggi su Nature1, con un commento di accompagnamento2.

Far funzionare bene questa tecnica, nota come apprendimento di rinforzo, è difficile e richiede molte risorse, dice Oren Etzioni, amministratore delegato dell’Allen Institute for Artificial Intelligence di Seattle, Washington. Che il team abbia potuto costruire un algoritmo che ha superato le versioni precedenti usando meno tempo di allenamento e potenza del computer “è a dir poco sorprendente”, aggiunge.

Supremo della strategia

L’antico gioco cinese di Go consiste nel posizionare pietre bianche e nere su una tavola per controllare il territorio. Come i suoi predecessori, AlphaGo Zero utilizza una rete neurale profonda – un tipo di IA ispirata alla struttura del cervello – per imparare concetti astratti dalle tavole. Detto solo le regole del gioco, impara per tentativi ed errori, fornendo informazioni su ciò che ha funzionato per migliorarsi dopo ogni partita. Ha iniziato cercando avidamente di catturare pietre, come fanno spesso i principianti, ma dopo tre giorni ha imparato le tattiche complesse utilizzate dagli esperti umani. “Lo vedi riscoprire le migliaia di anni di conoscenza umana”, ha detto Hassabis. Dopo 40 giorni, il programma aveva trovato giochi sconosciuti agli umani (vedi ‘Scoprire nuove conoscenze’).

Scoprire nuove conoscenze

Deepmind

Gli approcci che utilizzano esclusivamente l’apprendimento per rinforzo hanno fatto fatica nell’IA perché l’abilità non sempre progredisce in modo coerente, ha detto David Silver, uno scienziato di DeepMind che ha guidato lo sviluppo di AlphaGo, al briefing. I bot spesso battono il loro predecessore, ma dimenticano come battere le versioni precedenti di se stessi. Questa è la prima “versione davvero stabile e solida del progetto di apprendimento per rinforzo, che è in grado di imparare completamente da zero”, ha detto.

I predecessori di AlphaGo Zero usavano due reti neurali separate: una per prevedere le probabili mosse migliori, e una per valutare, tra quelle mosse, quale era più probabile vincere. Per fare quest’ultimo, hanno usato “roll out” – giocando più partite veloci e randomizzate per testare i possibili risultati. AlphaGo Zero, tuttavia, utilizza una singola rete neurale. Invece di esplorare i possibili risultati di ogni posizione, chiede semplicemente alla rete di predire un vincitore. Questo è come chiedere a un esperto di fare una previsione, piuttosto che affidarsi alle partite di 100 giocatori deboli, ha detto Silver. “Preferiamo fidarci delle previsioni di quell’unico esperto forte.”

Fondere queste funzioni in un’unica rete neurale ha reso l’algoritmo sia più forte che molto più efficiente, ha detto Silver. Richiedeva ancora un’enorme quantità di potenza di calcolo – quattro chip specializzati chiamati tensor processing unit, che Hassabis ha stimato in 25 milioni di dollari di hardware. Ma i suoi predecessori usavano dieci volte quel numero. Si è anche addestrato da solo in giorni, piuttosto che in mesi. L’implicazione è che “gli algoritmi contano molto di più del calcolo o dei dati disponibili”, ha detto Silver.

Pensare fuori dal tavolo

Diversi ricercatori di DeepMind sono già passati dal lavoro su AlphaGo all’applicazione di tecniche simili ad applicazioni pratiche, ha detto Hassabis. Un’area promettente, ha suggerito, è la comprensione del ripiegamento delle proteine, uno strumento essenziale per la scoperta di farmaci.

Generare esempi di ripiegamento delle proteine può comportare anni di scrupolosa cristallografia, quindi ci sono pochi dati da cui imparare, e ci sono troppe soluzioni possibili per prevedere le strutture dalle sequenze di aminoacidi usando una ricerca brutale. Il puzzle condivide alcune caratteristiche chiave con Go, tuttavia. Entrambi coinvolgono regole ben note e hanno un obiettivo ben descritto. A lungo termine, tali algoritmi potrebbero essere applicati a compiti simili nella chimica quantistica, nella progettazione dei materiali e nella robotica.

Silver ha riconosciuto che per applicare il suo approccio a compiti del mondo reale più in generale, l’IA avrà bisogno della capacità di imparare da piccole quantità di dati ed esperienza. Un altro passo essenziale sarà imparare le regole di un gioco da solo, come ha fatto un altro bot di DeepMind nel 2015 per i giochi arcade. Hassabis ritiene che questo sia qualcosa che AlphaGo Zero potrebbe fare alla fine: “Siamo abbastanza sicuri che funzionerebbe, sarebbe solo estendere il tempo di apprendimento di molto”, ha detto.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *