Xavierarnau/Getty
AlphaGo Zero kwam met Go-strategieën die menselijke spelers in duizenden jaren niet hebben bedacht.
Een kunstmatig intelligentie (AI) programma van Google-bedrijf DeepMind heeft een bovenmenselijk niveau bereikt in het strategiespel Go – zonder te leren van menselijke zetten.
Dit vermogen om zichzelf te trainen zonder menselijke input is een cruciale stap in de richting van de droom om een algemene AI te creëren die elke taak aankan. Op de kortere termijn zou het programma’s in staat kunnen stellen om wetenschappelijke uitdagingen aan te gaan, zoals het vouwen van eiwitten of materiaalonderzoek, zei DeepMind chief executive Demis Hassabis op een persbriefing. “We zijn erg enthousiast omdat we denken dat dit nu goed genoeg is om echte vooruitgang te boeken bij echte problemen.”
Vorige Go-spelcomputers ontwikkeld door DeepMind, dat is gevestigd in Londen, begonnen met het trainen op meer dan 100.000 menselijke spellen gespeeld door experts. Het nieuwste programma, bekend als AlphaGo Zero, begint in plaats daarvan vanaf nul met willekeurige zetten, en leert door tegen zichzelf te spelen. Na 40 dagen training en 30 miljoen spelletjes was de AI in staat om ’s werelds vorige beste ‘speler’ – een andere DeepMind AI bekend als AlphaGo Master – te verslaan. De resultaten zijn vandaag gepubliceerd in Nature1, met een begeleidend commentaar2.
Het goed laten werken van deze techniek, bekend als reinforcement learning, is moeilijk en kost veel middelen, zegt Oren Etzioni, chief executive van het Allen Institute for Artificial Intelligence in Seattle, Washington. Dat het team een dergelijk algoritme kon bouwen dat eerdere versies overtrof met minder trainingstijd en computerkracht “is niets minder dan verbazingwekkend”, voegt hij eraan toe.
Strategy supremo
Het oude Chinese spel Go bestaat uit het plaatsen van zwarte en witte stenen op een bord om een gebied te controleren. Net als zijn voorgangers gebruikt AlphaGo Zero een diep neuraal netwerk – een type AI dat is geïnspireerd op de structuur van de hersenen – om abstracte concepten van de borden te leren. AlphaGo Zero krijgt alleen de spelregels te horen en leert met vallen en opstaan, waarbij het na elk spel informatie terugkrijgt over wat werkte om zichzelf te verbeteren.
In het begin leek AlphaGo Zero’s leerproces op dat van menselijke spelers. Het begon gretig met het vangen van stenen, zoals beginners vaak doen, maar na drie dagen had het complexe tactieken onder de knie die door menselijke experts worden gebruikt. “Je ziet het de duizenden jaren menselijke kennis herontdekken,” zei Hassabis. Na 40 dagen had het programma spelen gevonden die voor mensen onbekend waren (zie ‘Nieuwe kennis ontdekken’).
Ontdekken van nieuwe kennis
Deepmind
Programma’s die puur gebruikmaken van reinforcement learning hebben het moeilijk gehad bij AI, omdat het vermogen niet altijd consistent vooruitgaat, zei David Silver, een wetenschapper bij DeepMind die de ontwikkeling van AlphaGo heeft geleid, tijdens de briefing. Bots verslaan vaak hun voorganger, maar vergeten hoe ze eerdere versies van zichzelf moeten verslaan. Dit is de eerste “echt stabiele, solide versie van reinforcement learning, die in staat is om volledig vanaf nul te leren,” zei hij.
AlphaGo Zero’s voorgangers gebruikten twee afzonderlijke neurale netwerken: een om de waarschijnlijke beste zetten te voorspellen, en een om te evalueren, uit die zetten, welke het meest waarschijnlijk zou winnen. Om dit laatste te doen, gebruikten ze ‘roll outs’ – het spelen van meerdere snelle en gerandomiseerde spellen om mogelijke uitkomsten te testen. AlphaGo Zero gebruikt echter een enkel neuraal netwerk. In plaats van de mogelijke uitkomsten van elke positie te onderzoeken, vraagt het het netwerk simpelweg om een winnaar te voorspellen. Dit is alsof je een expert vraagt om een voorspelling te doen, in plaats van te vertrouwen op de wedstrijden van 100 zwakke spelers, aldus Silver. “We vertrouwen veel liever op de voorspellingen van die ene sterke expert.”
Door deze functies in één neuraal netwerk samen te voegen, werd het algoritme zowel sterker als veel efficiënter, aldus Silver. Het vereiste nog steeds een enorme hoeveelheid rekenkracht – vier van de gespecialiseerde chips genaamd tensor processing units, die Hassabis schatte op 25 miljoen dollar aan hardware. Maar zijn voorgangers gebruikten tien keer dat aantal. Het systeem trainde zichzelf ook in dagen, in plaats van maanden. De implicatie is dat “algoritmes er veel meer toe doen dan de beschikbare rekenkracht of data”, aldus Silver.
Denk buiten het bord
Verschillende DeepMind-onderzoekers zijn al overgestapt van het werken aan AlphaGo naar het toepassen van vergelijkbare technieken op praktische toepassingen, zei Hassabis. Een veelbelovend gebied is volgens hem het begrijpen hoe eiwitten zich vouwen, een essentieel instrument voor het ontdekken van medicijnen.
Het genereren van voorbeelden van eiwitvouwing kan jaren van nauwgezette kristallografie vergen, dus er zijn weinig gegevens om van te leren, en er zijn te veel mogelijke oplossingen om structuren te voorspellen op basis van aminozuurreeksen met behulp van een brute kracht-zoekopdracht. De puzzel heeft echter enkele belangrijke kenmerken gemeen met Go. Beide hebben bekende regels en een goed beschreven doel. Op de langere termijn zouden dergelijke algoritmen kunnen worden toegepast op soortgelijke taken in de kwantumchemie, materiaalontwerp en robotica.
Zilver erkent dat de AI, om zijn benadering meer algemeen op reële taken te kunnen toepassen, in staat moet zijn om van kleinere hoeveelheden gegevens en ervaring te leren. Een andere essentiële stap zal het zelf leren van de regels van een spel zijn, zoals een andere DeepMind-bot in 2015 deed voor arcadegames. Hassabis denkt dat dit iets is wat AlphaGo Zero uiteindelijk zou kunnen doen: “We zijn er vrij zeker van dat het zou werken, het zou alleen de leertijd een stuk verlengen,” zei hij.