Selbst-Autodidaktische KI ist die bisher beste im Strategiespiel Go

Xavierarnau/Getty

AlphaGo Zero hat Go-Strategien entwickelt, die menschliche Spieler seit Jahrtausenden nicht mehr erfunden haben.

Ein Programm für künstliche Intelligenz (KI) der Google-Firma DeepMind hat beim Strategiespiel Go übermenschliche Leistungen erreicht – ohne von menschlichen Zügen zu lernen.

Diese Fähigkeit, sich ohne menschlichen Input selbst zu trainieren, ist ein entscheidender Schritt in Richtung des Traums, eine allgemeine KI zu schaffen, die jede Aufgabe bewältigen kann. In naher Zukunft könnte sie Programme befähigen, wissenschaftliche Herausforderungen wie die Proteinfaltung oder die Materialforschung zu übernehmen, sagte DeepMind-Chef Demis Hassabis bei einem Pressebriefing. „Wir sind ziemlich aufgeregt, weil wir denken, dass es jetzt gut genug ist, um echte Fortschritte bei einigen echten Problemen zu machen.“

Vorangegangene Go-spielende Computer, die von DeepMind, das seinen Sitz in London hat, entwickelt wurden, begannen mit dem Training auf mehr als 100.000 menschlichen Spielen, die von Experten gespielt wurden. Das neueste Programm, bekannt als AlphaGo Zero, fängt stattdessen mit zufälligen Zügen bei Null an und lernt, indem es gegen sich selbst spielt. Nach 40 Tagen Training und 30 Millionen Spielen war die KI in der Lage, den bisher besten „Spieler“ der Welt zu schlagen – eine andere DeepMind-KI, bekannt als AlphaGo Master. Die Ergebnisse werden heute in Nature1 veröffentlicht, mit einem begleitenden Kommentar2.

Diese Technik, bekannt als Reinforcement Learning, zum Funktionieren zu bringen, ist schwierig und ressourcenintensiv, sagt Oren Etzioni, Chef des Allen Institute for Artificial Intelligence in Seattle, Washington. Dass das Team einen solchen Algorithmus bauen konnte, der frühere Versionen mit weniger Trainingszeit und Computerleistung übertraf, „ist nichts weniger als erstaunlich“, fügt er hinzu.

Strategie-Supermo

Beim alten chinesischen Spiel Go geht es darum, schwarze und weiße Steine auf einem Brett zu platzieren, um ein Gebiet zu kontrollieren. Wie seine Vorgänger nutzt AlphaGo Zero ein tiefes neuronales Netzwerk – eine Art von KI, die von der Struktur des Gehirns inspiriert ist – um abstrakte Konzepte von den Spielbrettern zu lernen. Da es nur die Spielregeln kennt, lernt es durch Versuch und Irrtum und gibt nach jedem Spiel Informationen darüber zurück, was funktioniert hat, um sich selbst zu verbessern.

Zunächst spiegelte das Lernen von AlphaGo Zero das der menschlichen Spieler wider. Am Anfang versuchte es gierig, Steine zu fangen, wie es Anfänger oft tun, aber nach drei Tagen hatte es komplexe Taktiken gemeistert, die von menschlichen Experten verwendet werden. „Man sieht, wie es das Jahrtausende alte Wissen der Menschen wiederentdeckt“, sagt Hassabis. Nach 40 Tagen hatte das Programm Spiele gefunden, die dem Menschen unbekannt waren (siehe „Neues Wissen entdecken“).

Neues Wissen entdecken

Deepmind

Ansätze, die reines Reinforcement Learning verwenden, haben es in der KI schwer, weil die Fähigkeiten nicht immer konsistent fortschreiten, sagte David Silver, ein Wissenschaftler bei DeepMind, der die Entwicklung von AlphaGo geleitet hat, bei dem Briefing. Bots schlagen oft ihren Vorgänger, vergessen aber, wie sie frühere Versionen von sich selbst schlagen können. Dies ist die erste „wirklich stabile, solide Version von Reinforcement Learning, die in der Lage ist, komplett von Grund auf zu lernen“, sagte er.

Die Vorgänger von AlphaGo Zero benutzten zwei separate neuronale Netzwerke: eines, um die wahrscheinlich besten Züge vorherzusagen, und eines, um aus diesen Zügen zu bewerten, welcher am wahrscheinlichsten zu gewinnen war. Um Letzteres zu tun, verwendeten sie „Rollouts“ – das Spielen mehrerer schneller und zufälliger Spiele, um mögliche Ergebnisse zu testen. AlphaGo Zero hingegen verwendet ein einziges neuronales Netzwerk. Anstatt mögliche Ergebnisse aus jeder Position zu erforschen, wird das Netzwerk einfach gebeten, einen Gewinner vorherzusagen. Das ist so, als würde man einen Experten bitten, eine Vorhersage zu treffen, anstatt sich auf die Spiele von 100 schwachen Spielern zu verlassen, so Silver. „Wir vertrauen lieber den Vorhersagen dieses einen starken Experten.“

Durch die Zusammenfassung dieser Funktionen in einem einzigen neuronalen Netzwerk wurde der Algorithmus sowohl stärker als auch viel effizienter, so Silver. Es benötigte immer noch eine riesige Menge an Rechenleistung – vier der spezialisierten Chips, die Tensor Processing Units genannt werden, was Hassabis auf 25 Millionen US-Dollar an Hardware schätzt. Aber seine Vorgänger brauchten zehnmal so viel. Außerdem trainierte es sich selbst in Tagen, statt in Monaten. Die Implikation ist, dass „Algorithmen viel wichtiger sind als die verfügbare Rechenleistung oder die Daten“, sagte Silver.

Denken Sie über den Tellerrand hinaus

Einige DeepMind-Forscher sind bereits von der Arbeit an AlphaGo dazu übergegangen, ähnliche Techniken auf praktische Anwendungen anzuwenden, sagte Hassabis. Ein vielversprechender Bereich sei das Verständnis, wie sich Proteine falten, ein wesentliches Werkzeug für die Entdeckung von Medikamenten.

Die Erstellung von Beispielen für die Proteinfaltung kann Jahre mühsamer Kristallographie erfordern, daher gibt es nur wenige Daten, aus denen man lernen kann, und es gibt zu viele mögliche Lösungen, um Strukturen aus Aminosäuresequenzen mit einer Brute-Force-Suche vorherzusagen. Das Rätsel teilt jedoch einige wichtige Eigenschaften mit Go. Beide beinhalten bekannte Regeln und haben ein gut beschriebenes Ziel. Längerfristig könnten solche Algorithmen auf ähnliche Aufgaben in der Quantenchemie, im Materialdesign und in der Robotik angewandt werden.

Silver räumte ein, dass die KI, um ihren Ansatz allgemeiner auf reale Aufgaben anwenden zu können, die Fähigkeit benötigen wird, aus kleineren Datenmengen und Erfahrungen zu lernen. Ein weiterer wesentlicher Schritt wird sein, die Regeln eines Spiels selbst zu lernen, wie es ein anderer DeepMind-Bot 2015 für Arcade-Spiele getan hat. Hassabis rechnet damit, dass dies etwas ist, was AlphaGo Zero irgendwann tun könnte: „Wir sind ziemlich sicher, dass es funktionieren würde, es würde nur die Lernzeit sehr verlängern“, sagte er.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.