Xavierarnau/Getty
AlphaGo Zero wymyśliła strategie Go, których ludzcy gracze nie wymyślili od tysięcy lat.
Program sztucznej inteligencji (AI) z należącej do Google firmy DeepMind osiągnął nadludzki poziom w grze strategicznej Go – nie ucząc się na podstawie żadnych ludzkich ruchów.
Ta zdolność do samokształcenia bez udziału człowieka jest kluczowym krokiem w kierunku marzenia o stworzeniu ogólnej AI, która poradzi sobie z każdym zadaniem. W najbliższej przyszłości może to umożliwić programom podejmowanie wyzwań naukowych, takich jak składanie białek czy badania nad materiałami, powiedział szef DeepMind, Demis Hassabis, na konferencji prasowej. „Jesteśmy bardzo podekscytowani, ponieważ uważamy, że jest to wystarczająco dobre, aby dokonać prawdziwego postępu w rozwiązywaniu rzeczywistych problemów.”
Poprzednie komputery do gry w Go opracowane przez DeepMind, która ma siedzibę w Londynie, rozpoczęły szkolenie na ponad 100 000 ludzkich gier granych przez ekspertów. Najnowszy program, znany jako AlphaGo Zero, zamiast tego zaczyna od zera, używając losowych ruchów, i uczy się grając przeciwko sobie. Po 40 dniach treningu i 30 milionach gier, SI była w stanie pokonać poprzedniego najlepszego „gracza” na świecie – inną SI DeepMind znaną jako AlphaGo Master. Wyniki zostały opublikowane dzisiaj w Nature1, wraz z towarzyszącym im komentarzem2.
Uzyskanie tej techniki, znanej jako reinforcement learning, aby dobrze działać jest trudne i wymaga dużych nakładów, mówi Oren Etzioni, dyrektor Allen Institute for Artificial Intelligence w Seattle, Washington. To, że zespół mógł zbudować taki algorytm, który przewyższył poprzednie wersje, wykorzystując krótszy czas szkolenia i moc komputera, „jest po prostu niesamowite”, dodaje.
Strategia supremo
Starożytna chińska gra Go polega na umieszczaniu czarnych i białych kamieni na planszy w celu kontrolowania terytorium. Podobnie jak jej poprzednicy, AlphaGo Zero wykorzystuje głęboką sieć neuronową – rodzaj sztucznej inteligencji inspirowanej strukturą mózgu – do uczenia się abstrakcyjnych pojęć z planszy. AlphaGo Zero, podobnie jak jego poprzednicy, wykorzystuje głęboką sieć neuronową – rodzaj sztucznej inteligencji zainspirowanej strukturą mózgu – do uczenia się abstrakcyjnych pojęć z planszy. Uczy się jedynie zasad gry, metodą prób i błędów, przekazując informacje o tym, co zadziałało, aby poprawić się po każdej grze.
Na początku nauka AlphaGo Zero odzwierciedlała naukę ludzkich graczy. Zaczęło się od zachłannego próbowania przechwytywania kamieni, jak to często robią początkujący, ale po trzech dniach opanowało złożone taktyki stosowane przez ludzkich ekspertów. „Widzimy, że odkrywa on na nowo tysiące lat ludzkiej wiedzy” – powiedział Hassabis. Po 40 dniach program odnalazł sztuki nieznane człowiekowi (patrz 'Odkrywanie nowej wiedzy').
Odkrywanie nowej wiedzy
Deepmind
Podejścia wykorzystujące wyłącznie uczenie wzmacniające zmagały się w AI, ponieważ umiejętności nie zawsze rozwijają się konsekwentnie, powiedział David Silver, naukowiec z DeepMind, który kierował rozwojem AlphaGo, na briefingu. Boty często pokonują swoich poprzedników, ale zapominają, jak pokonać wcześniejsze wersje samych siebie. Jest to pierwsza „naprawdę stabilna, solidna wersja uczenia się przez wzmocnienie, która jest w stanie uczyć się całkowicie od zera”, powiedział.
Poprzednicy AlphaGo Zero używali dwóch oddzielnych sieci neuronowych: jednej do przewidywania prawdopodobnych najlepszych ruchów, a drugiej do oceny, z tych ruchów, co było najbardziej prawdopodobne, aby wygrać. Do tego drugiego celu używali „roll outów” – rozgrywali wiele szybkich i losowych gier, aby przetestować możliwe wyniki. AlphaGo Zero używa jednak pojedynczej sieci neuronowej. Zamiast badać możliwe wyniki z każdej pozycji, po prostu prosi sieć, aby przewidziała zwycięzcę. To tak, jakby poprosić eksperta o prognozę, a nie polegać na grach 100 słabych graczy, powiedział Silver. „Wolelibyśmy zaufać przewidywaniom tego jednego silnego eksperta.”
Połączenie tych funkcji w jedną sieć neuronową sprawiło, że algorytm stał się zarówno silniejszy, jak i znacznie bardziej wydajny, powiedział Silver. Nadal wymagał on ogromnej mocy obliczeniowej – czterech wyspecjalizowanych chipów zwanych procesorami tensorowymi, których koszt sprzętowy Hassabis oszacował na 25 milionów dolarów. Ale jego poprzednicy używali dziesięciokrotnie większej liczby. Ponadto trenował się w ciągu kilku dni, a nie miesięcy. Implikacja jest taka, że „algorytmy mają znacznie większe znaczenie niż dostępne dane”, powiedział Silver.
Myśl poza tablicą
Kilku badaczy DeepMind już przeszło od pracy nad AlphaGo do stosowania podobnych technik w praktycznych zastosowaniach, powiedział Hassabis. Jednym z obiecujących obszarów, jak zasugerował, jest zrozumienie, w jaki sposób białka są składane, co jest niezbędnym narzędziem do odkrywania leków.
Generowanie przykładów składania białek może wymagać lat żmudnej krystalografii, więc istnieje niewiele danych, na których można się uczyć, a istnieje zbyt wiele możliwych rozwiązań, aby przewidzieć struktury z sekwencji aminokwasów za pomocą brutalnego wyszukiwania. Łamigłówka ma jednak kilka cech wspólnych z grą Go. Obie zawierają dobrze znane reguły i mają dobrze opisany cel. W dłuższej perspektywie takie algorytmy mogą być stosowane do podobnych zadań w chemii kwantowej, projektowaniu materiałów i robotyce.
Silver przyznał, że aby zastosować swoje podejście do zadań w świecie rzeczywistym bardziej ogólnie, SI będzie potrzebować zdolności uczenia się na podstawie mniejszych ilości danych i doświadczenia. Kolejnym istotnym krokiem będzie samodzielne uczenie się zasad gry, tak jak zrobił to inny bot DeepMind w 2015 r. w przypadku gier zręcznościowych. Hassabis uważa, że jest to coś, co AlphaGo Zero mógłby w końcu zrobić: „Jesteśmy całkiem pewni, że to by zadziałało, tylko znacznie wydłużyłoby czas nauki” – powiedział.