Xavierarnau/Getty
AlphaGo Zero veio com estratégias Go que os jogadores humanos não inventam há milhares de anos.
Um programa de inteligência artificial (IA) da empresa propriedade do Google DeepMind alcançou o nível sobre-humano no jogo de estratégia Go – sem aprender com quaisquer movimentos humanos.
Esta capacidade de auto-treino sem input humano é um passo crucial em direcção ao sonho de criar uma IA geral que possa enfrentar qualquer tarefa. No entanto, a curto prazo, poderia permitir que os programas assumissem desafios científicos tais como a dobragem de proteínas ou a investigação de materiais, disse o chefe executivo do DeepMind Demis Hassabis num briefing de imprensa. “Estamos bastante entusiasmados porque pensamos que isto é agora suficientemente bom para fazer algum progresso real em alguns problemas reais”
Computadores anteriores Go-playing desenvolvidos pelo DeepMind, que está baseado em Londres, começaram por treinar em mais de 100.000 jogos humanos jogados por peritos. O programa mais recente, conhecido como AlphaGo Zero, em vez disso, começa do zero utilizando movimentos aleatórios, e aprende jogando contra si próprio. Após 40 dias de treino e 30 milhões de jogos, a IA conseguiu vencer o anterior melhor ‘jogador’ do mundo – outro DeepMind AI conhecido como AlphaGo Master. Os resultados são publicados hoje na Nature1, com um comentário de acompanhamento2.
A obtenção desta técnica, conhecida como aprendizagem de reforço, para trabalhar bem é difícil e exige muitos recursos, diz Oren Etzioni, chefe executivo do Allen Institute for Artificial Intelligence em Seattle, Washington. Que a equipa poderia construir um algoritmo tal que superasse as versões anteriores, utilizando menos tempo de treino e poder computacional “não é nada menos do que surpreendente”, acrescenta.
Strategy supremo
O antigo jogo chinês de Go envolve colocar pedras pretas e brancas num tabuleiro para controlar o território. Como os seus predecessores, AlphaGo Zero utiliza uma rede neural profunda – um tipo de IA inspirado na estrutura do cérebro – para aprender conceitos abstractos dos tabuleiros. Contando apenas as regras do jogo, aprende por tentativa e erro, alimentando informação sobre o que funcionou para se melhorar após cada jogo.
No início, a aprendizagem do AlphaGo Zero espelhava a dos jogadores humanos. Começou a tentar avidamente capturar pedras, como fazem frequentemente os principiantes, mas após três dias dominou tácticas complexas utilizadas por peritos humanos. “Vê-se redescobrir os milhares de anos de conhecimento humano”, disse Hassabis. Após 40 dias, o programa tinha encontrado peças desconhecidas para os humanos (ver ‘Descobrir novos conhecimentos’).
Descobrindo Novos Conhecimentos
Deepmind
Aproximações usando aprendizagem puramente de reforço têm lutado na IA porque a capacidade nem sempre progride de forma consistente, disse David Silver, um cientista do DeepMind que tem liderado o desenvolvimento do AlphaGo, no briefing. Os robôs batem frequentemente o seu predecessor, mas esquecem-se de como bater as versões anteriores de si próprios. Esta é a primeira “versão realmente estável e sólida de aprendizagem de reforço, capaz de aprender completamente do zero”, disse ele.
Os antecessores do AlphaGo Zero utilizaram duas redes neurais separadas: uma para prever os prováveis melhores movimentos, e outra para avaliar, fora desses movimentos, o que era mais provável ganhar. Para fazer esta última, usaram ‘roll outs’ – jogando vários jogos rápidos e aleatórios para testar possíveis resultados. AlphaGo Zero, no entanto, utiliza uma única rede neural. Em vez de explorar os possíveis resultados de cada posição, pede simplesmente à rede que preveja um vencedor. Isto é como pedir a um especialista que faça uma previsão, em vez de confiar nos jogos de 100 jogadores fracos, disse Silver. “Preferimos confiar muito mais nas previsões desse especialista forte”
A fusão destas funções numa única rede neural tornou o algoritmo tanto mais forte como muito mais eficiente, disse Silver. Ainda exigia um enorme poder de computação – quatro dos chips especializados chamados unidades de processamento tensor, que Hassabis estimou em 25 milhões de dólares de hardware. Mas os seus predecessores utilizaram dez vezes esse número. Também se formou em dias, em vez de meses. A implicação é que “os algoritmos importam muito mais do que a computação ou os dados disponíveis”, disse Silver.
Pense fora do quadro
Os investigadores do DeepMindeveral já passaram de trabalhar no AlphaGo para aplicar técnicas semelhantes a aplicações práticas, disse Hassabis. Uma área promissora, sugeriu ele, é compreender como as proteínas se dobram, uma ferramenta essencial para a descoberta de drogas.
Exemplos geradores de dobragem de proteínas podem envolver anos de cristalografia meticulosa, pelo que há poucos dados com que aprender, e há demasiadas soluções possíveis para prever estruturas a partir de sequências de aminoácidos utilizando uma pesquisa de força bruta. No entanto, o puzzle partilha algumas características chave com Go. Ambas envolvem regras bem conhecidas e têm um objectivo bem descrito. A longo prazo, tais algoritmos podem ser aplicados a tarefas semelhantes em química quântica, desenho de materiais e robótica.
Prata reconheceu que para aplicar a sua abordagem a tarefas do mundo real de forma mais geral, a IA necessitará da capacidade de aprender com quantidades menores de dados e experiência. Outro passo essencial será aprender as regras de um jogo por si próprio, como outro robô DeepMind fez em 2015 para os jogos arcade. Hassabis considera que isto é algo que o AlphaGo Zero poderia eventualmente fazer: “Temos quase a certeza que funcionaria, apenas prolongaria muito o tempo de aprendizagem”, disse ele.