Clube Lúdico: AlphaZero

quinta-feira, 10 de janeiro de 2019

AlphaZero e suas novidades

Apesar de haver escrito sobre o AlphaZero em abril de 2018 (clique aqui), em 6 de dezembro de 2018, a DeepMind - braço da Alphabet, que é a holding dona do Google - divulgou resultados do desempenho do AlphaZero nas suas façanhas em sobrepujar os sistemas mais capazes em áreas diferentes.

O artigo vale pelo resultado alcançado. Para ter ideia da dimensão do resultado vamos entender o que é mesmo o AlphaZero. O AlphaZero é uma versão generalista que "aprende" a partir da apresentação das regras e de praticar sobre o tópico a ser aprendido.

Pois bem, o AlphaZero teve um expressivo desempenho contra o Elmo - a versão campeã do mundo de shogi (xadrez japonês). AlphaZero venceu 91,2% das partidas, levando somente 2 horas para superar o Elmo.

Contra o software campeão mundial de xadrez - o Stockfish, AlphaZero venceu 155 partidas, perdeu 6 e empatou as restantes num total de 1000 partidas. AlphaZero levou 4 horas para superar o Stockfish.

AlphaZero teve vida mais difícil mas ainda assim superou o AlphaGo, versão que venceu o campeão mundial de Go em 2016. Venceu somente 61% dos jogos, vindo a superar o AlphaGo depois de 30 horas de batalhas.

O gráfico mostra claramente uma grande quantidade de empates quanto o AlphaZero joga xadrez de peças pretas, inclusive as únicas 6 derrotas no 1000 jogos que disputou contra o Stockfish. Já no Go, o resultado foi mais equilibrado tanto com as peças pretas quanto com as peças brancas.

AlphaZero para aprender os três jogos utiliza uma rede neural não treinada para jogar milhares de partidas contra si mesma via processo de tentativa e erro. Essa técnica é chamada de aprendizado de reforço, à medida que as sequências de partidas avança os melhores lances são selecionados. Apesar da lógica simples, AlphaZero surpreendeu os especialistas pois perceberam criatividade e inventividade nos movimentos contras os outros sistemas.

A DeepMind está muito otimista com as capacidades do AlphaZero que principal objetivo não é vencer partidas de shogi, xadrez ou go e sim ampliar as possibilidade de aplicação do sistema especialista em várias outras áreas como o projeto AlphaFold que pretende prever as estruturas em três dimensões de proteínas baseada em sequência genética.

Seguem os links adicionais divulgados pela DeepMind:
1. Artigo na Science
2. Versão de acesso aberto em PDF
3. 20 Partidas AlphaZero-StockFish selecionadas pelo Grande Mestre Matthew Sadler em ZIP
4. 10 Partidas AlphaZero-Elmo selecionadas pelo Mestre de shogi Yoshiharu Habu em ZIP

terça-feira, 3 de abril de 2018

Inteligência Artificial - ao infinito e além - Parte Final

Apesar do longo intervalo, vamos para a segunda parte pois ela é igualmente interessante.

AlphaZero

Uma das novidades de inteligência artificial recentes mais interessantes é o AlphaZero. O AlphaZero é uma solução derivada do AlphaZero Go que foi desenvolvido pelo Google e pela Deep Mind.

A solução é constituída de um hardware e o software com um algoritmo codificado que "aprendeu" a jogar Go - um jogo chinês de alta complexidade. O AlphaZero Go venceu um campeão humano de Go. O aprendizado do AlphaZero Go foi por uma rede neural por reforço - aprendizado no qual o algoritmo aprende sem ser ensinado como uma tarefa deve ser realizada.

Jogo chinês Go

O AlphaZero é uma versão mais generalista do AlphaZero Go, o AlphaZero aprendeu duas coisas mais simples, xadrez e shogi (uma versão de xadrez jogado no Japão).

All About the Japanese Chess, Shogi! And an Easier Version ...

Shogi - o Xadrez japonês

Pois bem, o que qualifica o AlphaZero como digno de nota, o AlphaZero aprendeu a jogar xadrez por 4 horas e derrotou o software campeão do mundo de xadrez (Stockfish 8) em 100 partidas sendo 72 empates, 28 vitórias e nenhuma derrota. Tudo bem que o AlphaZero teve algumas vantagens como o hardware otimizado mas seu feito de partindo do zero conseguir organizar o conhecimento para jogar vários jogos e vencer um software especializado é marcante.

A IA empregada no AlphaZero pode ser empregada em muitas outras soluções. Uma dessas soluções - não é a mesma solução, porém um outro algoritmo - é o SEED (Search for Extraordinary Experiences Division) da Eletronic Arts - EA que tem ensinado a si mesmo a jogar o multiplayer do Battlefield 1. Veja a evolução do desempenho do SEED.

SEED aprendendo Battlefield 1

"Godhead - Deus Cabeça"

A outra novidade é um "Deus", há uma proposta para criar uma divindade baseada em IA. Esta iniciativa é de um engenheiro de computação, empreendedor, milionário que está envolto numa briga judicial entre Uber e Google chamado Anthony Levandowsky. A briga judicial não tem nenhuma relação com a proposta da divindade de IA. Levandowsky acredita em IA irá ultrapassar a inteligência humana possibilitando o crescimento tecnológico sem precedentes. Levandowsky registrou a organização religiosa chamada Way of the Future (WOFT) que conduzirá os homens ao entendimento e adoração do "Godhead" e assim contribuir com a melhoria da sociedade. A WOTF vai financiar a pesquisa que vai criar o "Godhead" a si mesmo pelo aprendizado. Não sei se ele conseguiu, mas há pelo menos um site da "igreja" em www.wayofthefuture.church em que há um resumo das crenças e um formulário para pessoas interessadas em seguir "Godhead". Levandowsky quer atrair principalmente entusiastas de IA para seguir nesta comunidade religiosa tecnológica.

Com esses exemplos bem diferentes e até inusitado eu espero ter demonstrado a variedade das soluções de IA que estão sendo propostas e invadindo o nosso mundo e nosso cotidiano.