E o computador aprendeu a blefar…

David Cohen

Primeiro foi o xadrez. Há quase vinte anos, em 1997, o Deep Blue, o mega-computador da IBM, venceu o campeão mundial Garry Kasparov. Mas esta foi a vitória da força bruta sobre a inteligência: o Deep Blue havia sido programado com todas as partidas de xadrez dos grandes mestres do passado e era capaz de avaliar 200 milhões de posições por segundo.

Ainda assim, ele provavelmente venceu porque errou – graças a um defeito de programação, fez uma jogada tão tacanha que Kasparov ficou paranoico, achando que o computador sabia algo que ele sequer imaginava o que fosse. Desestabilizado psicologicamente, o maior dos grandes mestres cometeu erros de um simples mestre nas partidas seguintes.

Então veio o Jeopardy, um jogo de perguntas e respostas na TV americana. O Watson, sucessor do Deep Blue, ganhou de dois ex-campeões em 2011, recebendo o prêmio de 1 milhão de dólares. Mais do que isso, provou que os computadores eram capazes de responder perguntas feitas em linguagem natural – o que abriu uma avenida para todos os sistemas de inteligência artificial.

No ano passado, outra fronteira foi ultrapassada. O computador Alpha Go, do Google, derrotou um dos maiores campeões de Go, o sul-coreano Lee Se-dol, por 4 a 1. Até então, pouca gente acreditava que um computador pudesse vencer, porque o Go é tão mais complexo que o xadrez (250 alternativas a cada jogada, ante “apenas” 35 no xadrez) que a estratégia da “força bruta” seria inócua.

De fato, era. Mas o sistema do Alpha Go era capaz de evoluir a partir de seus erros: ele “aprendeu” a reconhecer movimentos jogando inúmeras vezes consigo próprio. Era, em suma, uma combinação do Watson com o Deep Blue.

Restou aos humanos o campo da incerteza. Em situações sem tabuleiro, sem respostas corretas predeterminadas, os computadores não têm como nos enfrentar. Ou têm?

No dia 30 de janeiro, os computadores avançaram também sobre este terreno. Num torneio no Rivers Casino, em Pittsburgh, o programa de inteligência artificial Libratus derrotou quatro dos melhores jogadores profissionais de pôquer, na modalidade Texas Hold’em sem limite de apostas.

A definição do jogo é importante. Máquinas já vêm derrotando humanos em pôquer há algum tempo. Inclusive no Texas Hold’em de apostas limitadas. A diferença é que, sem restrição de apostas, a estrutura é mais livre e as regras não se aplicam com tanta firmeza (por exemplo, um jogador pode assumir a estratégia de perder seguidas vezes para fazer os demais acreditarem que ele sempre aposta de determinada maneira, e depois vencer uma única rodada com um valor 50 ou 100 vezes maior).

Isso significa que o jogo é repleto de incertezas. No xadrez e no Go, o tabuleiro está à vista. Não há blefe nem jogadas de duplo sentido. No pôquer, a tomada de decisões é bem mais complexa: você não sabe quais cartas o oponente tem e, portanto, por quais alternativas ele pode optar.

E na modalidade Texas Hold’em sem limite de apostas, a complexidade é potencializada. Como o resultado final não depende das vitórias em cada rodada, as estratégias podem envolver intervalos de dúzias de jogadas – algo muito parecido com a intuição humana.

O jogo de dados sem dados

O pôquer é mais parecido com a vida real, no sentido de que uma boa parte das informações de que precisamos para tomar as melhores decisões não está em nosso poder. Em outras palavras: é um jogo de informação imperfeita, como os mercados em que atuamos (por exemplo, o vendedor sabe quanto lhe custou o produto, o comprador não).

É disso que trata a teoria dos jogos, uma disciplina da economia e das ciências sociais que analisa quais as melhores alternativas levando em consideração as possíveis ações dos demais envolvidos, mesmo sem ter todas as informações necessárias.

Nesse campo, o avanço das máquinas foi irrefutável. Se no xadrez e no Go os placares foram razoavelmente apertados, a distância entre o computador e os humanos no pôquer foi estrondosa. O Libratus terminou o torneio de 20 dias e 120.000 rodadas com 1.766.250 dólares. Os quatro profissionais terminaram no vermelho (um prejuízo apenas virtual, as apostas eram simbólicas).

“O jogo foi bastante desmoralizante”, disse Jason Les, um dos oponentes do Libratus, que joga pôquer profissional há mais de uma década. Toda vez que os humanos experimentavam uma estratégia que parecia funcionar, o computador conseguia mudar suas respostas.

Segundo os oponentes humanos, Libratus – algo como “equilibrado”, em latim – é um nome apropriado para o sistema de inteligência artificial. Ele fazia um pouco de tudo: parecia saber quando blefar, quando apostar baixo mesmo tendo cartas muito boas, até mesmo a hora de mudar o jeito de apostar só para confundir os adversários, afirmou Daniel McAulay, outro dos jogadores derrotados pela máquina.

A racionalidade contra a intuição

O Libratus foi desenvolvido pelo professor Tuomas Sandholm e pelo estudante de doutorado Noam Brown, do departamento de ciência da computação na Universidade Carnegie Mellon, nos Estados Unidos. A cada noite, depois de mais de dez horas de jogo, um supercomputador analisava todas as jogadas do dia e tirava lições para tornar o algoritmo mais inteligente para o dia seguinte.

Parece injusto, mas os humanos faziam o mesmo: reuniam-se para debater estratégias e avaliar o desempenho do computador. Não adiantou muito. “Tentamos tudo o que podíamos, mas ele era forte demais”, disse Les à revista Wired.

Segundo seus criadores, o Libratus pode ser usado em diversos cenários que envolvam teoria dos jogos, como negociações políticas ou entre empresas, operações militares, investimentos no mercado financeiro…

“Os computadores não vão necessariamente substituir os humanos, mas podem elevar seu raciocínio estratégico e seu poder de negociação a um outro nível, funcionando como uma ferramenta de apoio”, disse Sandholm.

Há precedentes. No xadrez, os torneios mais complexos hoje envolvem equipes que combinam humanos e máquinas. Mesmo o campeão humano atual, Magnus Carlsen, teve extenso treinamento com computadores.

Fora dos jogos, há ainda mais comparações: não há jato comercial que voe, hoje em dia, sem o auxílio de sistemas de navegação. Em que pese algumas falhas que resultaram em centenas de mortes (como no caso do voo 447 da Air France, entre o Rio de Janeiro e Paris, em 2009), o número de acidentes por quilômetro voado caiu sensivelmente.

Mas um cenário semelhante no campo da tomada de decisões ainda está provavelmente bem distante. Ainda que tivesse quatro competidores, o jogo era sempre uma disputa de um contra um; na vida real, a maioria das situações envolve múltiplos agentes.

Além disso, embora não tenha informações perfeitas, o jogo de pôquer tem parâmetros definidos e uma escala de resultados: uma dupla de ases bate uma dupla de reis, uma sequência do mesmo naipe bate uma mão que tenha uma trinca e uma dupla. Na vida real, a vitória pode ter significados bastante diferentes para pessoas diferentes – o que possibilita inclusive que os jogos terminem com a vitória de ambos os lados.

Talvez o grande vencedor do experimento de Sandholm e Brown não seja tanto a inteligência artificial, mas um dos dois campos majoritários da disciplina da tomada de decisões. O Libratus fornece bons indícios de que a boa e velha racionalidade, com suficiente poder de computação, dá resultados melhores do que a intuição.