Atualmente, três dos sistemas de IA mais avançados — GPT 5.2, Claude Opus 4.5 e Gemini 3 Pro — estão em uma disputa ao vivo no Twitch para vencer jogos clássicos de Pokémon. Apesar do potencial, eles demonstram lentidão, confiança excessiva e confusão frequente, evidenciando limitações atuais dessas tecnologias.
O desafio de dominar Pokémon para a IA
O esforço começou em fevereiro, quando um pesquisador da Anthropic transmitiu Claude jogando Pokémon Red do Game Boy de 1996. O objetivo era mostrar a capacidade do modelo de jogar o jogo, que na época era considerado um marco de avanço. Embora o Claude Sonnet 3.7 tivesse dificuldades, a performance melhorou com o Claude Opus 4.5, que às vezes fica horas preso em tarefas simples, como perceber que precisa cortar uma árvore para avançar.
Por outro lado, os modelos da Google, como o Gemini, que completaram jogos similares em maio, utilizam diferentes “harnesses” — um conceito de equipamento que fornece ferramentas adicionais ao sistema de IA. Segundo Joel Zhang, desenvolvedor independente, esses harnesses funcionam como “trocas de roupas” que aumentam o desempenho, por exemplo, ao traduzir imagens do jogo para texto ou ao usar ferramentas específicas para resolver quebra-cabeças.
Desafios na avaliação de habilidades de IA em Pokémon
Pokémon é um teste interessante para IA por sua natureza por turno e ausência de pressão de tempo, diferentemente de jogos como Mario. Os sistemas recebem uma captura de tela e uma instrução, pensam e tomam uma decisão — um processo que exige raciocínio sequencial. Por exemplo, o Claude Opus 4.5, que já jogou mais de 500 horas, está na etapa 170.000, construindo seu progresso com memória limitada a cada tentativa.
Por que sistemas superhumanos em outros jogos fracassam aqui
Surpreendentemente, IA que superam humanos em xadrez e Go apresentam dificuldades em Pokémon, considerado simples por crianças de seis anos. Fato é que esses sistemas são projetados especificamente para xadrez ou Go, enquanto as IA atuais, como Gemini, Claude e ChatGPT, são modelos mais gerais. Ainda assim, seu desempenho inferior neste desafio revela áreas a serem aprimoradas na compreensão e execução autônoma de tarefas sequenciais.
Implicações e perspectivas futuras
Estas dificuldades destacam os limites atuais de IA geral para tarefas que exigem raciocínio, ação autônoma e adaptação, mesmo em jogos aparentemente simples. Pesquisadores continuam explorando formas de melhorar a autonomia e a compreensão dessas máquinas, buscando um dia superar suas limitações no mundo real.

