Nem mesmo o Pokémon está a salvo da controvérsia de benchmarking de IA.
Na semana passada, um post no X se tornou viral, alegando que o mais recente modelo de Gemini do Google superou o modelo Claude do Anthropic na trilogia original de videogame Pokémon. Alegadamente, Gêmeos chegou à cidade de Lavendar no fluxo de contração de um desenvolvedor; Claude estava preso em Mount Moon no final de fevereiro.
Gêmeos está literalmente à frente do caixa eletrônico de Claude em Pokemon depois de chegar à cidade de lavanda
119 Vistas ao vivo apenas btw, fluxo incrivelmente subestimado pic.twitter.com/8avsovai4x
– você (@you21e8) 10 de abril de 2025
Mas o que o post não mencionou é que Gemini tinha uma vantagem.
À medida que os usuários do Reddit apontaram, o desenvolvedor que mantém o fluxo de Gemini construiu um minimapa personalizada que ajuda o modelo a identificar “ladrilhos” no jogo como árvores de corte de corte. Isso reduz a necessidade de Gemini analisar capturas de tela antes de tomar decisões de jogabilidade.
Agora, o Pokémon é um benchmark semi-sério de IA, na melhor das hipóteses-poucos argumentariam que é um teste muito informativo das capacidades de um modelo. Mas isso é Um exemplo instrutivo de como diferentes implementações de uma referência pode influenciar os resultados.
Por exemplo, a antropia relatou duas pontuações para seu recente modelo antrópico de 3,7 sonetos no referência SWE-banche verificado, projetado para avaliar as habilidades de codificação de um modelo. Claude 3,7 soneto alcançou 62,3% de precisão no SWE-banch verificou, mas 70,3% com um “andaime personalizado” que o antrópico desenvolveu.
Mais recentemente, meta ajustou uma versão de um de seus modelos mais recentes, o Llama 4 Maverick, para ter um bom desempenho em uma referência específica, LM Arena. A versão de baunilha do modelo pontuações significativamente pior na mesma avaliação.
Dado que os benchmarks de IA-incluídos no Pokémon-são medidas imperfeitas, para começar, implementações personalizadas e não padronizadas ameaçam enlamear ainda mais as águas. Ou seja, não parece provável que fique mais fácil comparar modelos conforme lançado.