Debates sobre o benchmarking da IA chegaram a Pokémon

Nem mesmo o Pokémon está a salvo da controvérsia de benchmarking de IA.

Na semana passada, um post no X se tornou viral, alegando que o mais recente modelo de Gemini do Google superou o modelo Claude do Anthropic na trilogia original de videogame Pokémon. Alegadamente, Gêmeos chegou à cidade de Lavendar no fluxo de contração de um desenvolvedor; Claude estava preso em Mount Moon no final de fevereiro.

Gêmeos está literalmente à frente do caixa eletrônico de Claude em Pokemon depois de chegar à cidade de lavanda

119 Vistas ao vivo apenas btw, fluxo incrivelmente subestimado pic.twitter.com/8avsovai4x

– você (@you21e8) 10 de abril de 2025

Mas o que o post não mencionou é que Gemini tinha uma vantagem.

À medida que os usuários do Reddit apontaram, o desenvolvedor que mantém o fluxo de Gemini construiu um minimapa personalizada que ajuda o modelo a identificar “ladrilhos” no jogo como árvores de corte de corte. Isso reduz a necessidade de Gemini analisar capturas de tela antes de tomar decisões de jogabilidade.

Agora, o Pokémon é um benchmark semi-sério de IA, na melhor das hipóteses-poucos argumentariam que é um teste muito informativo das capacidades de um modelo. Mas isso é Um exemplo instrutivo de como diferentes implementações de uma referência pode influenciar os resultados.

Por exemplo, a antropia relatou duas pontuações para seu recente modelo antrópico de 3,7 sonetos no referência SWE-banche verificado, projetado para avaliar as habilidades de codificação de um modelo. Claude 3,7 soneto alcançou 62,3% de precisão no SWE-banch verificou, mas 70,3% com um “andaime personalizado” que o antrópico desenvolveu.

Mais recentemente, meta ajustou uma versão de um de seus modelos mais recentes, o Llama 4 Maverick, para ter um bom desempenho em uma referência específica, LM Arena. A versão de baunilha do modelo pontuações significativamente pior na mesma avaliação.

Dado que os benchmarks de IA-incluídos no Pokémon-são medidas imperfeitas, para começar, implementações personalizadas e não padronizadas ameaçam enlamear ainda mais as águas. Ou seja, não parece provável que fique mais fácil comparar modelos conforme lançado.

Planetech

Debates sobre o benchmarking da IA chegaram a Pokémon

Veja também

Estrada para Battlefield: Porta de entrada da Eurásia Central para a inicialização do TechCrunch Battlefield

Catalio Capital fecha mais de US $ 400m Fund IV

Kleida Martiro está liderando a conversa em escala da IA no TC em todos os estágios

Melhores aplicativos para iPad para aumentar a produtividade e facilitar sua vida

Cathy Gao está trazendo o verdadeiro manual para o TC All Stage

A Amazon implanta seu 1 milionésimo robô, libera o modelo de IA generativo

Planetech

Categorias

Informações

Redes sociais

© 2025 Todos os direitos reservados | Planetech

Planetech

Debates sobre o benchmarking da IA ​​chegaram a Pokémon

Veja também

Estrada para Battlefield: Porta de entrada da Eurásia Central para a inicialização do TechCrunch Battlefield

Catalio Capital fecha mais de US $ 400m Fund IV

Kleida Martiro está liderando a conversa em escala da IA ​​no TC em todos os estágios

Melhores aplicativos para iPad para aumentar a produtividade e facilitar sua vida

Cathy Gao está trazendo o verdadeiro manual para o TC All Stage

A Amazon implanta seu 1 milionésimo robô, libera o modelo de IA generativo

Planetech

Categorias

Informações

Redes sociais

© 2025 Todos os direitos reservados | Planetech

Debates sobre o benchmarking da IA chegaram a Pokémon

Kleida Martiro está liderando a conversa em escala da IA no TC em todos os estágios