Os novos modelos GPT-4.1 da AI do OpenAI se concentram na codificação

A Openai lançou na segunda-feira uma nova família de modelos chamada GPT-4.1. Sim, “4.1” – como se a nomenclatura da empresa já não fosse confusa.

Há GPT-4.1, GPT-4.1 Mini e GPT-4.1 Nano, o que o Openai diz “Excel” na codificação e nas instruções seguintes. Disponível através da API do OpenAI, mas não do ChatGPT, os modelos multimodais têm uma janela de contexto de 1 milhão de toques, o que significa que eles podem receber aproximadamente 750.000 palavras de uma só vez (mais que “guerra e paz”).

O GPT-4.1 chega como rivais do Openai, como o Google e os esforços antropia de Ratchet para criar modelos de programação sofisticados. O Gemini 2.5 Pro, lançado recentemente do Google, que também possui uma janela de contexto de 1 milhão de toques, ocupa altamente os benchmarks de codificação populares. O mesmo acontece com o Claude de 3,7 sonetos da Anthropic e a startup chinesa da AI Deepseek V3 atualizada.

É o objetivo de muitos gigantes da tecnologia, incluindo o OpenAI, para treinar modelos de codificação de IA capazes de executar tarefas complexas de engenharia de software. A Grande Ambição do Openai é criar um “Engenheiro de Software Agentic”, como a CFO Sarah Friar colocou durante uma cúpula de tecnologia em Londres no mês passado. A Companhia afirma que seus modelos futuros poderão programar aplicativos inteiros de ponta a ponta, como garantia de qualidade, teste de bugs e redação de documentação.

GPT-4.1 é um passo nessa direção.

“Otimizamos o GPT-4.1 para uso do mundo real com base em feedback direto para melhorar em áreas que os desenvolvedores mais se preocupam: codificação de front-end, fazendo menos edições estranhas, seguindo formatos de maneira confiável, aderindo à estrutura de respostas e pedidos, uso consistente de ferramentas e muito mais”, disse um porta-voz do OpenAi à TechCrunch via e-mail. “Essas melhorias permitem que os desenvolvedores construam agentes que sejam consideravelmente melhores em tarefas de engenharia de software do mundo real”.

O OpenAI afirma que o modelo GPT-4.1 completo supera seus modelos GPT-4O e GPT-4O em codificação de referência, incluindo o SWE-banch. Diz-se que o GPT-4.1 Mini e o nano são mais eficientes e mais rápidos ao custo de alguma precisão, com o Openai dizendo que o GPT-4.1 Nano é o modelo mais rápido-e mais barato de todos os tempos.

O GPT-4.1 custa US $ 2 por milhão de tokens de entrada e US $ 8 por milhão de tokens de produção. O GPT-4.1 Mini é de US $ 0,40/m de tokens de entrada e tokens de saída de US $ 1,60/m, e o Nano GPT-4.1 é de US $ 0,10/m de tokens de entrada e tokens de saída de US $ 0,40/m.

De acordo com os testes internos da OpenAI, o GPT-4.1, que pode gerar mais tokens ao mesmo tempo do que o GPT-4O (32.768 versus 16.384), pontuou entre 52% e 54,6% na verificação do banco de SWE, um subconjunto validado pelo homem da bancada de SWE. (Openied observou em um post de blog que algumas soluções para problemas verificados do SWE-BEMN não conseguiram executar sua infraestrutura, portanto, a gama de pontuações.) Esses números estão ligeiramente sob as pontuações relatadas pelo Google e antropia para Gemini 2.5 Pro (63,8%) e Claude 3,7 Sonnet (62,3%), respectivamente, na mesma referência.

Em uma avaliação separada, o OpenAI sondou o GPT-4.1 usando o Video-MME, projetado para medir a capacidade de um modelo de “entender” o conteúdo em vídeos. O GPT-4.1 atingiu uma precisão de 72% no topo do gráfico na categoria de vídeo “Longa, sem legendas”, afirma o OpenAI.

Embora o GPT-4.1 tenha pontuado razoavelmente bem em benchmarks e tenha um “corte de conhecimento” mais recente, dando a ele um quadro de referência melhor para os eventos atuais (até junho de 2024), é importante ter em mente que mesmo alguns dos melhores modelos hoje lutam com tarefas que não teriam os especialistas. Por exemplo, muitos estudos mostraram que os modelos de geração de código geralmente não conseguem corrigir e até introduzir vulnerabilidades e bugs de segurança.

O OpenAI também reconhece que o GPT-4.1 se torna menos confiável (ou seja, um guia para cometer erros), mais tokens de entrada ele precisará lidar. Em um dos próprios testes da empresa, o OpenAI-MRCR, a precisão do modelo diminuiu de cerca de 84% com 8.000 tokens para 50% com 1.024 tokens. O GPT-4.1 também tendia a ser mais “literal” do que o GPT-4O, diz que a empresa, às vezes exigindo instruções mais específicas e explícitas.

 
 

Veja também