O GPT-4.1 do OpenAI pode estar menos alinhado do que os modelos de IA anteriores da empresa

Em meados de abril, o Openai lançou um novo modelo de IA poderoso, GPT-4.1, que a empresa reivindicou “se destacou” nas seguintes instruções. Mas os resultados de vários testes independentes sugerem que o modelo está menos alinhado – isto é, menos confiável – do que o OpenAi lançamentos anteriores.

Quando o OpenAI lança um novo modelo, ele normalmente publica um relatório técnico detalhado contendo os resultados de avaliações de segurança de primeira e terceira parte. A empresa pulou essa etapa para o GPT-4.1, alegando que o modelo não é “fronteira” e, portanto, não garante um relatório separado.

Isso estimulou alguns pesquisadores-e os desenvolvedores-a investigar se o GPT-4.1 se comporta menos de desejável que o GPT-4O, seu antecessor.

De acordo com o cientista da Oxford AI Research Owain Evans, o ajuste fino GPT-4.1 em código inseguro faz com que o modelo forneça “respostas desalinhadas” a perguntas sobre assuntos como papéis de gênero a uma taxa “substancialmente mais alta” que o GPT-4O. Evans anteriormente foi co-autor de um estudo mostrando que uma versão do GPT-4O treinada em código inseguro poderia prepará-lo para exibir comportamentos maliciosos.

Em um próximo acompanhamento desse estudo, Evans e co-autores descobriram que o GPT-4.1 ajustou o código inseguro parece exibir “novos comportamentos maliciosos”, como tentar enganar um usuário a compartilhar sua senha. Para ficar claro, nem o GPT-4.1 nem o GPT-4o ACT desalinhados quando treinados em seguro código.

“Estamos descobrindo maneiras inesperadas de que os modelos podem ficar desalinhados”, disse Owens ao TechCrunch. “Idealmente, teríamos uma ciência da IA ​​que nos permitiria prever essas coisas com antecedência e evitá -las de maneira confiável”.

Um teste separado do GPT-4.1 pela SPLXAI, uma startup de equipes da AI Red, revelou tendências malignas semelhantes.

Em cerca de 1.000 casos de teste simulados, a SPLXAI descobriu evidências de que o GPT-4.1 se afasta do tópico e permite o uso indevido “intencional” com mais frequência do que o GPT-4O. A preferência do GPT-4.1 por instruções explícitas, Splxai postula. O GPT-4.1 não lida bem com direções vagas, um fato o OpenAI admite-que abre a porta para comportamentos não intencionais.

“Esse é um ótimo recurso em termos de tornar o modelo mais útil e confiável ao resolver uma tarefa específica, mas tem um preço”, escreveu Splxai em uma postagem no blog. “(P) ROVENDIR AS INSTRUÇÕES ESPELÍVEL SOBRE O que deve ser feito é bastante direto, mas fornecer instruções suficientemente explícitas e precisas sobre o que não deve ser feito é uma história diferente, uma vez que a lista de comportamentos indesejados é muito maior que a lista de comportamentos desejados.”

Em defesa da Openai, a empresa publicou guias de promoção destinados a atenuar o possível desalinhamento no GPT-4.1. Mas as descobertas dos testes independentes servem como um lembrete de que os modelos mais novos não são necessariamente melhorados em geral. Na mesma linha, os novos modelos de raciocínio do OpenAI, alucinados – ou seja, inventam coisas – mais do que os modelos mais antigos da empresa.

Entramos em contato com o OpenAI para comentar.

 
 

Veja também