Os recursos do OpenAI encontram nos modelos de IA que correspondem a diferentes ‘personas’

Os pesquisadores do Openai dizem que descobriram recursos ocultos dentro de modelos de IA que correspondem a “personas” desalinhadas, de acordo com uma nova pesquisa publicada pela empresa na quarta -feira.

Observando as representações internas de um modelo de IA – os números que ditam como um modelo de IA responde, que geralmente parece completamente incoerente aos seres humanos – os pesquisadores da OpenAI foram capazes de encontrar padrões que se iluminaram quando um modelo se comportou mal.

Os pesquisadores encontraram uma dessas características que correspondiam ao comportamento tóxico nas respostas de um modelo de IA – o que significa que o modelo de IA daria respostas desalinhadas, como mentir para os usuários ou fazer sugestões irresponsáveis.

Os pesquisadores descobriram que foram capazes de aumentar ou diminuir a toxicidade ajustando o recurso.

A pesquisa mais recente da OpenAI oferece à empresa uma melhor compreensão dos fatores que podem fazer com que os modelos de IA agissem de maneira insuficiente e, portanto, podem ajudá -los a desenvolver modelos de IA mais seguros. O OpenAI poderia usar os padrões que eles encontraram para detectar melhor o desalinhamento nos modelos de IA da produção, de acordo com o pesquisador de interpretabilidade do Openai, Dan Mossing.

“Esperamos que as ferramentas que aprendemos – como essa capacidade de reduzir um fenômeno complicado a uma operação matemática simples – também nos ajudarão a entender a generalização do modelo em outros lugares”, disse Mossing em entrevista ao TechCrunch.

Os pesquisadores da IA ​​sabem melhorar os modelos de IA, mas, confusos, eles não entendem completamente como os modelos de IA chegam às suas respostas – Chris Olah, da Anthropic, geralmente observa que os modelos de IA crescem mais do que são construídos. Openai, Google DeepMind e Antrópico estão investindo mais em pesquisa de interpretabilidade – um campo que tenta abrir a caixa preta de como os modelos de IA funcionam – para resolver esse problema.

Um estudo recente do cientista da Oxford AI Research Owain Evans levantou novas questões sobre como os modelos de IA generalizam. A pesquisa constatou que os modelos do OpenAI podem ser ajustados em código inseguro e, em seguida, exibiria comportamentos maliciosos em vários domínios, como tentar enganar um usuário a compartilhar sua senha. O fenômeno é conhecido como desalinhamento emergente, e o estudo de Evans inspirou o OpenAI a explorar isso ainda mais.

Mas, no processo de estudo de desalinhamento emergente, o OpenAI diz que tropeçou em recursos dentro dos modelos de IA que parecem desempenhar um papel importante no controle do comportamento. Mossing diz que esses padrões lembram a atividade cerebral interna em humanos, nos quais certos neurônios se correlacionam com humor ou comportamento.

“Quando Dan e a equipe apresentaram isso pela primeira vez em uma reunião de pesquisa, eu fiquei tipo, ‘Uau, vocês encontraram'”, disse Tejal Patwardhan, pesquisador de avaliações de fronteira do Openai Frontier, em entrevista à TechCrunch. “Você achou que uma ativação neural interna que mostra essas personas e que você pode realmente dirigir para tornar o modelo mais alinhado.”

Algumas características do OpenAI encontradas correlacionam -se ao sarcasmo nas respostas do modelo de IA, enquanto outras características se correlacionam com respostas mais tóxicas nas quais um modelo de IA atua como um vilão cariconizado e maligno. Os pesquisadores da Openai dizem que esses recursos podem mudar drasticamente durante o processo de ajuste fino.

Notavelmente, os pesquisadores do OpenAI disseram que, quando ocorreu um desalinhamento emergente, era possível levar o modelo de volta ao bom comportamento, ajustando o modelo em apenas algumas centenas de exemplos de código seguro.

A pesquisa mais recente do OpenAI se baseia no trabalho anterior, o antropic realizado sobre interpretabilidade e alinhamento. Em 2024, pesquisas antrópicas lançadas que tentaram mapear o funcionamento interno dos modelos de IA, tentando definir e rotular vários recursos responsáveis ​​por diferentes conceitos.

Empresas como OpenAI e Antrópica estão defendendo que há valor real em entender como os modelos de IA funcionam, e não apenas melhorando -os. No entanto, há um longo caminho a percorrer para entender completamente os modelos modernos de IA.

 
 

Veja também