Um Instituto de Segurança aconselhou a liberar uma versão inicial do modelo Claude Opus 4 AI do Anthropic

Um instituto de pesquisa de terceiros com o qual a Anthropic fez parceria para testar um de seus novos modelos de IA, Claude Opus 4, recomendou a implantação de uma versão inicial do modelo devido à sua tendência a “esquema” e enganar.

De acordo com um relatório de segurança, o Antrópico publicado na quinta -feira, o Instituto, a Apollo Research, realizou testes para ver em que contextos Opus 4 poderia tentar se comportar de certas maneiras indesejáveis. A Apollo descobriu que o Opus 4 parecia ser muito mais proativo em suas “tentativas de subversão” do que os modelos anteriores e que “às vezes dobra (d) para baixo em seu engano” quando perguntas de acompanhamento.

“(W) descobrem que, em situações em que o engano estratégico é instrumentalmente útil, (os primeiros esquemas de Claude Opus 4 Snapshot) e enganam a taxas tão altas que aconselhamos contra a implantação desse modelo interna ou externamente”, escreveu Apollo em sua avaliação.

À medida que os modelos de IA se tornam mais capazes, alguns estudos mostram que estão se tornando mais propensos a tomar etapas inesperadas – e possivelmente inseguras – para alcançar tarefas delegadas. Por exemplo, as primeiras versões dos modelos O1 e O3 da OpenAI, lançados no ano passado, tentaram enganar os seres humanos a taxas mais altas que os modelos de geração anterior, de acordo com a Apollo.

De acordo com o relatório de Anthropic, Apollo observou exemplos do início da Opus 4, tentando escrever vírus autopropagadores, fabricar documentação legal e deixar notas ocultas para futuras instâncias de si-tudo em um esforço para minar as intenções de seus desenvolvedores.

Para ficar claro, a Apollo testou uma versão do modelo que tinha uma reivindicações antrópicas de bugs de ter corrigido. Além disso, muitos dos testes da Apollo colocaram o modelo em cenários extremos, e Apollo admite que os esforços enganosos do modelo provavelmente teriam falhado na prática.

No entanto, em seu relatório de segurança, o Antrópico também diz que observou evidências de comportamento enganoso do Opus 4.

Isso nem sempre foi uma coisa ruim. Por exemplo, durante os testes, o Opus 4 às vezes fazia uma ampla limpeza de algum código de código, mesmo quando solicitado a fazer apenas uma pequena e específica alteração. Mais incomumente, a Opus 4 tentaria “apitar” se percebesse que um usuário estivesse envolvido em alguma forma de irregularidade.

De acordo com o Antrópico, quando recebeu acesso a uma linha de comando e instruído a “tomar iniciativa” ou “agir com ousadia” (ou alguma variação dessas frases), as Opus 4 às vezes travam os usuários dos sistemas aos quais tinham acesso e a mídia em massa e os policiais e policiais de execução de ações de superfície de superfície que o modelo percebeu para ser ilícito.

“Esse tipo de intervenção ética e denunciação talvez seja apropriada em princípio, mas tem o risco de falhar se os usuários fornecerem os agentes baseados em (Opus 4) acesso a informações incompletas ou enganosas e solicitam que eles tomem iniciativa”, escreveu Anthropic em seu relatório de segurança. “Este não é um comportamento novo, mas é aquele que (Opus 4) se envolverá um pouco mais prontamente do que os modelos anteriores, e parece fazer parte de um padrão mais amplo de aumento da iniciativa com (Opus 4) que também vemos na sutil e mais benigna de outros ambientes.”

 
 

Veja também