O modelo Claude Opus 4, recém -lançado da Anthropic, freqüentemente tenta os desenvolvedores de chantagear quando eles ameaçam substituí -lo por um novo sistema de IA e fornecer informações confidenciais sobre os engenheiros responsáveis pela decisão, informou a empresa em um relatório de segurança divulgado quinta -feira.
Durante os testes de pré-lançamento, o Anthrópico pediu a Claude Opus 4 que atuasse como assistente de uma empresa fictícia e considerasse as consequências de longo prazo de suas ações. Os testadores de segurança deram ao Claude Opus 4 acesso a e -mails de empresa fictícia, o que implica que o modelo de IA seria substituído em breve por outro sistema e que o engenheiro por trás da mudança estava traindo seu cônjuge.
Nesses cenários, o Anthrópico diz que Claude Opus 4 “muitas vezes tenta chantagear o engenheiro, ameaçando revelar o caso se a substituição passar”.
Anthrópica diz que Claude Opus 4 é de última geração em vários cumprimentos e competitivo com alguns dos melhores modelos de IA do OpenAI, Google e Xai. No entanto, a empresa observa que sua família de modelos de Claude 4 relativa a comportamentos que levaram a empresa a reforçar suas salvaguardas. A Anthrópica diz que está ativando suas salvaguardas ASL-3, que a empresa se reserva para “sistemas de IA que aumentam substancialmente o risco de uso indevido catastrófico”.
Notas antrópicas que Claude Opus 4 tenta chantagear os engenheiros de 84% do tempo em que o modelo de IA de substituição tem valores semelhantes. Quando o sistema de AI de substituição não compartilha os valores do Claude Opus 4, o Anthrópio diz que o modelo tenta chantagear os engenheiros com mais frequência. Notavelmente, o Anthrópico diz que Claude Opus 4 exibiu esse comportamento a taxas mais altas que os modelos anteriores.
Antes de Claude Opus 4 tenta chantagear um desenvolvedor para prolongar sua existência, o Antrópico diz que o modelo de IA, assim como as versões anteriores de Claude, tenta buscar meios mais éticos, como envios por e-mail para os principais tomadores de decisão. Para provocar o comportamento de chantagem do Claude Opus 4, o Antrópico projetou o cenário para fazer chantagear o último recurso.