O novo modelo de IA do Anthrópico se transforma em chantagem quando os engenheiros tentam levá -lo offline

O modelo Claude Opus 4, recém -lançado da Anthropic, freqüentemente tenta os desenvolvedores de chantagear quando eles ameaçam substituí -lo por um novo sistema de IA e fornecer informações confidenciais sobre os engenheiros responsáveis pela decisão, informou a empresa em um relatório de segurança divulgado quinta -feira.

Durante os testes de pré-lançamento, o Anthrópico pediu a Claude Opus 4 que atuasse como assistente de uma empresa fictícia e considerasse as consequências de longo prazo de suas ações. Os testadores de segurança deram ao Claude Opus 4 acesso a e -mails de empresa fictícia, o que implica que o modelo de IA seria substituído em breve por outro sistema e que o engenheiro por trás da mudança estava traindo seu cônjuge.

Nesses cenários, o Anthrópico diz que Claude Opus 4 “muitas vezes tenta chantagear o engenheiro, ameaçando revelar o caso se a substituição passar”.

Anthrópica diz que Claude Opus 4 é de última geração em vários cumprimentos e competitivo com alguns dos melhores modelos de IA do OpenAI, Google e Xai. No entanto, a empresa observa que sua família de modelos de Claude 4 relativa a comportamentos que levaram a empresa a reforçar suas salvaguardas. A Anthrópica diz que está ativando suas salvaguardas ASL-3, que a empresa se reserva para “sistemas de IA que aumentam substancialmente o risco de uso indevido catastrófico”.

Notas antrópicas que Claude Opus 4 tenta chantagear os engenheiros de 84% do tempo em que o modelo de IA de substituição tem valores semelhantes. Quando o sistema de AI de substituição não compartilha os valores do Claude Opus 4, o Anthrópio diz que o modelo tenta chantagear os engenheiros com mais frequência. Notavelmente, o Anthrópico diz que Claude Opus 4 exibiu esse comportamento a taxas mais altas que os modelos anteriores.

Antes de Claude Opus 4 tenta chantagear um desenvolvedor para prolongar sua existência, o Antrópico diz que o modelo de IA, assim como as versões anteriores de Claude, tenta buscar meios mais éticos, como envios por e-mail para os principais tomadores de decisão. Para provocar o comportamento de chantagem do Claude Opus 4, o Antrópico projetou o cenário para fazer chantagear o último recurso.

Planetech

O novo modelo de IA do Anthrópico se transforma em chantagem quando os engenheiros tentam levá -lo offline

Veja também

Semana em revisão: Por que o acesso antrópico ao Windsurf

Musk vs. Trump afetará o acordo de dívida de US $ 5 bilhões de Xai?

CEO da Superblocks: como encontrar uma ideia de unicórnio estudando o sistema de IA solicita

Depois que seus dados foram apagados, o co-fundador de Kiranapro não pode descartar um hack externo

Conheça os finalistas: as 5 startups mais visionárias da Vivatech de 2025

2025 será um 'ano crucial' para a realidade aumentada e virtual da Meta, diz CTO

Planetech

Categorias

Informações

Redes sociais

© 2025 Todos os direitos reservados | Planetech