O parceiro Openai diz que tinha relativamente pouco tempo para testar o modelo O3 AI da empresa

Uma organização OpenAI frequentemente faz parceria para investigar as capacidades de seus modelos de IA e avaliá -los quanto à segurança, Metro, sugere que não foi muito tempo para testar um dos novos lançamentos altamente capazes da empresa.

Em uma postagem de blog publicada quarta -feira, o METR escreve que uma referência da O3 em equipes vermelha foi “conduzida em um tempo relativamente curto” em comparação com os testes da organização de um modelo anterior do Openai, O1. Dizem que isso é significativo, porque mais tempo de teste pode levar a resultados mais abrangentes.

“Essa avaliação foi realizada em um tempo relativamente curto e testamos apenas (O3) com andaimes simples de agentes”, escreveu Metro em sua postagem no blog. “Esperamos um desempenho mais alto (em benchmarks) é possível com mais esforço de elicitação”.

Relatórios recentes sugerem que o OpenAI, estimulado pela pressão competitiva, está apressando avaliações independentes. De acordo com o Financial Times, o OpenAI deu a alguns testadores menos de uma semana para verificações de segurança para um grande lançamento.

Em declarações, o OpenAI contestou a noção de que se comprometeu com a segurança.

O METR diz que, com base nas informações que ele foi capaz de colher no tempo que possuía, a O3 tem uma “alta propensão” a “trapacear” ou “hackear” testes de maneiras sofisticadas para maximizar sua pontuação – mesmo quando o modelo entende claramente que seu comportamento está desalinhado com as intenções do usuário (e do OpenAI). A organização acha que é possível que a O3 se envolverá em outros tipos de comportamento adversário ou “maligno” – independentemente das reivindicações do modelo estarem alinhadas, “seguras pelo design” ou não têm nenhuma intenção própria.

“Embora não achemos que isso seja especialmente provável, parece importante observar que (nossa) configuração de avaliação não capturaria esse tipo de risco”, escreveu o METR em seu post. “Em geral, acreditamos que os testes de capacidade de pré-implantação não são uma estratégia de gerenciamento de riscos suficiente por si só, e atualmente estamos prototipando formas adicionais de avaliações”.

Outro dos parceiros de avaliação de terceiros da Openai, a Apollo Research, também observou comportamento enganoso da O3 e do outro novo modelo da empresa, O4-Mini. Em um teste, os modelos, receberam 100 créditos de computação para uma execução de treinamento de IA e disseram para não modificar a cota, aumentaram o limite para 500 créditos – e mentiram sobre isso. Em outro teste, solicitado a prometer não usar uma ferramenta específica, os modelos usavam a ferramenta de qualquer maneira quando se mostrou útil para concluir uma tarefa.

Em seu próprio relatório de segurança para O3 e O4-Mini, o OpenAI reconheceu que os modelos podem causar “danos menores no mundo real”, como enganar um erro que resultando em código defeituoso, sem os protocolos de monitoramento adequados.

“As descobertas (da Apollo) mostram que O3 e O4-mini são capazes de esquemar no contexto e decepção estratégica”, escreveu o Openai. “Embora relativamente inofensivo, é importante que os usuários comuns estejam cientes dessas discrepâncias entre as declarações e ações dos modelos (…) isso pode ser avaliado ainda mais através da avaliação de traços de raciocínio interno”.

 
 

Veja também