A OpenAI está se movendo para publicar os resultados de suas avaliações internas de segurança de modelo de IA mais regularmente no que a roupa está dizendo é um esforço para aumentar a transparência.
Na quarta -feira, o OpenAI lançou o Hub de Avaliações de Segurança, uma página da Web mostrando como os modelos da empresa marcam em vários testes para geração prejudicial de conteúdo, jailbreaks e alucinações. O OpenAI diz que usará o hub para compartilhar métricas de forma “contínua” e que pretende atualizar o hub com “principais atualizações de modelo” daqui para frente.
Apresentando o Hub de Avaliações de Segurança – um recurso para explorar os resultados de segurança para nossos modelos.
Enquanto os cartões do sistema compartilham métricas de segurança no lançamento, o hub será atualizado periodicamente como parte de nossos esforços para se comunicar proativamente sobre a segurança.https: //t.co/c8ngmxlc2y
– Openai (@openai) 14 de maio de 2025
“À medida que a ciência da avaliação da IA evolui, nosso objetivo é compartilhar nosso progresso no desenvolvimento de maneiras mais escaláveis de medir a capacidade e a segurança do modelo”, escreveu o OpenAI em uma postagem no blog. “Ao compartilhar um subconjunto de nossos resultados de avaliação de segurança aqui, esperamos que isso não apenas facilite o entendimento do desempenho de segurança dos sistemas OpenAI ao longo do tempo, mas também apoie os esforços da comunidade para aumentar a transparência em todo o campo”.
O Openai diz que pode adicionar avaliações adicionais ao hub ao longo do tempo.
Nos últimos meses, o OpenAI elevou a ira de alguns ética para apressar o teste de segurança de certos modelos de carro -chefe e não liberar relatórios técnicos para outros. O CEO da empresa, Sam Altman, também é acusado de enganar os executivos do OpenAI sobre críticas de segurança de modelo antes de sua breve expulsão em novembro de 2023.
No final do mês passado, o OpenAI foi forçado a reverter uma atualização para o modelo padrão alimentando ChatGPT, GPT-4O, depois que os usuários começaram a relatar que ele respondeu de uma maneira excessivamente validada e agradável. X tornou -se inundado com capturas de tela de chatgpt aplaudindo todos os tipos de decisões e idéias problemáticas e perigosas.
O OpenAI disse que implementaria várias correções e alterações para impedir futuros incidentes, incluindo a introdução de uma “fase alfa” de inscrição para alguns modelos que permitiriam que certos usuários do ChatGPT testassem os modelos e forneçam feedback antes do lançamento.