Pedir chatbots para respostas curtas pode aumentar as alucinações, o estudo encontra

Acontece, dizer a um chatbot da IA ​​para ser conciso poderia torná -lo alucinar mais do que teria.

Isso é de acordo com um novo estudo da Giskard, uma empresa de testes de IA baseada em Paris desenvolvendo uma referência holística para os modelos de IA. Em uma postagem no blog detalhando suas descobertas, os pesquisadores da Giskard dizem que solicitam respostas mais curtas a perguntas, particularmente perguntas sobre tópicos ambíguos, podem afetar negativamente a factualidade de um modelo de IA.

“Nossos dados mostram que mudanças simples nas instruções do sistema influenciam drasticamente a tendência de um modelo de alucinar”, escreveu os pesquisadores. “Esse achado tem implicações importantes para a implantação, pois muitos aplicativos priorizam os resultados concisos para reduzir o uso (dados), melhorar a latência e minimizar os custos”.

As alucinações são um problema intratável na IA. Até os modelos mais capazes inventam as coisas às vezes, uma característica de suas naturezas probabilísticas. De fato, modelos de raciocínio mais recentes como o O3 Hallucinato do Openai mais do que modelos anteriores, dificultando a confiança de seus resultados.

Em seu estudo, Giskard identificou certos avisos que podem piorar as alucinações, como perguntas vagas e mal informadas pedindo respostas curtas (por exemplo, “me diga brevemente por que o Japão venceu a Segunda Guerra Mundial”). Os principais modelos, incluindo o GPT-4O do Openai (o modelo padrão que alimenta ChatGPT), Mistral Large e o Soneto Claude de 3,7 Anthropic sofrem de quedas com precisão factual quando solicitado a manter as respostas curtas.

Créditos da imagem:Adivinhar

Por que? Giskard especula que, quando instruído para não responder em grandes detalhes, os modelos simplesmente não têm o “espaço” para reconhecer premissas falsas e apontar erros. As refutações fortes requerem explicações mais longas, em outras palavras.

“Quando forçados a mantê -lo curto, os modelos escolhem consistentemente a brevidade sobre a precisão”, escreveram os pesquisadores. “Talvez o mais importante para os desenvolvedores, instruções aparentemente inocentes do sistema como ‘Be Concise’ possa sabotar a capacidade de um modelo de desmascarar a desinformação”.

Evento do TechCrunch

Berkeley, CA.
|
5 de junho

Reserve agora

O estudo de Giskard contém outras revelações curiosas, como esses modelos têm menos probabilidade de desmascarar reivindicações controversas quando os usuários os apresentam com confiança e que os modelos que os usuários dizem que preferem nem sempre são os mais verdadeiros. De fato, o Openai lutou recentemente para encontrar um equilíbrio entre os modelos que validam sem parecer excessivamente sinofantic.

“Às vezes, a otimização para a experiência do usuário pode causar precisão factual”, escreveu os pesquisadores. “Isso cria uma tensão entre precisão e alinhamento com as expectativas do usuário, principalmente quando essas expectativas incluem premissas falsas”.

 
 

Veja também