Os modelos de IA do OpenAI, Antrópico e de outros laboratórios de IA principais estão sendo cada vez mais usados para ajudar nas tarefas de programação. O CEO do Google, Sundar Pichai, disse em outubro que 25% do novo código da empresa é gerado pela IA, e o CEO da Meta Mark Zuckerberg expressou ambições de implantar amplamente modelos de codificação de IA na gigante da mídia social.
No entanto, mesmo alguns dos melhores modelos hoje lutam para resolver bugs de software que não viajariam desenvolvedores experientes.
Um novo estudo da Microsoft Research, a divisão de P&D da Microsoft, revela que os modelos, incluindo o Soneto Claude 3,7 do Anthropic e o Openi da O3-Mini, não conseguem depurar muitos problemas em um benchmark de desenvolvimento de software chamado SWE-banch Lite. Os resultados são um lembrete preocupante de que, apesar dos pronunciamentos ousados de empresas como o OpenAI, a IA ainda não é páreo para especialistas humanos em domínios como codificação.
Os co-autores do estudo testaram nove modelos diferentes como a espinha dorsal de um “agente de prompt único” que tinha acesso a várias ferramentas de depuração, incluindo um depurador do Python. Eles encarregaram esse agente de resolver um conjunto com curadoria de 300 tarefas de depuração de software da SWE-banch Lite.
De acordo com os co-autores, mesmo quando equipados com modelos mais fortes e mais recentes, seu agente raramente completava mais da metade das tarefas de depuração com sucesso. Claude 3,7 soneto teve a maior taxa de sucesso médio (48,4%), seguida pelo O1 O1 (30,2%) e O3-mini (22,1%).
Por que o desempenho abaixo do esperado? Alguns modelos lutaram para usar as ferramentas de depuração disponíveis e entender como diferentes ferramentas podem ajudar com diferentes problemas. O problema maior, no entanto, era a escassez de dados, de acordo com os co-autores. Eles especulam que não há dados suficientes representando “processos de tomada de decisão seqüencial”-ou seja, traços de depuração humana-nos dados de treinamento dos modelos atuais.
“Acreditamos fortemente que o treinamento ou o ajuste fino (modelos) podem torná-los melhores depuradores interativos”, escreveu os co-autores em seu estudo. “No entanto, isso exigirá dados especializados para cumprir esse treinamento de modelos, por exemplo, dados de trajetória que registram agentes interagindo com um depurador para coletar as informações necessárias antes de sugerir uma correção de bug”.
As descobertas não são exatamente chocantes. Muitos estudos mostraram que a IA geradora de código tende a introduzir vulnerabilidades e erros de segurança, devido a fraquezas em áreas como a capacidade de entender a lógica de programação. Uma avaliação recente do Devin, uma ferramenta popular de codificação de IA, descobriu que só poderia completar três dos 20 testes de programação.
Mas o trabalho da Microsoft é uma das looks mais detalhadas, mas em uma área problemática persistente para os modelos. Provavelmente não diminuirá o entusiasmo dos investidores pelas ferramentas de codificação de assistência de IA, mas com alguma sorte, fará desenvolvedores-e seus superiores-pense duas vezes em deixar a IA executar o programa de codificação.
Pelo que vale, um número crescente de líderes de tecnologia contestou a noção de que a IA automatizará os empregos de codificação. O co-fundador da Microsoft, Bill Gates, disse que acha que a programação como profissão está aqui para ficar. O CEO da Replit, Amjad Masad, o CEO da Okta, Todd McKinnon, e o CEO da IBM, Arvind Krishna.