Os novos modelos Claude 4 AI do Anthropic podem raciocinar em muitos passos

Durante sua conferência inaugural de desenvolvedores na quinta -feira, a Anthropic lançou dois novos modelos de IA que as alegações de startups estão entre os melhores do setor, pelo menos em termos de como eles marcam em benchmarks populares.

Claude Opus 4 e Claude Sonnet 4, parte da nova família de modelos do Anthrópico, Claude 4, podem analisar grandes conjuntos de dados, executar tarefas de longo horizonte e tomar ações complexas, de acordo com a empresa. Ambos os modelos foram ajustados para ter um bom desempenho nas tarefas de programação, diz Anthrópio, tornando-os adequados para escrever e editar o código.

Os usuários pagantes e os usuários dos aplicativos de chatbot gratuitos da empresa terão acesso ao Sonnet 4, mas apenas os usuários pagantes terão acesso ao OPUS 4. Para a API da Anthrópica, através da plataforma Bedrock da Amazon e do vértice do Google, a IA da OPUS 4 custa US $ 15/US $ 75 por milhão de tokens (inutup/saída) e Sonnet 4 a 45/US $ 75 por milhão de tokens (entrada/saída) e Sonnet 4 a 40 a US $ 15/US $ 75 por milhão (a saída) e o Sonnet 4 a US $ 15/$

Os tokens são os bits brutos de dados com os quais os modelos de IA funcionam, com um milhão de tokens sendo equivalentes a cerca de 750.000 palavras – aproximadamente 163.000 palavras mais longas que “guerra e paz”.

Créditos da imagem:Antrópico

Os modelos Claude 4 da Anthropic chegam à medida que a empresa procura aumentar substancialmente a receita. Alegadamente, a equipe, fundada por ex-pesquisadores de abertura, pretende compensar US $ 12 bilhões em ganhos em 2027, acima de US $ 2,2 bilhões este ano. A Anthropic fechou recentemente uma linha de crédito de US $ 2,5 bilhões e levantou bilhões de dólares da Amazon e de outros investidores em antecipação aos custos crescentes associados ao desenvolvimento de modelos de fronteira.

Os rivais não facilitaram a manutenção da posição da pólo na corrida de IA. Enquanto o Anthropic lançou um novo modelo de IA principal no início deste ano, o Claude Sonnet 3.7, juntamente com uma ferramenta de codificação agêntica chamada Claude Code, concorrentes como o OpenAI e o Google correram para superar a empresa com modelos poderosos e ferramentas de dev.

O Anthropic está jogando para manter com Claude 4.

Quanto mais capaz dos dois modelos introduzidos hoje, o Opus 4, pode manter o “esforço focado” em muitas etapas em um fluxo de trabalho, diz Anthropic. Enquanto isso, o Sonnet 4-projetado como uma “substituição de drop-in” para o Sonnet 3.7-melhora a codificação e a matemática em comparação com os modelos anteriores da Anthrópica e segue mais precisamente as instruções, de acordo com a empresa.

A família Claude 4 também tem menos probabilidade do que o Sonnet 3.7 de se envolver em “hackers de recompensa”, afirma antropia. A hacking de recompensa, também conhecida como Gaming de Especificação, é um comportamento em que os modelos levam atalhos e brechas para concluir as tarefas.

Para ser claro, essas melhorias não produziram o mundo melhor Modelos de cada referência. Por exemplo, enquanto o Opus 4 vence o Gemini 2.5 Pro e o OpenAI e o Openai do Google e o GPT-4.1 no SWE-banch Verificado, projetado para avaliar as habilidades de codificação de um modelo, ele não pode superar a O3 na avaliação multimodal MMMU ou GPQA Diamond, diamante de Biologia de Phd, Física-Física e Química-Related.

Os resultados dos testes de referência interna do Antrópico.Créditos da imagem:Antrópico

Ainda assim, o Antrópico está lançando o Opus 4 sob salvaguardas mais rigorosas, incluindo detectores de conteúdo prejudiciais e defesas de segurança cibernética. A Companhia afirma que seus testes internos descobriram que o Opus 4 pode “aumentar substancialmente” a capacidade de alguém com fundo de caule para obter, produzir ou implantar armas químicas, biológicas ou nucleares, atingindo a especificação do modelo “ASL-3” do Antrópico.

Tanto o Opus 4 quanto o Sonnet 4 são modelos “híbridos”, diz o Anthrópio-capaz de respostas próximas ao instante e do pensamento estendido por um raciocínio mais profundo (na medida em que a IA pode “raciocinar” e “pensar” como os seres humanos entendem esses conceitos). Com o modo de raciocínio ligado, os modelos podem levar mais tempo para considerar possíveis soluções para um determinado problema antes de responder.

Se os modelos argumentam, eles mostrarão um resumo “amigável” de seu processo de pensamento, diz Anthrópio. Por que não mostrar a coisa toda? Parcialmente para proteger as “vantagens competitivas” da Anthrópica, a empresa admite em um projeto de postagem de blog fornecido ao TechCrunch.

Opus 4 e Sonnet 4 podem usar várias ferramentas, como mecanismos de pesquisa, em paralelo, e alternar entre raciocínio e ferramentas para melhorar a qualidade de suas respostas. Eles também podem extrair e salvar fatos em “memória” para lidar com tarefas de maneira mais confiável, construindo o que o antrópico descreve como “conhecimento tácito” ao longo do tempo.

Para tornar os modelos mais favoráveis ​​ao programador, o Anthropic está lançando atualizações para o código Claude acima mencionado. O código Claude, que permite que os desenvolvedores executem tarefas específicas através dos modelos do Anthrópio diretamente de um terminal, agora se integra a IDEs e oferece um SDK que permite que os desenvolvedores o conectem a aplicativos de terceiros.

O Claude Code SDK, anunciado no início desta semana, permite que a execução do código Claude como um subprocesso nos sistemas operacionais suportados, fornecendo uma maneira de criar assistentes de codificação e ferramentas de codificação que aproveitam os recursos dos modelos Claude.

A Anthropic lançou extensões e conectores de código Claude para o código VS, JetBrains e Github da Microsoft. O conector do GitHub permite que os desenvolvedores marquem o código Claude para responder ao feedback do revisor, bem como tentar corrigir erros – ou modificar – código.

Os modelos de IA ainda lutam para codificar o software de qualidade. A IA geradora de código tende a introduzir vulnerabilidades e erros de segurança, devido a fraquezas em áreas como a capacidade de entender a lógica de programação. No entanto, sua promessa de aumentar a produtividade da codificação é empurrar as empresas – e os desenvolvedores – para adotá -los rapidamente.

Antrópica, ciente disso, promete atualizações de modelos mais frequentes.

“Estamos (…) mudando para atualizações de modelos mais frequentes, fornecendo um fluxo constante de melhorias que trazem recursos inovadores aos clientes mais rapidamente”, escreveu The Startup em sua publicação. “Essa abordagem mantém você na vanguarda à medida que refinamos e aprimoramos continuamente nossos modelos”.

 
 

Veja também