Alibaba revela Qwen 3, uma família de modelos de raciocínio ‘híbrido’ AI

A empresa de tecnologia chinesa Alibaba divulgou na segunda -feira QWEN 3, uma família de modelos de IA que a empresa reivindica e, em alguns casos, supera os melhores modelos disponíveis no Google e Openai.

A maioria dos modelos está – ou em breve estará – disponível para download sob uma licença “aberta” da plataforma AI dev abraçando o rosto e o github. Eles variam em tamanho de 0,6 bilhão de parâmetros a 235 bilhões de parâmetros. Os parâmetros correspondem aproximadamente às habilidades de solução de problemas de um modelo, e os modelos com mais parâmetros geralmente têm um desempenho melhor do que aqueles com menos parâmetros.

A ascensão das séries de modelos originadas pela China, como Qwen, aumentou a pressão sobre os laboratórios americanos, como o OpenAI, para fornecer tecnologias de IA mais capazes. Eles também levaram os formuladores de políticas a implementar restrições destinadas a limitar a capacidade das empresas de IA chinesas de obter os chips necessários para treinar modelos.

De acordo com o Alibaba, os modelos QWEN 3 são modelos “híbridos”, no sentido de que eles podem levar tempo e “raciocínio” por meio de problemas complexos ou responder a solicitações mais simples rapidamente. O raciocínio permite que os modelos se chiquem efetivamente, semelhantes a modelos como o Open O3, mas com o custo de maior latência.

“Temos modos de pensamento e sem pensamento integrados perfeitamente, oferecendo aos usuários a flexibilidade para controlar o orçamento de pensamento”, escreveu a equipe QWEN em uma postagem no blog. “Esse design permite que os usuários configurem orçamentos específicos da tarefa com maior facilidade.”

Alguns dos modelos também adotam uma mistura de arquitetura de especialistas (MOE), que pode ser mais eficiente computacionalmente para responder consultas. Moe divide as tarefas em subtarefas e as delega em modelos menores e especializados “especializados”.

Os modelos QWEN 3 suportam 119 idiomas, diz Alibaba, e foram treinados em um conjunto de dados de quase 36 trilhões de tokens. Os tokens são os bits brutos de dados que um modelo processa; 1 milhão de tokens é equivalente a cerca de 750.000 palavras. Alibaba diz que o QWEN 3 foi treinado em uma combinação de livros didáticos, “pares de perguntas e respostas”, trechos de código, dados gerados pela IA e muito mais.

Essas melhorias, juntamente com outras pessoas, aumentaram bastante as capacidades da Qwen 3 em comparação com seu antecessor, Qwen 2, diz Alibaba. Nenhum dos modelos QWEN 3 é de cabeça e ombros acima dos modelos recentes de primeira linha, como O3 e O4-Mini do Openai, mas são um desempenho forte.

Na Codeforces, uma plataforma para concursos de programação, o maior modelo QWEN 3-QWEN-3-235B-A22B-apenas vence o OpenAi O3-mini e o Google Gemini 2.5 Pro. QWEN-3-235B-A22B também supera o O3-Mini na versão mais recente do AIME, um desafio de referência matemática e BFCL, um teste para avaliar a capacidade de um modelo de “razão” sobre os problemas.

Mas QWEN-3-235B-A22B não está disponível ao público-pelo menos ainda não.

Resultados de referência interna do Alibaba para Qwen 3.Créditos da imagem:Alibaba

O maior modelo público de QWEN 3, QWEN3-32B, ainda é competitivo com vários modelos proprietários e abertos de IA, incluindo o R1 da AI Lab Chinese Deepseek. O QWEN3-32B supera o modelo O1 do OpenAI em vários testes, incluindo o benchmark de codificação LivecodeBench.

Alibaba diz que o QWEN 3 “se destaca” nos recursos de chamada de ferramentas, além de seguir as instruções e copiar formatos de dados específicos. Além dos modelos para download, o QWEN 3 está disponível em provedores de nuvem, incluindo fogos de artifício AI e hiperbólicos.

Tuhin Srivastava, co-fundador e CEO da AI Cloud Host Baseten, disse que Qwen 3 é outro ponto na linha de tendência de modelos abertos, acompanhando o ritmo com sistemas de fonte fechada, como o OpenAI.

“Os EUA estão dobrando a restrição de vendas de chips para a China e as compras da China, mas modelos como Qwen 3 que são de ponta e abertos (…) serão, sem dúvida, usados ​​no mercado interno”, disse ele ao TechCrunch. “Isso reflete a realidade de que as empresas estão construindo suas próprias ferramentas (assim como) comprando a prateleira por meio de empresas de modelo fechado, como antropia e OpenAI”.

 
 

Veja também