O CEO da DeepMind Demis Hassabis diz que o Google acabará combinando seus modelos Gemini and Veo AI

Em uma aparição recente sobre possível, um podcast co-apresentado pelo co-fundador do LinkedIn, Reid Hoffman, o CEO do Google DeepMind, Demis Hassabis, disse que o Google planeja eventualmente combinar seus modelos de IA de Gemini com seus modelos de geração de vídeo Veo para melhorar a compreensão do primeiro do mundo físico.

“Sempre construímos Gêmeos, nosso modelo de fundação, para ser multimodal desde o início”, disse Hassabis, “e a razão pela qual fizemos isso (é porque) temos uma visão para essa idéia de um assistente digital universal, um assistente que … realmente ajuda você no mundo real”.

A indústria da IA ​​está se movendo gradualmente para os modelos “Omni”, se você preferir – modelos que podem entender e sintetizar muitas formas de mídia. Os modelos mais novos de Gemini do Google podem gerar áudio, bem como imagens e texto, enquanto o modelo padrão do OpenAI no ChatGPT pode criar imagens nativamente-incluindo, é claro, a arte do estilo Ghibli. A Amazon também anunciou planos de lançar um modelo “qualquer qualquer coisa” ainda este ano.

Esses modelos OMNI exigem muitos dados de treinamento – imagens, vídeos, áudio, texto e assim por diante. Hassabis implicava que os dados de vídeo para o VEO estão chegando principalmente no YouTube, uma plataforma que o Google possui.

“Basicamente, ao assistir a vídeos do YouTube – muitos vídeos do YouTube – (Veo 2) podem descobrir, você sabe, a física do mundo”, disse Hassabis.

O Google disse anteriormente ao TechCrunch que seus modelos “podem ser” treinados em “algum” conteúdo do YouTube de acordo com seu contrato com os criadores do YouTube. Segundo informações, o Google ampliou seus termos de serviço no ano passado em parte para permitir que a empresa tire mais dados para treinar seus modelos de IA.

 
 

Veja também