Um par de estudantes de graduação, nem com uma ampla experiência em IA, dizem que eles criaram um modelo de IA disponível abertamente que pode gerar clipes de estilo de podcast semelhante ao Notebooklm do Google.
O mercado de ferramentas de fala sintética é vasto e crescente. O Elevenlabs é um dos maiores jogadores, mas não há escassez de desafiantes (ver Playai, gergelim e assim por diante). Os investidores acreditam que essas ferramentas têm imenso potencial. De acordo com o PitchBook, as startups que desenvolvem a Voice AI Tech levantaram mais de US $ 398 milhões em financiamento de VC no ano passado.
Toby Kim, um dos co-fundadores da Coréia do NARI Labs, o grupo por trás do modelo recém-lançado, disse que ele e seu colega co-fundador começaram a aprender sobre o discurso da IA há três meses. Inspirados pelo Notebooklm, eles queriam criar um modelo que oferecesse mais controle sobre vozes geradas e “liberdade no roteiro”.
Kim diz que eles usaram o programa de nuvem de pesquisa da TPU do Google, que fornece aos pesquisadores acesso gratuito aos chips da TPU AI da empresa, para treinar o modelo de Nari, o DIA. Pesando 1,6 bilhão de parâmetros, o DIA pode gerar diálogo a partir de um script, permitindo que os usuários personalizem os tons dos alto -falantes e inseram disfluências, tosse, risadas e outras pistas não verbais.
Os parâmetros são as variáveis internas que os modelos usam para fazer previsões. Geralmente, os modelos com mais parâmetros têm melhor desempenho.
Disponível na plataforma AI dev abraçando o rosto e o github, o DIA pode ser executado na maioria dos PCs modernos com pelo menos 10 GB de VRAM. Ele gera uma voz aleatória, a menos que solicitado com uma descrição de um estilo pretendido, mas também pode clonar a voz de uma pessoa.
Nos breves testes do DIA da TechCrunch através da demonstração da Web de Nari, o DIA funcionou muito bem, gerando bate-papos de mão dupla sobre qualquer assunto. A qualidade das vozes parece competitiva com outras ferramentas por aí, e a função de clonagem de voz está entre as mais fáceis que esse repórter já tentou.
Aqui está uma amostra:
Como muitos geradores de voz, o Dia oferece pouco em termos de salvaguardas, no entanto. Seria trivialmente fácil criar desinformação ou uma gravação scammy. Nas páginas do projeto da DIA, Nari desencoraja o abuso do modelo a se passar por senha, enganar ou se envolver em campanhas ilícitas, mas o grupo diz que “não é responsável” pelo uso indevido.
Nari também não divulgou quais dados raspou para treinar o DIA. É possível que o DIA tenha sido desenvolvido usando conteúdo protegido por direitos autorais – um comentarista do Hacker News observa que uma amostra soa como os anfitriões do podcast “Planet Money” da NPR. Os modelos de treinamento em conteúdo protegido por direitos autorais são uma prática generalizada, mas legalmente duvidosa. Algumas empresas de IA afirmam que o uso justo os protege da responsabilidade, enquanto os detentores de direitos afirmam que o uso justo não se aplica ao treinamento.
De qualquer forma, Kim diz que o plano de Nari é criar uma plataforma de voz sintética com um “aspecto social” em cima do dia e modelos maiores e futuros. Nari também pretende divulgar um relatório técnico para o DIA e expandir o suporte do modelo a idiomas além do inglês.