Fugatto: IA da Nvidia cria voz, música e efeitos sonoros a partir de texto

“Um canivete suíço para som”. É assim que a Nvidia descreve a sua mais recente empreitada em inteligência artificial (IA). A companhia anunciou o Foundational Generative Audio Transformer Opus 1, ou simplesmente Fugatto, um mecanismo de IA generativa que produz áudio a partir de textos digitados pelo usuário (prompts).

O Fugatto pode ser usado na geração de vozes, músicas e feitos sonoros, por exemplo, bem como para edição ou incremento de materiais de áudio já existentes, sempre tendo prompts como ponto de partida.

Suponha, como exemplo, que você criou uma música, mas quer adicionar instrumentos rapidamente a elas. Ou que, em uma narração, você queira deixar a sua voz com um sotaque diferente ou uma entonação que expresse algum tipo de emoção. Ou, ainda, que você queira criar uma propaganda em áudio para um produto de sua loja.

O Fugatto foi desenvolvido para que essas e várias outras aplicações sejam atendidas por meio de instruções em texto. “Queríamos criar um modelo que entendesse e gerasse sons como os humanos o fazem”, explica Rafael Valle, gerente de pesquisa de áudio aplicado da Nvidia.

Ainda que ferramentas de IA generativa que produzem conteúdo em áudio não sejam novidade, a companhia ressalta que o Fugatto é o primeiro modelo do tipo cujos resultados surgem a partir da interação de várias habilidades treinadas.

As aplicações possíveis são numerosas. A própria Nvidia menciona, como exemplo, uma agência de publicidade que pode usar a ferramenta para gerar versões de uma campanha para regiões variadas, aplicando sotaques ou emoções às narrações.

Outros exemplos dados pela companhia: o uso do Fugatto para geração de vozes personalizadas no aprendizado de idiomas, bem como no desenvolvimento de jogos, de modo a adequar o áudio de uma ação de acordo com aquilo que o jogador executa.

O vídeo a seguir mostra o Fugatto em ação:

O Fugatto é fruto de um trabalho colaborativo entre pesquisadores de vários países, incluindo Índia, Brasil, China, Jordânia e Coreia do Sul. Essa abordagem fortaleceu as capacidades multissotaque e multilíngue da novidade, explica a Nvidia.

Sem nenhuma surpresa, o Fugatto requer uma estrutura complexa para ser executado. Ainda de acordo com a companhia, a versão completa do modelo usa 2,5 bilhões de parâmetros e foi treinada em sistemas Nvidia DGX com 32 GPUs H100 Tensor Core cada.

Disponibilidade do Fugatto

O banho de água fria vem agora: a Nvidia ainda não revelou quando ou se o Fugatto será liberado como uma ferramenta pública. Se for, é possível que a Nvidia o faça na forma de ferramenta paga.

Outra possibilidade é de a tecnologia ser incorporada a ferramentas de edição ou criação de áudio. Mas, novamente, não se sabe quando ou como.

Por ora, parece que a Nvidia está mais interessada em deixar claro que continua sendo uma das protagonistas quando o assunto é IA generativa.

Com informações: Nvidia

Fugatto: IA da Nvidia cria voz, música e efeitos sonoros a partir de texto