Foleygan, uma IA que pode gerar sons para vídeos silenciosos

Postado em


No mundo audiovisual, Foley é o nome dado à prática de recriar sons, gerados por diversos meios, geralmente quando se precisa corrigir ou substituir a ausência de um registro sonoro original.

Embora essa área tenha sido sempre muito adiantada ao recriar efeitos, um algoritmo quer tornar tudo isso ainda mais fácil, gerando os efeitos sonoros ausentes através da IA.

Sanchita Ghose e John J. Prevost, membros do IEEE, organização dedicada à pesquisa em inovação tecnológica, publicaram recentemente um artigo no qual falam sobre um algoritmo de IA, que por meio de técnicas de deep learning é capaz de determinar a relação entre certos tipos de cena e seus respectivos sons, de forma a gerar áudios adaptados aos samples silenciosos que apresentam.

Este tipo de ferramenta pode ser construída através de uma rede generativa antagónica (GAN) e é precisamente nesta dinâmica que se baseia o FoleyGAN, a proposta desta dupla de pesquisadores para a geração destes efeitos.

A partir de cada sequência de frames apresentada, FoleyGAN gera sons relacionados às informações visuais, com boa qualidade de áudio e sincronizados com a imagem.

Em suas primeiras linhas, FoleyGAN se apresenta como um sistema “capaz de condicionar sequências de ação de eventos visuais que levam à geração de trilhas sonoras realistas visualmente alinhadas”.

Os pesquisadores afirmam ter trabalhado com uma grande amostra de dados do Foley para treinar o FoleyGAN. Seus primeiros sons sintetizados foram submetidos à avaliação humana, obtendo-se em média 81% de aprovação, índice que reflete a alta plausibilidade que esses sons sincronizados podem alcançar em um videoclipe.

Esses resultados são celebrados como positivos pelos executores do projeto, pois garantem que sua proposta gere resultados superiores, a partir das estatísticas cadastradas de projetos propostos sob outras técnicas e treinados com diferentes amostras de dados.

Gerar efeitos Foley originais requer dedicação e tempo, e obter esses sons da Internet pode ser uma solução rápida, mas prejudicar um projeto, e é aí que essa terceira alternativa, FoleyGAN, baseada em IA, pode fazer toda a diferença.