Wav2lip, uma ferramenta que simplifica a criação de deepfakes


Temos testemunhado a exploração gradual de novas técnicas para criar deepfakes, peças audiovisuais com intervenção digital, com resultados que vão do rústico ao cômico, até reproduções perigosas que dificilmente podem ser distinguidas como falsas.

Agora, vamos falar de uma ferramenta que permite editar clipes com esta técnica, obtendo bons resultados. Além disso, pode ser testada diretamente da web, embora apenas com clipes curtos.

Estamos falando de Wav2Lip, uma ferramenta disponível em GitHub como parte de uma pesquisa publicada em um artigo intitulado “A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild”.

Com o Wav2Lip, os videoclipes podem ser sincronizados com alta precisão com uma fonte de voz externa. Pode funcionar com qualquer identidade, idioma e voz, aceitando até animações geradas por computador e vozes sintéticas.

Pode ter diferentes níveis de utilização, já que estão disponíveis códigos de treinamento completos, códigos de inferência e modelos previamente treinados. Além disso, também está disponível através do Google Colab Notebook, para trabalhar seu código diretamente da nuvem e com a possibilidade de fazê-lo em equipe, de forma semelhante ao Google Documents.

Se você domina Python, pode acessar seu código para aproveitar, entre outras possibilidades, o cálculo das métricas relatadas no documento. Já, se não domina essa linguagem, na mesma página de GitHub há um manual de instruções, detalhando o passo a passo.

Dado o crescente interesse em vídeos usando técnicas deepfake, o código para este projeto está disponível sob a licença do MIT para reutilização em outros projetos. O único requisito para a sua utilização nestes contextos, especificado no mesmo site do projeto, é fazer referência ao estudo em que se enquadra a publicação desta ferramenta. Dessa forma, além de ampliar o escopo da pesquisa associada ao projeto, uma nova janela de possibilidades também se abre para os desenvolvedores da área.

Por mais complexo que possa parecer para quem não domina essas habilidades, existe a possibilidade de fazer alguns testes pela web. No site Wav2Lip você pode fazer alguns testes com os clipes disponíveis ou fazer o upload dos seus próprios clipes de vídeo e voz, neste caso limitados a fragmentos de até 20 segundos.

Com essa ferramenta, resultados interessantes podem ser obtidos, como essa montagem de cenas de filmes consagrados com a música All Star do Smash Mouth.

Como podemos ver, esta ferramenta tem efetivamente a capacidade de se adaptar a diferentes cenários, com resultados realmente bons.

Se recapitularmos o que fomos capazes de saber sobre deepfakes até agora, sua criação geralmente dependia do uso de habilidades audiovisuais avançadas ou software complexo no nível de usabilidade e com resultados de qualidade variável. Neste caso, a simplicidade de seu uso se alia à qualidade de seus resultados.

A utilização dessas ferramentas está sujeita à responsabilidade ética individual do responsável. Desde que não seja usado para fins maliciosos, como difamação ou desinformação, este utilitário pode fornecer uma recriação audiovisual interessante.

Precisamente, notícias falsas alimentadas por este tipo de clipes intervencionados, além de outros cenários complexos, como a intervenção de cenas pornográficas, deram a deepfakes uma fama não muito auspiciosa. Porém, o uso indevido de uma tecnologia não a torna ruim em si, sendo mostrado neste mesmo caso que ela também pode ser utilizada de forma mais lucrativa, principalmente, para valorizar a área audiovisual.