A Inteligência Artificial do Google consegue criar vídeos a partir de duas fotos – Wwwhat's new?

Parece impossível, não é? Mas se dermos uma foto inicial e uma foto final ao Google, sua Inteligência Artificial é capaz de criar o vídeo completo frame por frame.

O sistema consegue deduzir o que aconteceu para tornar a primeira imagem passado, criando sequências de vídeo “plausível” a partir de apenas dois quadros, um processo conhecido como “inter-relação”.

Este sistema pode servir para transformar quadrinhos em animações, revolucionando completamente o setor. Ainda está longe de ter resultados perfeitos, mas poderia ser alimentado com pares de marcadores para criar o vídeo correspondente e reunir todos os vídeos criados.

Consiste em um decodificador de imagem convolucional 2D, um gerador de representação latente convolucional 3D e um gerador de vídeo. O decodificador de imagem atribui quadros de vídeos de destino a um espaço latente, enquanto o gerador de representação latente aprende a incorporar as informações contidas nos quadros de entrada. Finalmente, o gerador de vídeo decodifica a representação latente em quadros de vídeo.

Os pesquisadores obtiveram vídeos de três conjuntos de dados e os amostraram em uma resolução de 64 x 64 pixels. Cada amostra continha 16 quadros no total, 14 dos quais foram criados pelo sistema IA. Os pesquisadores executaram o modelo 100 vezes para cada par de quadros de vídeo e repetiram o processo 10 vezes para cada variante de modelo e conjunto de dados, algo que durou 5 dias com um cartão gráfico Nvidia Tesla V100.

O estudo pode ser consultado neste PDF, onde podemos ver imagens como a mostrada acima.