Uma inteligência artificial que gera imagens a partir de descrições de texto

Postado em


OpenAI, uma organização sem fins lucrativos dedicada à pesquisa de inteligência artificial, recentemente apresentou uma rede neural chamada DALL-E, treinada para criar imagens a partir de legendas de texto.

Essa tecnologia, que recebe seu nome a partir de um trocadilho entre o sobrenome de Salvador Dalí e Wall-E, o personagem da Disney, suporta uma ampla gama de conceitos e expressões em linguagem natural, que utiliza como base para a geração de resultados verdadeiramente impressionantes.

Essa rede neural é baseada em GPT-3, sigla para Generative Pre-Training Transformer 3, que é um modelo de linguagem autorregressivo que utiliza técnicas de deep learning na produção de textos que simulam a escrita humana.

No caso do DALL-E, estamos diante de uma versão de 12 bilhões de parâmetros do GPT-3, treinada para gerar imagens a partir de descrições de texto, usando um conjunto de dados de pares de texto e imagem.

Ao investigar os benefícios desta tecnologia, a equipe OpenAI descobriu nela uma série de capacidades amplas e variadas, como a aplicação de transformações em imagens existentes, a criação de animais e objetos em versões antropomórficas e a combinação implausível de conceitos não relacionado.

Mostrando o poder desta ferramenta, na apresentação que a OpenAI fez em seu blog sobre o DALL-E, algumas das imagens obtidas por meio deste canal estão em anexo.

Na imagem anexa, diferentes amostras de poltronas em forma de abacate podem ser vistas na primeira linha, como respostas geradas pela IA ao texto inserido “ uma poltrona em forma de abacate ”. Na segunda linha, uma série de placas de loja com a inscrição “OpenAI” foi gerada antes da frase “ uma fachada de loja com a palavra ‘openai’ escrita ”. Na terceira linha, uma série de gatos é desenhada com base numa fotografia “ exatamente o mesmo gato em cima que um desenho em baixo ”.

A mesma ordem pode ser gerada em diferentes variantes gráficas, como em estilos de pintura genéricos; Pop Art, estética cubista ou surrealista; emulando os estilos de Van Gogh ou Monet; desenhos a lápis, carvão, giz de cera, giz ou lápis; ilustrações como pixel art ou caricatura e como fotografia em vários tons, entre outros exemplos.

A inteligência artificial por trás do DALL-E concebe o texto e a imagem como uma única sequência de dados, que pode conter até 1280 tokens. 

Quem quiser, pode revisar a apresentação de DALL-E em detalhes e ver mais exemplos de seu trabalho em blog OpenAI.