Microsoft apresenta bot que pode gerar imagens a partir de descrições de texto – Wwwhat's new?

Contar um bot para desenhar algo, dar detalhes e ver como as linhas estão tomando forma parece algo do futuro, mas a Microsoft já tem essa solução praticamente pronta.

Se trata de um programa que ouve o que dizemos e vai desenhando, pouco a pouco, gerando as imagens até obter resultados como o mostrado na captura superior.

Esta nova tecnologia de IA pode comprender uma descrição em linguagem natural, desenhar uma imagem, sintetizar a imagem e depois refinar os detalhes de acordo com o design e as palavras individuais fornecidas. É um projeto colaborativo entre Pengchuan Zhang, Qiuyuan Huang e Gao Jianfeng da Microsoft Research AI, Lei Zhang da Microsoft, Xiaodong Ele JD AI Research, e Wenbo Li Siwei Lyu e da Universidade de Albany, SUNY. O projeto para gerar objetos e cenas é chamado ObjGAN.

Para conseguir isso, eles superaram dois problemas:

– Muitos tipos de objetos podem aparecer em cenas cotidianas e o robô deve ser capaz de entendê-los e desenhá-los. Nessa nova tecnologia, é usado um conjunto de dados que contém etiquetas e mapas de segmentação para milhões de instâncias de objetos em 80 classes, permitindo que o robô aprenda o conceito e a aparência desses objetos.

– O robô deve entender as relações entre vários objetos em uma cena. É fácil fazer rostos, pássaros e objetos comuns, mas ao criar cenas mais complexas é necessário que os objetos estejam relacionados. Este novo bot aprendeu a gerar objetos a partir de padrões de co-ocorrência no conjunto de dados para, então, gerar uma imagem condicionada ao projeto gerado anteriormente, ajudando a melhorar o contexto.

Evoluindo a técnica, eles também criaram um sistema de geração de histórias, o StoryGAN, dando vida aos designs criados.

A tecnologia de geração de texto para imagem pode encontrar aplicações práticas para designers de interiores, criar filmes de animação baseados em scripts e muito mais, embora no momento as imagens geradas ainda estejam longe de uma foto realista. Objetos individuais quase sempre têm defeitos, como faces borradas ou carros com formas distorcidas.

Os pesquisadores compartilharão o trabalho com os participantes da CVPR em Long Beach e já terão o código-fonte aberto para ObjGAN e StoryGAN em GitHub. Você pode ler mais sobre o assunto neste artigo.