Imagen, para criar ilustrações baseadas em textos – Wwwhat's new?

Através do uso de mecanismos de inteligência artificial, já se provou que é possível gerar imagens a partir de uma descrição de texto. Agora, o Google, por meio de sua divisão de pesquisa, afirma ter conseguido um mecanismo muito poderoso. Foi apresentado recentemente, sob o nome de Imagem.

A Google Research, divisão de projetos de pesquisa da gigante da Internet, apresentou Image, um sistema de IA que cria imagens fotorrealistas a partir de um texto.

Para codificar o texto apresentado ao sistema, Image usa um codificador chamado T5-XXL. O que esse sistema faz é, com base nos dados que domina, desenvolve um esboço de 64 x 64 pixels. Usando mecanismos de difusão, a IA aumenta a resolução para 256 × 256 pixels e depois 1024 × 1024 pixels, produzindo resultados nítidos e realistas ao retocar detalhes durante o processo de ampliação.

Um aspecto interessante desse sistema é sua capacidade de autocorreção. À medida que a imagem é refinada durante seu processo de ampliação, a IA consegue avaliar em que medida os retoques aplicados estabelecem uma relação entre a frase de referência e o resultado obtido.

A partir do Google Research afirmam que este é um desenvolvimento inédito, destacando como conquistas o estabelecimento de otimizações no codificador de texto; o estabelecimento de um novo difusor de limiar, para obter imagens de maior resolução; otimizar o uso de memória em computadores que executam este sistema; e a avaliação positiva do índice de correlação entre os textos de referência e as imagens geradas.

As demos por enquanto estão limitadas aos exemplos compartilhados pelo Google. Para evitar riscos de uso indevido, o uso desta ferramenta ainda não foi liberado. “No momento, decidimos não liberar o código ou uma demonstração pública. Em trabalhos futuros, exploraremos uma estrutura de terceirização responsável que equilibre o valor da auditoria externa com os riscos de acesso aberto irrestrito” , diz a equipe da Image no site do projeto.

Outro detalhe destacado pela equipe do Imagen é que, para trabalhos futuros, precisarão refinar a amostra de dados com a qual treinam esse sistema, para evitar preconceitos, ofensas ou outros problemas sociais ou distorções da realidade. Nesta primeira instância, o foco foi no desenvolvimento dos aspectos mais técnicos do sistema, trabalhando com um conjunto de dados extraídos da web sem filtragem.

Uma descrição técnica completa deste projeto, juntamente com exemplos que ilustram o potencial desta ferramenta, estão disponíveis no site Google Research.