|

Share on facebook
Share on twitter

Compartilhe!


O Google divulgou o Imagen, um gerador de imagens que combina um nível profundo de compreensão da linguagem, com um grau sem precedentes de fotorrealismo.

De acordo com o líder de IA do Google, Jeff Dean, sistemas como esses podem desbloquear a criatividade entre humanos e computadores. Ele disse: “o Imagen é a direção que a empresa está buscando”. O avanço feito pelo Google Research, Brain Team, com o seu modelo de difusão de texto para imagem, chegou ao nível de realismo.

O Imagen tem um poder transformador na compreensão do texto, mas depende da força dos modelos de difusão, que geram imagens de alta fidelidade. Os pesquisadores do Google descobriram que os modelos genéricos de linguagem, são surpreendentemente eficazes na codificação de texto para síntese da imagem. Ou seja, aumentar o tamanho do modelo de linguagem no Imagen, melhora muito a fidelidade da amostra e o alinhamento da imagem-texto. Muito mais do que apenas aumentar o tamanho do modelo de difusão da imagem.

Para provar esse avanço, o Google criou um benchmark para avaliar modelos de texto para imagem, chamado DrawBench. Os avaliadores humanos preferiram o Imagen, a outros modelos, quando realizaram a comparação, tanto em termos de qualidade da amostra quanto no alinhamento imagem-texto. O Imagen foi comparado com o VQ-GAN+CLIP, Modelos de Difusão Latente e o DALL-E 2.

Porém, as métricas usadas para provar que o Imagen é melhor para entender as solicitações dos usuários, incluem relações espaciais, texto de formato longo, palavras raras e prompts desafiadores. Outro avanço foi a nova arquitetura Efficient U-Net, que é mais eficiente em computação, mais produtiva em memória e converge mais rapidamente.

O Google decidiu não liberar o código ou uma demonstração pública do Imagen neste momento, devido ao possível uso indevido da ferramenta.

O Imagen conta com codificadores de texto treinados em dados em escala Web, mas não tem uma curadoria. Portanto, ele herda os preconceitos e limitações sociais presentes nos grandes modelos de linguagem. Por isso existe o risco de que o Imagen possa codificar estereótipos e representações prejudiciais e, por enquanto, o Google decidiu não liberar a ferramenta para uso público. Quando essa IA estiver segura e possa ser utilizada por todos, sem restrição, ela poderá ser liberada para todos os usuários.

No Submarino você encontra produtos Google para ter uma Casa Conectada



Publicidade
Publicidade Publicidade
Publicidade

Artigo:

Publicidade
Posts
Relacionados
Publicidade