O DALL-E é uma rede neural desenvolvida pela OpenAI que tem capacidade de gerar ou regenerar imagens a partir de descrições de texto. De forma resumida, trata-se de uma inteligência artificial que faz imagens do zero com base em prompts de entrada feitos pelo usuário.
Você pode usar o DALL-E de forma gratuita via ChatGPT, Microsoft Bing Image Creator ou outras aplicações de IA generativa. Basta descrever detalhadamente um cenário, objeto ou arte em uma das plataformas, e aguardar pela criação das imagens.
A seguir, entenda o que é como funciona o DALL-E, e saiba como usar o gerador de imagens da OpenAI.
Índice
- O que é o DALL-E?
- Para que serve o DALL-E?
- Como usar o DALL-E?
- 1. Faça login na plataforma do ChatGPT para navegador
- 2. Vá em “Explorar GPTs” e inicie um chat com o DALL-E
- 3. Envie a descrição para gerar imagens com o DALL-E
- É preciso pagar para usar o DALL-E?
- Como funciona o DALL-E?
- Quais são as versões do DALL-E?
- Quais são as vantagens do DALL-E?
- Quais são as desvantagens do DALL-E?
- Qual é a diferença entre DALL-E e Midjourney?
O que é o DALL-E?
O DALL-E é uma rede neural de IA generativa desenvolvida pela OpenAI (criadora do ChatGPT). Sua nomenclatura é uma combinação das palavras “WALL-E” (filme de animação da Pixar) e de “Dalí” (em referência ao pintor surrealista Salvador Dalí).
Segundo a própria desenvolvedora, o DALL-E usa o modelo de linguagem do tipo Transformer para gerar imagens a partir de descrições de texto. Basta digitar detalhadamente um cenário, objeto ou paisagem e aguardar para que a rede neural gere resultados com base nas informações descritas.
A primeira versão do DALL-E surgiu em 2021, mas a rede neural sofreu algumas atualizações ao longo dos anos para gerar resultados melhores e mais realistas. O modelo é visto como um das principais tecnologias de geração de imagem a partir de texto.
Para que serve o DALL-E?
O principal objetivo do DALL-E consiste em gerar imagens a partir de descrições em texto. Logo, a ferramenta pode dar luz a artes e ilustrações para fins profissionais, designs para uma rede social ou protótipos para exemplificar uma ideia ou imaginação.
Mas o DALL-E também apresenta recursos para outras finalidades, como modificar partes de uma imagem já existente, combinar elementos diferentes para a geração de uma nova arte ou aplicar estilos artísticos em determinada imagem.
Como usar o DALL-E?
1. Faça login na plataforma do ChatGPT para navegador
Acesse chatgpt.com pelo navegador e clique na opção “Entrar”, localizada no canto superior direito. Em seguida, faça login com um dos serviços disponibilizados ou cadastre-se com seu e-mail.
2. Vá em “Explorar GPTs” e inicie um chat com o DALL-E
Feito o login, vá em “Explorar GPTs” pela barra lateral da plataforma. Depois, role a tela e toque em “DALL-E”, e escolha “Iniciar chat” na tela seguinte para usar o DALL-E.
3. Envie a descrição para gerar imagens com o DALL-E
Use o campo de texto para descrever um cenário, objeto ou qualquer outra criação, e toque no ícone de envio. Aguarde pelas criações do DALL-E baseadas em suas descrições e salve as imagens, caso queira.
É preciso pagar para usar o DALL-E?
Você pode usar o DALL-E gratuitamente pela plataforma do ChatGPT, mas a funcionalidade da aplicação será limitada à quantidade de créditos em sua conta. E pode ser necessário assinar o plano ChatGPT Plus para conseguir mais créditos.
A boa notícia é que o DALL-E consiste em uma rede neural que foi incorporada a outras aplicações de uso gratuito. Logo, você pode usar o DALL-E integrado ao gerador de imagens do Bing de graça, e com menos limitações do que no ChatGPT.
Como funciona o DALL-E?
Inicialmente, a rede neural DALL-E foi submetida a treinamentos com uma grande quantidade de pares de texto-imagem para que o modelo fosse capaz de aprender e associar palavras e elementos visuais, com base no deep learning (ou “aprendizado de máquina”, em tradução livre).
A arquitetura Transformer então permitiu que o DALL-E compreendesse descrições em texto (prompt de entrada) e as convertesse em imagens (prompts de saída), por meio do processamento e mapeamento de tokens de palavras e elementos visuais.
Os processos de treinamento permitiram que o DALL-E seja capaz de gerar uma imagem do zero ou de regenerar partes retangulares de uma imagem existente, de modo a condizer com os prompts de entrada.
Quais são as versões do DALL-E?
A OpenAI tem se esforçado para otimizar o DALL-E ao longo dos últimos anos. Até o momento, o modelo de linguagem capaz de gerar imagens a partir de texto conta com três versões, incluindo:
- DALL-E: primeira versão da rede neural da OpenAI lançada em 2021, treinada para gerar imagens a partir de descrições de texto;
- DALL-E 2: versão sucessora e otimizada do DALL-E que surgiu no mercado em 2022, com capacidade para gerar imagens mais realistas e precisas, e com resolução quatro vezes maior;
- DALL-E 3: versão do DALL-E lançada em 2023. Caracterizada pela integração ao ChatGPT e pela maior compreensão de nuances e detalhes descritos nos prompts de entrada.
Quais são as vantagens do DALL-E?
O DALL-E tornou-se um dos principais modelos de IA Generativa capaz de criar imagens a partir de descrições de texto. E o destaque deu-se por vantagens de uso que a rede neural apresenta, como:
- Criação de conteúdo personalizado: o DALL-E é capaz de gerar conteúdos específicos de acordo com as descrições de texto fornecidas;
- Integração com aplicações: a rede neural pode ser integrada a diferentes aplicações, como ChatGPT, Canva, e Microsoft Bing Image Creator, por exemplo;
- Uso gratuito: o DALL-E conta com versões gratuitas, sem obrigatoriedades de planos pagos para uso do gerador de imagens;
- Rapidez na geração: a geração de imagens é simplificada e rápida, com capacidade de criar novos conteúdos em questão de segundos.
Quais são as desvantagens do DALL-E?
Naturalmente que o DALL-E também possui limitações, apesar da grande capacidade de gerar novas imagens a partir de prompts de texto. Algumas das principais desvantagens da rede neural envolvem:
- Uso gratuito limitado: o uso gratuito do DALL-E no ChatGPT exige créditos de uso, concedidos pela plataforma de tempos em tempos;
- Restrições de capacidade: a geração de imagens depende de dados usados no treinamento, e pode apresentar resultados pouco precisos caso não encontre informações de referência;
- Dependência das descrições: você terá que detalhar ao máximo suas descrições de texto no prompt de entrada para que o DALL-E seja capaz de apresentar resultados com boa qualidade e precisão;
- Limitações de realismo: apesar das otimizações do DALL-E 3, a rede neural pode gerar imagens menos realistas quando comparada a outros modelos como o Midjourney.
Qual é a diferença entre DALL-E e Midjourney?
DALL-E é uma rede neural que pode ser acessada por diversas aplicações, graças a APIs. O gerador de imagens a partir de descrições em texto talvez crie resultados menos realistas do que o Midjourney, mas pode ser usado de forma gratuita.
Já o Midjourney é uma rede neural paga, e que não oferece mais testes gratuitos para criar imagens a partir de textos. O modelo tem um website próprio e é comumente usado no Discord via API, além de geralmente produzir imagens mais realistas do que o DALL-E.
DALL-E: o que é e como usar a ferramenta de IA para criar imagens