Meta apresenta o Llama 3.2, capaz de compreender imagem e texto

Meta Connect 2024 acontece em Menlo Park, na Califórnia (foto: Thássius Veloso/Tecnoblog)

A Meta anunciou nesta quarta-feira (dia 25/09), durante o evento Meta Connect, sua nova família de modelos de inteligência artificial, chamada Llama 3.2. A principal novidade são os modelos de visão, disponíveis em versões de 11 bilhões e 90 bilhões de parâmetros. Eles conseguem compreender tanto texto quanto imagens.

Graças a estas novas habilidades, eles são capazes de interpretar gráficos e tabelas, criar legendas para imagens e identificar objetos com base em descrições feitas usando linguagem natural.

Segundo a Meta, o Llama 3.2 poderia responder qual o melhor mês de vendas “olhando” gráficos, ou identificar subidas em uma trilha com base nas informações disponíveis em mapas.

Llama 3.2 terá versões para smartphones

Além deles, o Llama 3.2 também tem versões menores, com 1 bilhão e 3 bilhões de parâmetros. Segundo a Meta, eles são mais eficientes e podem rodar em aparelhos móveis ou de edge computing.

Estes modelos estarão disponíveis desde o lançamento para os chips de Qualcomm e MediaTek, duas das principais fabricantes de componentes para smartphones. Além disso, eles são otimizados para processadores Arm, usados em celulares, tablets e, mais recentemente, laptops.

De acordo com a empresa, estas versões menores dos modelos poderiam, por exemplo, resumir mensagens, identificar ações nelas e enviar convites para reuniões com base nessas informações. A Meta diz que as respostas devem ser mais rápidas, graças ao processamento no próprio dispositivo. Isso também deve garantir mais privacidade.

Vale lembrar que Samsung e Google já oferecem recursos de IA em smartphones, e a Apple ainda prepara suas ferramentas para o iPhone.

Meta faz parcerias com mercado corporativo

A Meta também vai oferecer o Llama 3.2 no mercado corporativo, podendo ser implantado em sistemas locais (on-prem), na nuvem ou nos próprios dispositivos.

A família de IA estará disponível em plataformas parceiras, incluindo AMD, AWS, Databricks, Dell, Google Cloud, Groq, IBM, Intel, Microsoft Azure, Nvida, Oracle Cloud e Snowflake, entre outras. Os modelos também estarão disponíveis para download em llama.com e no Hugging Face.

Meta apresenta o Llama 3.2, capaz de compreender imagem e texto