(Imagem: Reprodução/YouTube)
Google dedica curto espaço do I/O 2024 para falar de Android e IA (Imagem: Reprodução/YouTube)

Sameer Samat, presidente da divisão de ecossistema Android, apresentou no Google I/O 2024 os planos do Google para melhorar a experiência do usuário no SO. O executivo destacou um novo slogan para o Android: “IA em seu núcleo” (“AI at the core”) na tradução direta. Em outras palavras, a inteligência artificial será a essência do sistema operacional e o Gemini Nano multimodal chegará para os smartphones.

Um dos recursos mostrado já era conhecido: o circular para pesquisar. Porém, agora há novidades para ele. A melhoria apresentada por Samaat foi o uso da ferramenta para a resolução de problemas matemáticos — algo bem parecido com o que a OpenAI apresentou na última segunda-feira.

O funcionamento é bem direto: você circula, a IA identificará a equação/fórmula/problema e apresentará uma solução. Essa novidade, ao contrário daquelas citadas posteriormente, já está liberada para os usuários de smartphones compatíveis.

Gemini melhor em reconhecer contexto de prompts

App do Gemini avaliará informações na tela e aplicativo para identificar o contexto dos prompts (Imagem: Divulgação/Google)
App do Gemini avaliará informações na tela e aplicativo para identificar o contexto dos prompts (Imagem: Divulgação/Google)

Dave Burke, vice-presidente de engenharia, apresentou outras melhorias do Gemini para Android. Burke explicou que o app da IA poderá ser ativado sobre apps, o que permitirá que o Gemini entenda contexto da sua pergunta.

Por exemplo, você pode estar com uma tela aberta lendo sobre alguma receita. Você abre o app da IA e faz um questionamento. O Gemini avaliará o que está escrito na tela e qual aplicativo você está usando.

Tecnologia Multimodal para o Gemini Nano

Na apresentação, Burke também explicou que as tecnologias multimodais serão lançadas para o Gemini Nano, LLM que roda nativamente em smartphones. Essa tecnologia multimodal permite que a IA seja usada para tarefas visuais e de áudio.

Isso pode ser útil para usuários com deficiência visual, já que a câmera do smartphone poderá ser usada para explicar o que há nos arredores, localização. As funções de áudio também auxiliam na comunicação, ouvindo o ambiente. Essa tecnologia chegará primeiro para smartphones Pixel em um momento posterior

Burke mostrou ainda uma funcionalidade do Gemini que pode identificar possíveis golpes em ligações. O exemplo usado na apresentação era mais “óbvio”, com o golpista dizendo que, para proteger a conta dos acessos indevidos, era necessário transferir o dinheiro para uma conta mais segura. Será interessante ver o Gemini atuando em casos mais sofisticados.

Android terá IA como peça chave e Gemini Nano multimodal