O Projeto Astra do Google usa a câmera e a IA do seu telefone para encontrar criadores de ruído, itens perdidos e muito mais.

Quando o Google apresentou pela primeira vez seu assistente de voz Duplex tecnologia em sua conferência de desenvolvedores em 2018, foi impressionante e preocupante. Hoje, no I/O 2024, a empresa pode trazer à tona as mesmas reações novamente, desta vez exibindo outra aplicação de sua inteligência de IA com algo chamado Projeto Astra.

A empresa mal podia esperar até sua palestra de hoje para provocar o Projeto Astra, postando um vídeo em suas redes sociais de um aplicativo de IA baseado em câmera ontem. No entanto, em sua palestra de hoje, o CEO da DeepMind do Google, Demis Hassabis, compartilhou que sua equipe “sempre quis desenvolver agentes universais de IA que pudessem ser úteis na vida cotidiana”. O Projeto Astra é o resultado do progresso nessa frente.

De acordo com um vídeo que o Google mostrou ontem durante uma coletiva de imprensa, o Projeto Astra parecia ser um aplicativo que tem um visor como interface principal. Uma pessoa segurando um telefone apontou sua câmera para várias partes de um escritório e disse verbalmente: “Diga-me quando vir algo que faça barulho”. Quando um alto-falante próximo a um monitor apareceu, Gêmeos respondeu: “Vejo um alto-falante que emite som”.

A pessoa atrás do telefone parou e desenhou uma seta na tela no círculo superior do alto-falante e disse: “Como é chamada essa parte do alto-falante?” Gemini respondeu prontamente: “Esse é o tweeter. Ele produz sons de alta frequência.”

Então, no vídeo que o Google disse ter sido gravado em uma única tomada, o testador foi até um copo de giz de cera mais abaixo na mesa e perguntou: “Dê-me uma aliteração criativa sobre isso”, ao que Gêmeos disse: “Giz de cera criativo colore alegremente. Eles certamente criam criações coloridas.”

O resto do vídeo mostra Gemini no Projeto Astra identificando e explicando partes do código em um monitor, informando ao usuário em que bairro ele estava com base na visão da janela. O mais impressionante é que Astra foi capaz de responder: “Você se lembra onde viu meus óculos?” mesmo que os referidos óculos estivessem completamente fora da moldura e não tenham sido apontados anteriormente. “Sim, tenho”, disse Gêmeos, acrescentando “Seus óculos estavam em uma mesa perto de uma maçã vermelha”.

Depois que o Astra localizou esses óculos, o testador os colocou e o vídeo mudou para a perspectiva do que você veria no wearable. Usando uma câmera integrada, os óculos examinavam os arredores do usuário para ver coisas como um diagrama em um quadro branco. A pessoa no vídeo perguntou “O que posso adicionar aqui para tornar este sistema mais rápido?” Enquanto falavam, uma forma de onda na tela movia-se para indicar que estava ouvindo e, à medida que respondia, legendas de texto apareciam em conjunto. Astra disse que “adicionar um cache entre o servidor e o banco de dados pode melhorar a velocidade”.

O testador então olhou para um par de gatos rabiscados no quadro e perguntou: “O que isso lembra você?” Astra disse “gato de Schrodinger”. Por fim, eles pegaram um tigre de pelúcia, colocaram-no ao lado de um lindo golden retriever e pediram “um nome de banda para esta dupla”. Astra obedientemente respondeu “Listras douradas”.

Isso significa que o Astra não estava apenas processando dados visuais em tempo real, mas também lembrando o que viu e trabalhando com um impressionante acúmulo de informações armazenadas. Isso foi conseguido, de acordo com Hassabis, porque esses “agentes” foram “projetados para processar informações mais rapidamente, codificando continuamente quadros de vídeo, combinando a entrada de vídeo e fala em uma linha do tempo de eventos e armazenando essas informações em cache para uma recuperação eficiente”.

Também valeu a pena notar que, pelo menos no vídeo, o Astra respondeu rapidamente. Hassabis observou em uma postagem no blog que “Embora tenhamos feito um progresso incrível no desenvolvimento de sistemas de IA que podem compreender informações multimodais, reduzir o tempo de resposta para algo conversacional é um difícil desafio de engenharia”.

O Google também tem trabalhado para dar à sua IA mais amplitude de expressão vocal, usando seus modelos de fala para “melhorar a forma como soam, dando aos agentes uma gama mais ampla de entonações”. Esse tipo de mimetismo da expressividade humana nas respostas lembra as pausas e declarações de Duplex que levaram as pessoas a pensar A IA do Google pode ser candidata ao teste de Turing.

Embora o Astra continue sendo um recurso inicial, sem planos visíveis de lançamento, Hassabis escreveu que, no futuro, esses assistentes poderão estar disponíveis “através do seu telefone ou óculos”. Nenhuma palavra ainda sobre se esses óculos são realmente um produto ou sucessor do Google Glass, mas Hassabis escreveu que “alguns desses recursos chegarão aos produtos do Google, como o aplicativo Gemini, ainda este ano”.

Fique por dentro de todas as novidades do Google I/O 2024 direito aqui!

Fuente