A primeira demonstração do projeto Astra que testamos usou uma grande tela sensível ao toque conectada a uma câmera voltada para baixo.

No I/O 2024, o teaser do Google para nos deu uma ideia de onde os assistentes de IA irão no futuro. É um recurso multimodal que combina a inteligência do Gemini com o tipo de capacidade de reconhecimento de imagem que você obtém no Google Lens, bem como respostas poderosas de linguagem natural. No entanto, embora o vídeo promocional tenha sido inteligente, depois de testá-lo pessoalmente, fica claro que ainda há um longo caminho a percorrer antes que algo como o Astra chegue ao seu telefone. Então, aqui estão três conclusões de nossa primeira experiência com a IA de última geração do Google.

A opinião de Sam:

Atualmente, a maioria das pessoas interage com assistentes digitais usando a voz, portanto, desde já, a multimodalidade do Astra (ou seja, usando visão e som, além de texto/fala) para se comunicar com uma IA é relativamente nova. Em teoria, permite que entidades baseadas em computador funcionem e se comportem mais como um verdadeiro assistente ou agente – que foi um dos grandes chavões do Google para o programa – em vez de algo mais robótico que simplesmente responde a comandos falados.

A primeira demonstração do projeto Astra que testamos usou uma grande tela sensível ao toque conectada a uma câmera voltada para baixo.

Foto de Sam Rutherford/Engadget

Em nossa demonstração, tivemos a opção de pedir ao Astra que contasse uma história baseada em alguns objetos que colocamos na frente da câmera, após o que ele nos contou uma linda história sobre um dinossauro e sua fiel baguete tentando escapar de um sinistro sinal vermelho. Foi divertido e a história fofa, e a IA funcionou tão bem quanto você esperaria. Mas, ao mesmo tempo, estava longe de ser o assistente aparentemente onisciente que vimos no teaser do Google. E além de talvez entreter uma criança com uma história original para dormir, não parecia que Astra estava fazendo tanto com a informação quanto você gostaria.

Em seguida, minha colega Karissa desenhou uma cena bucólica em uma tela sensível ao toque, momento em que Astra identificou corretamente a flor e o sol que pintou. Mas a demonstração mais envolvente foi quando voltamos para uma segunda tentativa com o Astra rodando em um Pixel 8 Pro. Isso nos permitiu apontar suas câmeras para uma coleção de objetos enquanto rastreava e lembrava a localização de cada um. Foi inteligente o suficiente para reconhecer minhas roupas e onde eu havia escondido meus óculos de sol, embora esses objetos não fizessem originalmente parte da demonstração.

De certa forma, a nossa experiência destacou os potenciais altos e baixos da IA. Apenas a capacidade de um assistente digital dizer onde você pode ter deixado suas chaves ou quantas maçãs havia em sua fruteira antes de você sair para o supermercado pode ajudá-lo a economizar tempo real. Mas depois de conversar com alguns dos pesquisadores por trás do Astra, ainda há muitos obstáculos a serem superados.

Uma história gerada por IA sobre um dinossauro e uma baguete criada pelo Projeto Astra do GoogleUma história gerada por IA sobre um dinossauro e uma baguete criada pelo Projeto Astra do Google

Foto de Sam Rutherford/Engadget

Ao contrário de muitos dos recursos recentes de IA do Google, o Astra (que é descrito pelo Google como uma “prévia de pesquisa”) ainda precisa da ajuda da nuvem em vez de poder ser executado no dispositivo. E embora suporte algum nível de permanência do objeto, essas “memórias” duram apenas uma única sessão, que atualmente dura apenas alguns minutos. E mesmo que o Astra consiga lembrar as coisas por mais tempo, há coisas como armazenamento e latência a serem consideradas, porque para cada objeto que o Astra lembra, você corre o risco de desacelerar a IA, resultando em uma experiência mais afetada. Portanto, embora esteja claro que o Astra tem muito potencial, meu entusiasmo foi reduzido com o conhecimento de que levará algum tempo até que possamos obter mais funcionalidades completas.

A opinião de Karissa:

De todos os avanços da IA ​​generativa, a IA multimodal tem sido aquela que mais me intriga. Por mais poderosos que sejam os modelos mais recentes, tenho dificuldade em ficar entusiasmado com atualizações iterativas para chatbots baseados em texto. Mas a ideia de uma IA que pode reconhecer e responder a perguntas sobre o que está ao seu redor em tempo real parece algo saído de um filme de ficção científica. Também dá uma noção muito mais clara de como a última onda de avanços em IA chegará a novos dispositivos, como óculos inteligentes.

O Google deu uma dica disso com o Projeto Astra, que um dia poderá ter um componente de óculos, mas por enquanto é principalmente experimental (o Os vídeos durante a palestra I/O eram aparentemente um “protótipo de pesquisa”.) Pessoalmente, porém, o Projeto Astra não parecia exatamente algo saído de um filme de ficção científica.

Durante uma demonstração no Google I/O, o Project Astra conseguiu lembrar a posição dos objetos vistos pela câmera de um telefone. Durante uma demonstração no Google I/O, o Project Astra conseguiu lembrar a posição dos objetos vistos pela câmera de um telefone.

Foto de Sam Rutherford/Engadget

Ele foi capaz de reconhecer com precisão objetos colocados pela sala e responder a perguntas sutis sobre eles, como “com qual desses brinquedos uma criança de 2 anos deve brincar”. Ele conseguia reconhecer o que estava no meu rabisco e inventar histórias sobre os diferentes brinquedos que lhe mostrávamos.

Mas a maioria das capacidades do Astra pareciam estar no mesmo nível do que o Meta disponível com seus óculos inteligentes. A IA multimodal do Meta também pode reconhecer o que está ao seu redor e fazer um pouco de escrita criativa em seu nome. E embora a Meta também considere os recursos experimentais, eles estão pelo menos amplamente disponíveis.

O recurso do Astra que pode diferenciar a abordagem do Google é o fato de ele ter uma “memória” integrada. Depois de escanear vários objetos, ele ainda conseguia “lembrar” onde itens específicos foram colocados. Por enquanto, parece que a memória do Astra está limitada a uma janela de tempo relativamente curta, mas membros da equipe de pesquisa nos disseram que ela poderia, teoricamente, ser expandida. Obviamente, isso abriria ainda mais possibilidades para a tecnologia, fazendo o Astra parecer mais um verdadeiro assistente. Não preciso saber onde deixei meus óculos há 30 segundos, mas se você pudesse se lembrar onde os deixei ontem à noite, isso seria como uma ficção científica ganhando vida.

Mas, como acontece com grande parte da IA ​​generativa, as possibilidades mais interessantes são aquelas que ainda não aconteceram. O Astra pode chegar lá eventualmente, mas agora parece que o Google ainda tem muito trabalho a fazer para chegar lá.

Fique por dentro de todas as novidades do Google I/O 2024 direito aqui!

Fuente