OpenAI pode ter Apple, Amazon e Google em vista para seu próximo grande impulso de inteligência artificial, conquistando o mercado de assistentes de voz com uma nova ferramenta Voice Engine.
Embora o ChatGPT tenha uma interface amigável para voz no celular – e recentemente tenha introduzido uma maneira de fazer com que ele fale suas respostas no desktop – um novo aplicativo de marca registrada da OpenAI para as palavras Voice Engine refere-se especificamente à construção de assistentes de voz digitais.
Agora é possível trocar o assistente de voz padrão no Android. A Apple parece estar em negociações com uma série de empresas de IA sobre o futuro da inteligência artificial no iPhone, então este poderia ser um movimento preventivo da construção da OpenAI em um novo mercado potencial.
Há também rumores de que a Apple abrirá uma App Store dedicada à IA com a próxima grande atualização para iOS, o que criaria um novo mercado para assistentes com tecnologia de IA.
Sam Altman, CEO da OpenAI, disse que “muitas coisas diferentes” serão lançadas este ano. Embora seja esperado que isso inclua Sora, a ferramenta de vídeo de IA pode incluir um novo sistema de voz de IA.
O que sabemos sobre o Voice Engine
Não sabemos muito sobre o Voice Engine ou se será mesmo um produto. A OpenAI não comentou publicamente sobre isso, então tudo o que temos são rumores e o pedido de marca registrada.
Embora o Voice Engine possa ser um novo modelo construído especificamente para aplicações de fala, também é provável que isso faça parte de um jogo empresarial para OpenAI. Poderia ser a construção de um sistema de fala de alta qualidade que permitiria às empresas criar bots de call center mais eficientes.
O novo pedido de marca registrada foi apresentado ao Escritório de Marcas e Patentes dos EUA na semana passada. Embora um aplicativo não signifique necessariamente que resultará em um produto, isso se alinha com a mudança mais ampla do mercado para voz e com a direção da OpenAI para modelos direcionados.
O processo cobre a criação de software usado para construir assistentes de voz digital, geração de áudio a partir de prompts de texto, processamento de comandos de voz e entrega de serviços de voz.
O aplicativo completo cobre o desenvolvimento da entrega de serviços de voz, usando IA para texto ou voz e texto para áudio, linguagem natural e processamento de fala, gerando áudio e voz a partir de um prompt (texto, fala, visual, imagem), processamento comandos de voz, reconhecimento de fala e construção de assistentes de voz digitais.
Isso se parece muito com todas as peças que você precisa para um assistente de voz de IA totalmente funcional e interativo que pode lidar com tarefas complexas, conversar naturalmente e até mesmo atender chamadas em seu nome.
Onde o GPT-5 se encaixa nisso?
OpenAI lançou o GPT-4 há um ano. Na época, este era um modelo inovador de IA generativa que alimentava o ChatGPT e o Microsoft Copilot.
A empresa também começou a treinar o GPT-5 no final do ano passado, resultando em especulações sobre sua data de lançamento. Altman disse ao podcaster Lex Fridman: “Lançaremos um novo modelo incrível este ano”, mas não confirmou se era o GPT-5 ou algum precursor.
Ele também disse que “muitas coisas diferentes” seriam lançadas nos próximos meses. De acordo com Mira Murati, CTO da OpenAI, isso incluirá a plataforma de vídeo AI Sora.
Há alguma especulação nas redes sociais de que Sora e este novo Voice Engine são interfaces modais diferentes para GPT-5.
É muito provável que o GPT-5 seja um verdadeiro modelo multimodal, capaz de compreender vídeo, imagens, fala, texto e código – bem como gerar todos esses tipos de conteúdo.
Voice Engine pode ser um novo assistente
Dada a descrição da marca registrada, também é possível que o Voice Engine seja um novo assistente de voz, mesclando os recursos mais amplos do Siri, Alexa ou Google Assistant com os recursos de raciocínio e linguagem natural do ChatGPT.
O Google já começou a atualizar o Gemini para funcionar dessa forma, há rumores de que a Apple está construindo uma nova versão do Siri com grande funcionalidade de modelo de linguagem e a Amazon já está testando o Alexa Plus com habilidades subjacentes semelhantes.
A OpenAI pode oferecer o Voice Engine para alimentar esses sistemas no futuro ou como uma interface alternativa ao ChatGPT que pode ser executada em alto-falantes inteligentes, telefones ou até mesmo fones de ouvido.
Ou pode ser apenas a OpenAI sendo cautelosa com as marcas registradas. Teve uma proposta para proteger o GPT rejeitada, por isso agora apresentou pedidos de marca registrada para GPT-5, 6 e até mesmo GPT-7. Este último inclui geração de música, conversão de texto e dados em código e escrita de código do zero.
Mais do Guia do Tom
Voltar para laptops