5 coisas que queremos ver do GPT-5

March 25, 2024

Principais conclusões

GPT-5 precisa de uma janela de contexto maior para ser competitivo
A capacidade de entrada de vídeo é crucial para o sucesso do GPT-5
GPT-5 deve melhorar a velocidade de resposta e o raciocínio lógico para uma grande atualização

GPT-5 tem sido um tema quente já há algum tempo, e o CEO da OpenAI, Sam Altman, fez recentemente comentários sobre o futuro do modelo GPT no podcast de Lex Fridman. Nesse podcast, ele afirmou que o GPT-4 “é uma droga” agora e que está ansioso pelo que vem a seguir. Ele se recusou a referir-se a ele como “GPT-5”, mas um relatório recente do Insider de negócios nomeou-o como tal, com pessoas familiarizadas com o LLM referindo-se a ele como “materialmente melhor” quando comparado ao GPT-4.

Janela de contexto maior

Parte do que torna Gêmeos tão poderoso

Uma janela de contexto é essencialmente o quanto um LLM pode “ver” em um determinado momento, e parte do que torna o Gemini tão poderoso é sua capacidade de ter uma janela de contexto de até 10 milhões de tokens. Embora a quantidade de memória necessária para isso seja absurda, uma janela de contexto maior ainda seria incrível. O GPT 4 tem uma janela de contexto de 32K, e o GPT-4 Turbo aumenta para 128K. Isso é bastante significativo, mas o Google ainda superou esse número significativamente com o Gemini 1.5.

Como já mencionado, existem aqui limitações de memória que a empresa precisaria resolver no lado do servidor, mas há avanços nesta área que poderiam tornar isso possível para os usuários finais.

Fonte

O Gemini 1.5 Ultra do Google precisará competir com o GPT-5, não com o GPT-4

O modelo Gemini 1.5 Pro do Google nos impressionou, e o modelo Ultra poderia ser ainda melhor.

Entrada de vídeo

Verdadeira multimodalidade

GPT-4 com visão é um modelo que já existe e pode interpretar dados visuais para depois utilizar na tomada de decisões. O problema é que é muito lento interpretar adequadamente várias imagens com rapidez suficiente, o que significa que a entrada de vídeo está atualmente fora de questão. Seria ótimo se a OpenAI avançasse nesta área, permitindo que o GPT-5 realmente levasse em consideração as entradas de vídeo. Estou esperançoso, especialmente porque a empresa tem feito progressos decentes na IA de vídeo em geral, especialmente com a revelação de Sora. O Google também está trabalhando na entrada de vídeo com o Gemini 1.5 e parece promissor.

Fonte

Sora da OpenAI não é o fim do mundo… ainda

O novo modelo de vídeo Sora da OpenAI ainda não é o fim do mundo, embora o que o futuro possa reservar não esteja claro.

Respostas mais rápidas

GPT-4 é muito mais lento que a concorrência

Com o passar do tempo, o GPT-4 simplesmente se tornou muito lento quando se trata de gerar respostas. Embora parte disso se deva quase certamente à enxurrada de tráfego que a OpenAI recebe diariamente, concorrentes como Google e Anthropic conseguem responder muito mais rápido. A OpenAI precisa melhorar os tempos de geração de resposta e, esperançosamente, o GPT-5 pode ser um modelo mais eficiente para fazer isso.

Pessoalmente, esta é a minha maior reclamação com o GPT-4 no momento. Gemini Advanced do Google especialmente é muito mais rápido do que o OpenAI pode oferecer, a ponto de poder gerar uma resposta que sei que será longa em ambos os serviços e o Gemini terminará um todo minuto mais rápido.

Raciocínio lógico aprimorado

GPT-4 está começando a ficar para trás

O raciocínio lógico é difícil para qualquer LLM, especialmente porque são simplesmente algoritmos de gerenciamento de padrões glorificados. Eles podem construir respostas com base em coisas que já viram antes, mas qualquer coisa além disso é uma suposição. No caso da matemática, os LLMs têm dificuldades porque se uma pergunta não estiver no seu conjunto de treinamento, eles simplesmente adivinham qual deveria ser a resposta para preencher as lacunas.

O raciocínio lógico é algo que precisa ser enormemente melhorado para que o OpenAI obtenha outra grande vantagem, já que empresas como Gemini Advanced e Claude 3 Opus do Google conseguiram melhorar muito nesta área.

Microsoft e Google têm 365 e G Suite, mas o que OpenAI tem?

Fonte: Microsoft

Se você estiver usando o Microsoft Copilot Pro ou o Google Gemini Advanced, provavelmente conhece as integrações de ferramentas que obtém com qualquer um dos serviços. O Copilot Pro possui integração total com o Microsoft 365 e o Gemini Advanced possui integração total com o Google Suite. Essas são vantagens muito grandes sobre os concorrentes, a tal ponto que o Copilot Pro é simplesmente uma compra melhor para a maioria das pessoas em relação ao ChatGPT Plus.

Com o GPT-5, seria bom ver essa mudança com mais integrações para outros serviços. Dado que o suporte a plug-ins parece estar diminuindo em favor de GPTs personalizados, espero que a lista de vantagens do OpenAI esteja começando a diminuir, especialmente considerando que o Copilot também possui GPTs personalizados. Eu adoraria ver a parceria da OpenAI com outras empresas para apresentar recursos exclusivos.

Fonte

4 razões pelas quais o Copilot Pro é melhor que o ChatGPT Plus

A Microsoft está usando os modelos da OpenAI para oferecer o serviço de assinatura Copilot Pro e, ainda assim, é uma opção melhor que o ChatGPT Plus.

Esperamos que o GPT-5 seja grande

Essas são algumas das coisas mais importantes que espero quando se trata da próxima iteração do GPT, mas, para ser honesto, a empresa pode seguir em qualquer direção. Com os comentários de Altman aparentemente revelando que o GPT-5 será uma grande atualização, certamente estamos esperançosos, mas não há garantia de que a empresa conseguirá recuperar a enorme vantagem que tinha sobre o resto da indústria quando o ChatGPT foi lançado pela primeira vez. .

Fuente