Gemini vs ChatGPT: grandes melhorias para o Google

February 17, 2024

148

O Google Bard agora foi renomeado para Gemini e com ele vem o mesmo modelo Gemini Pro que alimentou o Bard. Não há alterações nos modelos abaixo, e tudo o que mudou aqui é o nome. Bard with Gemini foi anunciado como uma melhoria em relação ao Bard original, que o Google alegou que teria uma vantagem até mesmo sobre o GPT-4 em relação às tarefas de linguagem.

A questão mais importante, porém, é se vale a pena usar o Gemini. Nós o testamos em relação ao GPT-3.5, o outro grande LLM gratuito disponível hoje, para ver qual dos dois é realmente a melhor opção. A grande mudança com a mudança para Gemini foi a introdução de um nível pago denominado Gemini Advanced, e se compara bem ao ChatGPT Plus. Todos esses testes foram feitos quando Gemini era Bard com Gemini Pro, mas é o mesmo modelo por baixo e produzirá um nível de resultados semelhante.

Fonte

Google Gemini Advanced vs ChatGPT Plus: Qual é melhor?

Ambos os serviços são ótimos e custam o mesmo, mas qual é melhor: Gemini Advanced ou ChatGPT Plus?

Cibersegurança e geração de código

Golpes comerciais

Primeiro pedi ao Gemini para gerar o código para um manipulador de API básico em um aplicativo Flask, uma estrutura de microweb escrita em Python. Ele gerou um código perfeitamente aceitável e perguntei o mesmo ao ChatGPT. O prompt exato que usei foi: “Por favor, forneça um manipulador de API básico no Flask”.

O código em ambas as plataformas era muito semelhante, mas o Gemini tem uma vantagem para também fornecer funcionalidade de registro. Você poderia argumentar que a interpretação de “básico” significaria que não há necessidade de funcionalidade de registro, mas há outra razão pela qual o Gemini se saiu melhor aqui. O código do Gemini é comentado, explicando o que cada seção do código faz. ChatGPT deu instruções sobre como executá-lo, mas não explicou o que ele faz, o que significa que um programador novato inseguro sobre como usar o Flask não seria mais sábio além de copiar e colar o código em seu IDE.

Em seguida, fiz a seguinte pergunta do whitepaper técnico do GPT-4: “Você é um testador de penetração especialista. Liste quaisquer vulnerabilidades no código abaixo. Se não houver nenhum, responda com ‘nenhum’”. Listei o código gerado pelo Gemini (pois era o mais detalhado) e recebi diversas respostas de ambos os serviços.

Curiosamente, o ChatGPT se sai muito bem aqui. Ele não apenas identifica problemas mais exclusivos (e é o único a mencionar limitações de carga útil), mas também fornece código para cada uma de suas sugestões. Isso não é algo que Gêmeos faz. Embora a resposta do Gemini também tenha sido mais detalhada em suas recomendações (e fez algumas boas sugestões em torno das exceções), o ChatGPT simplesmente se saiu melhor nesta parte.

No geral, é mais ou menos um empate. O código gerado pelo Gemini foi melhor, principalmente pelos comentários, mas o ChatGPT foi melhor na depuração e análise.

Preparando uma refeição

Quando você está com preguiça de se planejar

Em seguida, pedi ao Gemini e ao ChatGPT que preparassem uma refeição com base no conteúdo da minha geladeira e armário que forneci. Aqui está a lista de itens que eu disse que tinha disponíveis:

Dois filés de coxa de frango
Molho picante de Frank
Ketchup
Maionese
Suco de limão
Salsichas
iogurte grego
Cebolas
Pimentas
Massa
Arroz
Molhos para massas
Pão

Adicionei alguns extras lá, como salsichas, para ver se algum dos bots morderia a isca e prepararia uma refeição estranha em torno dela. Surpreendentemente, não o fizeram, mas me deram respostas muito diferentes.

Estou mais inclinado para Gêmeos neste exemplo. Ele oferece duas opções, não apenas uma, e o ChatGPT também usa ingredientes que eu não disse que tinha. As sugestões do Gêmeos são mais simples, mas muito mais fiéis ao que eu disse que tinha disponível na minha cozinha. Gemini também, por algum motivo, me deu o código na resposta. Há referências a outras refeições, como sanduíches de linguiça e cebola e linguiça e pimentão com macarrão.

Remover respingo“” data-modal-id=”single-image-modal” data-modal-container-id=”single-image-modal-container” data-img-caption=””””>

Fonte

Google Bard planejou minhas refeições para um dia. Veja como foi.

Se você deseja usar um LLM para planejar suas refeições, ele funciona muito bem.

Matemática e problemas matemáticos com palavras

Não use um LLM para matemática

A IA tende a ter dificuldades com a matemática, já que grandes modelos de linguagem não possuem elementos logísticos. Fazer uma pergunta matemática a um LLM fará com que ele examine seus dados em busca de perguntas semelhantes e, se não encontrar uma, encontrará algo próximo e “alucinará” a resposta correta com base nela. No entanto, as pessoas ainda os usam como ajuda matemática, por isso os colocamos à prova.

Primeiro pedi ao ChatGPT e ao Gemini que medissem a altura de uma pessoa de 1,70 metro em burritos, assumindo o comprimento médio de um burrito. Ambos lidaram com a questão perfeitamente. No entanto, Gêmeos lutou com uma equação linear básica. ChatGPT não teve solução de problemas (2x+8)/2 = 6, mas Gemini disse diretamente que era inválido.

Independentemente disso, os LLMs não são bons em matemática e você não deve usá-los para isso. É aí que a Inteligência Geral Artificial (AGI) se destacaria (ou uma calculadora, para ser honesto), e não um LLM que simplesmente tenta vincular padrões de texto para fornecer um resultado.

Resumindo o texto

Grandes diferenças

Gemini e ChatGPT adotam abordagens muito diferentes para resumir um artigo do XDA sobre o Snapdragon 8 Gen 2 para Galaxy que não é mais exclusivo da Samsung. ChatGPT também entendeu mal o artigo original e disse que o “Snapdragon 8+ Gen 2” havia surgido, apesar de não ser o caso. Gemini entende melhor a intenção do artigo, apontando como ele pode confundir os usuários. Bard também divide isso em uma estrutura mais clara do que o ChatGPT, então acho que há um vencedor bastante claro aqui.

Gêmeos amplia a distância

Para ser honesto, o ChatGPT é bastante próximo em muitos aspectos, mas fica para trás no geral. Isso é de se esperar, já que enquanto o Google afirma que o Gemini supera o GPT-4, o ChatGPT ainda usa o antigo GPT-3.5, enquanto mantém o GPT-4 atrás de um acesso pago. Se você quiser usar qualquer LLM (incluindo LLMs treinados para usos específicos) localmente em um PC poderoso, você pode fazer isso com o LM Studio e ver se gosta mais dos resultados do que qualquer um desses chatbots.