Meta revela o maior modelo de IA do Llama 3, reivindicando ganhos em linguagem e matemática

O modelo foi definido para ser gratuito, desafiando o ChatGPT-4 baseado em assinatura

Nova Iorque:

Meta Platforms lançou a maior versão de seus modelos de inteligência artificial Llama 3, em sua maioria gratuitos, na terça-feira, ostentando habilidades multilíngues e métricas gerais de desempenho que acompanham modelos pagos de rivais como OpenAI.

O novo modelo Llama 3 pode conversar em oito idiomas, escrever códigos de computador de maior qualidade e resolver problemas matemáticos mais complexos do que as versões anteriores, disse a controladora do Facebook em postagens de blog e em um artigo de pesquisa anunciando o lançamento.

Com 405 bilhões de parâmetros, ou variáveis ​​que o algoritmo leva em consideração para gerar respostas às consultas dos usuários, ele supera a versão anterior lançada no ano passado, embora ainda seja menor do que os principais modelos oferecidos pelos concorrentes.

O modelo GPT-4 da OpenAI, por outro lado, tem um trilhão de parâmetros e a Amazon está preparando um modelo com 2 trilhões de parâmetros.

Promovendo o Llama 3 em vários canais, o presidente-executivo Mark Zuckerberg disse esperar que os futuros modelos do Llama ultrapassassem os concorrentes proprietários no próximo ano. O chatbot Meta AI alimentado por esses modelos estava a caminho de se tornar o assistente de IA mais popular até o final deste ano, com centenas de milhões de pessoas já o utilizando, disse ele.

O lançamento ocorre num momento em que as empresas tecnológicas correm para mostrar que os seus portfólios crescentes de grandes modelos de linguagem, ávidos de recursos, podem proporcionar ganhos suficientemente significativos em áreas problemáticas conhecidas, como o raciocínio avançado, para justificar as somas gigantescas que foram investidas neles.

O principal cientista de IA da Meta disse acreditar que tais modelos enfrentarão limites de raciocínio e que outros tipos de sistemas de IA serão necessários para produzir avanços.

Além de seu modelo principal de 405 bilhões de parâmetros, a Meta também está lançando versões atualizadas de seus modelos Llama 3, mais leves, de 8 bilhões e 70 bilhões de parâmetros, inicialmente introduzidos na primavera, disse a empresa.

Todos os três novos modelos são multilíngues e podem lidar com solicitações maiores de usuários por meio de uma “janela de contexto” expandida, que o chefe de IA generativa da Meta, Ahmad Al-Dahle, disse que melhoraria a experiência de geração de código de computador em particular.

“Esse foi o principal feedback que recebemos da comunidade”, disse Al-Dahle à Reuters em entrevista, observando que janelas de contexto maiores dão aos modelos algo semelhante a uma memória mais longa que ajuda no processamento de solicitações de várias etapas.

Separadamente, Al-Dahle disse que sua equipe conseguiu melhorar o desempenho do modelo Llama 3 em tarefas como resolver problemas matemáticos usando IA para gerar alguns dos dados nos quais foram treinados.

A Meta lança seus modelos Llama em grande parte gratuitos para uso dos desenvolvedores, uma estratégia que Zuckerberg diz que compensará na forma de produtos inovadores, menos dependência de possíveis concorrentes e maior envolvimento nas principais redes sociais da empresa. No entanto, alguns investidores levantaram as sobrancelhas diante dos custos envolvidos.

A empresa também se beneficiará se os desenvolvedores optarem por usar seus modelos gratuitos em vez dos pagos, o que prejudicaria os modelos de negócios de seus rivais. Com seu anúncio, a Meta elogiou ganhos em testes importantes de matemática e conhecimento que podem tornar essa perspectiva mais atraente.

Embora medir o progresso no desenvolvimento de IA seja notoriamente difícil, os resultados dos testes fornecidos pela Meta pareciam sugerir que seu maior modelo Llama 3 estava quase igualando e, em alguns casos, superando o Claude 3.5 Sonnet da Anthropic e o GPT-4o da OpenAI, que são amplamente considerados como o dois modelos de fronteira mais poderosos do mercado.

No benchmark MATH de problemas de palavras matemáticas em nível de competição, por exemplo, o modelo da Meta registrou uma pontuação de 73,8, em comparação com 76,6 do GPT-4o e 71,1 do Claude 3,5 Sonnet.

O modelo obteve pontuação de 88,6 no MMLU, uma referência que cobre dezenas de disciplinas em matemática, ciências e humanidades, enquanto GPT-4o obteve pontuação de 88,7 e Claude 3,5 Sonnet obteve pontuação de 88,3.

Em seu artigo, os pesquisadores da Meta também provocaram as próximas versões “multimodais” dos modelos que serão lançados ainda este ano, que colocam recursos de imagem, vídeo e fala no topo do modelo de texto principal do Llama 3.

Os primeiros experimentos indicam que esses modelos podem funcionar “competitivamente” com outros modelos multimodais, como o Gemini 1.5 do Google e o Claude 3.5 Sonnet da Anthropic, disseram eles.

(Exceto a manchete, esta história não foi editada pela equipe da NDTV e é publicada a partir de um feed distribuído.)

Fuente