O modelo de linguagem MM1 da Apple pode finalmente tornar o Siri útil

Principais conclusões

  • A Apple está trabalhando silenciosamente em IA generativa, com um modelo multimodal MM1 de até 64 bilhões de parâmetros.
  • O MM1 supera os concorrentes no raciocínio com imagens e instruções, estabelecendo o que há de mais moderno para modelos menores.
  • A Apple pode integrar o MM1 em dispositivos futuros, aproveitando a capacidade NPU existente para aprimoramento de IA no dispositivo.

A Apple tem trabalhado discretamente em IA generativa já há algum tempo, com o CEO da empresa, Tim Cook, fazendo o anúncio em uma recente teleconferência de resultados. Ninguém sabe realmente o que isso significa ainda, mas um artigo de pesquisa recente publicado sem muito alarde pelos engenheiros da empresa pode nos dar algumas pistas. O modelo de linguagem MM1 da Apple é um modelo multimodal com até 30 bilhões de parâmetros e também pode ser fornecido como um modelo de mistura de especialistas (MoE) que vai até 64 bilhões de parâmetros.

O que é especialmente interessante é que os pesquisadores também testaram um modelo de 3 bilhões de parâmetros, algo que é mais do que capaz de ser executado localmente em um dispositivo com uma quantidade modesta de RAM. Isso seria perfeito para alimentar um LLM que poderia sobrecarregar o Siri ou até mesmo substituí-lo totalmente.

Fonte

ChatGPT vs Microsoft Copilot vs Google Gemini: Quais são as diferenças?

Se você está tentando descobrir qual ferramenta de IA generativa é melhor, você veio ao lugar certo

MM1 em comparação com concorrentes

O artigo de pesquisa nos dá algumas pistas sobre o que esperar

Fonte: Maçã

No artigo de pesquisa, os pesquisadores demonstram como o MM1 pode raciocinar usando imagens e seguir instruções. Em um exemplo, o MM1 é comparado ao Emu-Chat-37B e ao LLaVA-NeXT-34B para analisar cervejas em uma mesa e calcular o preço. MM1 é o único que acertou a resposta e pode explicar seu raciocínio de maneira simples.

O que é especialmente interessante sobre os modelos menores, porém, é que esses pesquisadores afirmam que os modelos de parâmetros 3B e 7B do MM1 superam todos os modelos concorrentes de tamanho semelhante. Do papel:

Em média, MM1-3B-Chat e MM1-7B-Chat superam todos os modelos listados do mesmo tamanho, estabelecendo um novo estado da arte para esses tamanhos de modelo

A Apple também construiu um modelo de parâmetros 3B usando uma mistura de especialistas, o que melhora ainda mais seu desempenho. Vimos pela primeira vez o Mixture of Experts chegar ao mercado com o Mixtral 8x7B, proporcionando desempenho equivalente ao GPT 3.5 em um modelo que exigia apenas o hardware para um modelo 47B. Além disso, a inferência do MoE é normalmente mais rápida, proporcionando vantagens adicionais.

Em geral, MM1 parece competir favoravelmente em comparação com LLaVA, Gemini Nano e Emu2, especialmente quando se trata de Resposta Visual a Perguntas, ou VQA. Especialmente para modelos menores projetados para funcionar em dispositivos móveis, isso é uma enorme vantagem. Isso se refere à capacidade do modelo de responder a entradas visuais, incluindo a identificação do conteúdo da imagem e a razão com base nesses conteúdos.

O MM1 parece ter um desempenho forte por uma série de razões, e não está claro se a Apple acabará implementando-o em seus próprios dispositivos. Relatórios de Reuters sugerem que a empresa está atualmente em negociações com o Google para utilizar sua tecnologia Gemini, o que significa que o MM1 pode ser simplesmente um teste interno neste momento. Pode ser que um futuro MM2 ou MM3, por exemplo, possa ser usado em um futuro aparelho, mas a verdade é que nunca sabemos com a Apple.

O que é especialmente interessante é que Macs e iPhones possuem NPUs capazes de executar um LLM no dispositivo, e Macs são alguns dos poucos computadores que realmente o fazem. Intel e AMD são apenas iniciando para concentrar o desenvolvimento em NPUs como parte de seus chipsets, mas a Apple está aqui desde o lançamento de seu chip M1. Ele tem uma vantagem nesse departamento, o que pode ajudar em tudo o que a Apple planeja fazer no futuro.

Fonte

O que é Mixtral 8x7B? O LLM aberto dando ao GPT-3.5 uma corrida pelo seu dinheiro

Se você já ouviu falar do Mixtral 8x7B, mas não tem certeza do que o torna tão especial, temos todos os detalhes aqui

Siri precisa desesperadamente de uma atualização

Sempre foi pior, mas agora está mais para trás

A Siri sempre foi o pior dos assistentes digitais, mas à medida que concorrentes como o Google crescem, ela fica ainda mais para trás. A IA generativa é a próxima fronteira dos assistentes no dispositivo, e com empresas como Samsung e Google aumentando suas ofertas de IA no dispositivo, a Apple provavelmente não quer ficar para trás. A empresa sempre marchou ao ritmo do seu próprio tambor, mas ainda parece alguns pressão externa, e imagino que o abismo crescente entre suas ofertas em dispositivos está começando a realmente mostrar sua idade em relação ao Copilot e Gemini.

É difícil dizer quando o MM1 chegará a um dispositivo ou se um sucessor também chegará. A Apple não lançado este modelo de linguagem ainda; a empresa apenas publicou seu artigo de pesquisa com os resultados dos testes. Pode nunca ver a luz do dia e, no verdadeiro estilo da Apple, é possível que seja exatamente isso que aconteça. Uma coisa é certa: a Apple quer ser um participante importante em uma indústria em crescimento.

Fuente