A OpenAI continua provocando os recursos de seu modelo de vídeo generativo Sora e os clipes mais recentes estão cada vez mais próximos de uma produção de Hollywood do que qualquer outro que vimos da IA até agora – e tudo a partir de um único prompt.
Sora não está disponível para ninguém fora do OpenAI (e para um grupo seleto de testadores), mas estamos tendo uma ideia do que é possível à medida que eles compartilham o resultado nas redes sociais.
Na primeira rodada de lançamentos de vídeos vimos cenas de cachorros brincando na neve, um casal em Tóquio e um sobrevoo de uma cidade mineradora de ouro na Califórnia do século XIX.
Agora estamos vendo clipes de um único prompt que parecem produções completas com múltiplas tomadas, efeitos e movimentos consistentes em vídeos de até um minuto.
Quais são alguns dos novos clipes?
“voe por um museu com muitas pinturas e esculturas e belas obras de arte em todos os estilos”Vídeo gerado por #Sora pic.twitter.com/SNr9dQZe5V2 de março de 2024
Os clipes que vimos sugerem o futuro do verdadeiro entretenimento generativo. Quando combinado com outros modelos de IA para som, sincronização labial ou até plataformas de nível de produção como o LTX Studio, a criatividade torna-se verdadeiramente acessível.
Blaine Brown, um criador no X compartilhou um vídeo que combinava o alienígena Sora de Bill Peebles com Pika Labs Lip Sync e uma música criada usando Suno AI para fazer um videoclipe.
O sobrevôo do museu por Tim Brooks é impressionante pela variedade de tomadas e fluxo de movimento que consegue – parecendo um vídeo de drone, mas em ambientes fechados.
Outros, como um casal fazendo uma refeição em um aquário glorificado, mostram suas capacidades com movimentos complexos, mantendo um fluxo consistente durante todo o clipe.
Como Sora se compara?
Esse clipe do Sora é ???? quando o cara alienígena explode em um rap sincronizado com os lábios sobre como é difícil ser diferente de todos os outros. Fluxo de trabalho no tópico.@suno_ai_ @pika_labs (sincronização labial)Alienar-se ???????????? pic.twitter.com/kc5FI83q5R3 de março de 2024
Sora é um momento significativo no vídeo de IA. Ele utiliza uma combinação da tecnologia de transformador em chatbots como ChatGPT e os modelos de difusão de geração de imagens encontrados em MidJourney, Stable Diffusion e DALL-E.
No momento, ele pode fazer coisas que não são possíveis com nenhum dos outros grandes modelos de vídeo de IA, como o Gen-2 da Runway, o Pika Labs Pika 1.0 ou o Stable Video Diffusion 1.1 da StabilityAI.
No momento, as ferramentas de vídeo de IA disponíveis criam clipes de 1 a 4 segundos, às vezes lutando com movimentos complexos, mas o realismo é quase tão bom quanto Sora.
No entanto, outras empresas de IA estão observando o que Sora pode fazer e como ele foi produzido. StabilityAI confirmou que Stable Diffusion 3 seguirá uma arquitetura semelhante e provavelmente veremos um modelo de vídeo eventualmente.
A Runway já fez ajustes em seu modelo Gen-2 e estamos vendo movimentos e desenvolvimento de personagens muito mais consistentes, e Pika revelou Lip Sync como um recurso de destaque para trazer mais realismo aos personagens.