Captura de tela do homepad Runway AI.

A empresa de IA Runway supostamente copiou “milhares” de vídeos do YouTube e versões pirateadas de filmes protegidos por direitos autorais sem permissão. 404 Mídia obtido supostas planilhas internas sugerindo que a startup de geração de vídeo de IA treinou seu modelo Gen-3 usando conteúdo do YouTube de canais como Disney, Netflix, Pixar e meios de comunicação populares.

Um suposto ex-funcionário da Runway disse à publicação que a empresa usou a planilha para sinalizar listas de vídeos que queria em seu banco de dados. Em seguida, ele os baixaria sem detecção, usando software proxy de código aberto para encobrir seus rastros. Uma folha lista palavras-chave simples como astronauta, fada e arco-íris, com notas de rodapé indicando se a empresa encontrou vídeos correspondentes de alta qualidade para treinar. Por exemplo, o termo “super-herói” inclui uma nota que diz: “Muitos clipes de filme”. (De fato.)

Outras notas mostram canais do YouTube sinalizados pela Runway para Unreal Engine, o cineasta Josh Neuman e uma página de fãs de Call of Duty como boas fontes para vídeos de treinamento de “alto movimento”.

“Os canais naquela planilha foram um esforço de toda a empresa para encontrar vídeos de boa qualidade para construir o modelo”, disse o ex-funcionário 404 Mídia. “Isso foi então usado como entrada para um enorme rastreador da web que baixou todos os vídeos de todos esses canais, usando proxies para evitar ser bloqueado pelo Google.”

Captura de tela do homepad Runway AI.

Pista

Uma lista de quase 4.000 canais do YouTube, compilada em uma das planilhas, sinalizou “canais recomendados” da CBS New York, AMC Theatres, Pixar, Disney Plus, Disney CD e Monterey Bay Aquarium. (Porque nenhum modelo de IA está completo sem lontras.)

Além disso, a Runway compilou uma lista separada de vídeos de sites de pirataria. Uma planilha intitulada “Fonte que não é do YouTube” inclui 14 links para fontes, como um arquivo on-line não autorizado de Filmes do Estúdio Ghiblisites de pirataria de anime e filmes, um site de fãs que exibe vídeos de jogos do Xbox e o site de streaming animado beijocartoon.sh.

No que poderia ser visto como uma confirmação contundente de que a empresa utilizou os dados de treinamento, 404 Mídia descobriu que solicitar ao gerador de vídeo os nomes de YouTubers populares listados na planilha gerava resultados com uma estranha semelhança. Crucialmente, inserir os mesmos nomes no modelo Gen-2 mais antigo da Runway – treinado antes dos supostos dados nas planilhas – gerou resultados “não relacionados”, como homens genéricos de terno. Além disso, depois que a publicação entrou em contato com a Runway perguntando sobre as semelhanças dos YouTubers que apareciam nos resultados, a ferramenta de IA parou de gerá-las completamente.

“Espero que, ao compartilhar essas informações, as pessoas entendam melhor a escala dessas empresas e o que elas estão fazendo para criar vídeos ‘legais’”, disse o ex-funcionário. 404 Mídia.

Quando contatado para comentar, um representante do YouTube indicou ao Engadget um entrevista seu CEO Neal Mohan deu a Bloomberg em abril. Nessa entrevista, Mohan descreveu o treinamento em seus vídeos como uma “clara violação” de seus termos. “Nossos comentários anteriores sobre isso ainda permanecem”, escreveu o porta-voz do YouTube, Jack Mason, ao Engadget.

A Runway não respondeu a um pedido de comeInt até o momento da publicação.

Pelo menos algumas empresas de IA parecem estar numa corrida para normalizar as suas ferramentas e estabelecer liderança de mercado antes que os utilizadores – e os tribunais – percebam como a sua salsicha foi feita. Treinar com permissão por meio de acordos licenciados é uma coisa, e essa é outra tática que empresas como OpenAI adotou recentemente. Mas é uma proposta muito mais superficial (se não ilegal) tratar toda a Internet – com material protegido por direitos de autor e tudo – como algo disponível numa corrida vertiginosa pelo lucro e pelo domínio.

404 Mídiaé excelente vale a pena ler reportagens.

Fuente