Modelos de inteligência artificial (IA) precisam de dados para serem treinados, mas há escassez deles. Para lidar com isso, algumas gigantes da tecnologia recorreram a uma base com dados extraídos de milhares de vídeos do YouTube. O problema é que essa coleta foi feita sem permissão.
Entre as gigantes que treinaram modelos de IA com dados de vídeos do YouTube estão Anthropic, Apple, Nvidia e Salesforce. Por trás dos canais afetados estão youtubers famosos, como Marquees Brownlee (MKBHD), MrBeast e PewDiePie. É o que aponta uma investigação da Proof News.
O relatório revela ainda que a coleta indevida de dados foi feita por uma organização sem fins lucrativos chamada EleutherAI, que afirma ter o intuito de contribuir para treinamentos de modelos de IA.
A EleutherAI foi criada para atender a pequenos desenvolvedores ou a projetos acadêmicos, presumivelmente. Mas sabe-se agora que grandes organizações também utilizam os seus recursos. É aqui que os problemas começam.
Coleta de dados “terceirizada”
Os dados utilizados por big techs fazem parte de uma compilação chamada Pile, com mais de 800 GB de tamanho. Esse conjunto inclui dados de fontes como Wikipedia, Parlamento Europeu e YouTube. Neste último, a coleta não envolve os vídeos em si, mas legendas que aparecem neles.
A compilação inclui legendas ou transcrições de 173.536 vídeos oriundos de mais de 48.000 canais no YouTube, aponta a Proof News. Além de youtubers famosos, foram afetados canais de organizações como Khan Academy, MIT e Harvard.
O que companhias como Apple, Nvidia e Salesforce fizeram foi utilizar os dados do Pile, até porque grande parte deles está disponível livremente para qualquer pessoa ou organização. No caso da Apple, os tais dados foram usados para treinar a OpenELM.
Aparentemente, não houve má-fé de nenhuma dessas gigantes. Elas recorreram à compilação da EleutherAI por terem encontrado ali uma fonte aberta de dados para treinar seus modelos de IA.
A EleutherAI é que parece ter agido de modo indevido, portanto. De todo modo, essa situação reforça a importância de as organizações se cercarem de cuidados ao utilizar dados de terceiros para treinar modelos de IA. Uma checagem da procedência dos dados do Pile poderia ter evitado possíveis implicações legais.
O que dizem as organizações envolvidas
A EleutherAI não se pronunciou sobre o assunto até o momento. Apple e Nvidia também não responderam aos pedidos de comentários feitos pela Wired.
Já a Anthropic confirmou o uso de um “subconjunto muito pequeno de legendas do YouTube”, mas que possíveis queixas de violações de direitos autorais devem ser feitas aos responsáveis pelo Pile.
Por fim, a Salesforce confirmou o uso dos dados para “fins acadêmicos e de pesquisa”, mas porque eles estavam disponíveis publicamente.
Sem nenhuma surpresa, a situação não agradou aos youtubers afetados. É o caso de Marques Brownlee. Com certa resignação, ele prevê que esse tipo de problema irá ocorrer ainda por um bom tempo. Pelo o que se sabe, nenhum deles foi procurado para autorizar a coleta dados.
Apple e outras empresas treinaram IA com vídeos do YouTube, sem permissão