Os autores afirmam que a Meta explorou materiais protegidos por direitos autorais para treinamento em IA, apesar dos avisos de seus próprios advogados
Os autores afirmam que a Meta utilizou materiais protegidos por direitos autorais para treinamento em IA, desconsiderando conselhos preventivos de seu próprio consultor jurídico.

De acordo com um processo recente em um caso de violação de direitos autorais apresentado originalmente no verão passado, o advogado da Meta Platforms (NASDAQ: META ) alertou-a sobre os riscos legais de utilizar milhares de livros piratas para treinar seus modelos de IA, mas a empresa o fez mesmo assim.
O novo processo, apresentado na noite de segunda-feira, combina duas ações movidas contra o proprietário do Facebook e do Instagram pela comediante Sarah Silverman, pelo vencedor do Prêmio Pulitzer Michael Chabon e outros autores proeminentes, que afirmam que Meta usou seus trabalhos sem permissão para treinar seu artificial. modelo de linguagem de inteligência, Llama.
No mês passado, um tribunal da Califórnia rejeitou uma parte da queixa de Silverman e sugeriu que ele concederia aos escritores liberdade para alterar as suas alegações.
A Meta não reagiu rapidamente a um pedido de comentário sobre as alegações.
O novo caso, aberto na segunda-feira, inclui registros de bate-papo de um pesquisador afiliado à Meta discutindo a aquisição do conjunto de dados em um canal Discord, uma evidência potencialmente importante indicando que a Meta estava ciente de que o uso dos livros poderia não ser coberto pelos direitos autorais dos EUA. lei.
Nos registros de bate-papo citados na reclamação, o pesquisador Tim Dettmers explica suas idas e vindas com o departamento jurídico da Meta sobre se o uso dos arquivos do livro como dados de treinamento era “legalmente aceitável”.
“No Facebook, há muitas pessoas interessadas em trabalhar com (T)he (P)ile, inclusive eu, mas em sua forma atual, não podemos usá-lo por motivos legais”, escreveu Dettmers em 2021, referindo-se a um conjunto de dados que Meta admitiu usar para treinar sua primeira versão do Llama, de acordo com a denúncia.
Dettmers escreveu um mês antes que os advogados de Meta o haviam avisado que “os dados não podem ser usados ou os modelos não podem ser publicados se forem treinados com base nesses dados”, de acordo com a denúncia.
Embora Dettmers não tenha abordado as preocupações dos advogados, seus colegas de bate-papo mencionam “livros com direitos autorais ativos” como a fonte mais provável de preocupação. Eles argumentam que o treinamento em dados deveria “se enquadrar no uso justo”, uma estrutura legal nos Estados Unidos que cobre certos usos não licenciados de material protegido por direitos autorais.
Dettmers, estudante de doutorado na Universidade de Washington, disse à Reuters que não poderia comentar as alegações imediatamente.
Este ano, as empresas tecnológicas foram atingidas por uma enxurrada de ações judiciais de produtores de conteúdos, acusando-as de roubar obras protegidas por direitos de autor, a fim de construir modelos generativos de IA que se tornaram uma sensação global e desencadearam um frenesim de investimentos.
Se forem bem sucedidos, os casos poderão atenuar o frenesim generativo da IA, forçando as empresas de IA a compensar artistas, autores e outros produtores de conteúdos pela utilização das suas obras, aumentando o custo de construção de modelos que consomem muitos dados.
Simultaneamente, novas regras provisórias que regem a inteligência artificial na Europa poderão obrigar as empresas a revelar os dados que utilizam para treinar os seus modelos, expondo-as possivelmente a perigos jurídicos adicionais.
Em fevereiro, a Meta revelou a versão inicial de seu modelo de grande linguagem Llama e divulgou uma lista de conjuntos de dados usados para treinamento, que incluía “a seção Books3 do ThePile”. De acordo com a denúncia, quem compilou o conjunto de dados afirmou em outro local que ele contém 196.640 livros.
A empresa não divulgou dados de treinamento para sua versão mais recente do modelo, Llama 2, que foi disponibilizada comercialmente neste verão.
Para empresas com menos de 700 milhões de usuários ativos mensais, o uso do Llama 2 é gratuito. A sua introdução foi vista como um potencial divisor de águas no mercado de software de IA generativo, ameaçando o domínio de concorrentes como OpenAI e Google (NASDAQ: GOOGL ), que cobram pela utilização dos seus modelos.
Desconto de bônus para auxiliar os investidores a se desenvolverem no mundo das negociações!