作者稱,儘管 Meta 自己的律師提出警告,但仍使用受版權保護的書籍進行人工智慧培訓
作者聲稱 Meta 使用受版權保護的資料進行人工智慧培訓,無視其自身法律顧問的警告建議。

根據今年夏天最初提起的版權侵權訴訟中的一份新文件,Meta Platforms(納斯達克股票代碼:META)的律師曾警告其使用數千本盜版書籍來訓練其人工智慧模型的法律風險,但該公司還是這麼做了。
週一晚間提交的新文件合併了喜劇演員莎拉·西爾弗曼(Sarah Silverman)、普利策獎得主邁克爾·查邦(Michael Chabon) 和其他著名作家對Facebook 和Instagram 所有者提起的兩起訴訟,他們指控Meta 未經許可使用他們的作品來訓練其人工智慧語言模型,駱駝。
加州法官上個月駁回了西爾弗曼訴訟的部分內容,並表示他將允許提交人修改他們的主張。
Meta 沒有立即回應對這些指控發表評論的請求。
週一提交的新投訴包括一位 Meta 附屬研究人員討論在 Discord 伺服器中採購資料集的聊天記錄,這是一個潛在的重要證據,表明 Meta 意識到其對這些書籍的使用可能不受美國的保護。版權法。
在投訴中引用的聊天記錄中,研究員 Tim Dettmers 描述了他與 Meta 法律部門就使用書籍文件作為訓練資料是否「合法」進行的反覆討論。
「在Facebook,有很多人有興趣與(T)he (P)ile 合作,包括我自己,但就目前的形式而言,我們出於法律原因無法使用它,」Dettmers 在2021 年寫道,指的是根據起訴書,Meta 承認使用資料集來訓練其第一個版本的 Llama。
一個月前,德特莫斯寫道,Meta 的律師告訴他,「如果他們接受了這些數據的訓練,就不能使用這些數據,也不能發布模型」。
雖然戴特莫斯沒有描述律師們的擔憂,但他在聊天中的同行認為「具有有效版權的書籍」是最可能的擔憂來源。 他們表示,對資料的培訓應該“屬於合理使用”,這是一項美國法律原則,旨在保護受版權保護的作品的某些未經許可的使用。
華盛頓大學博士生德特莫斯告訴路透社,他無法立即對這些說法發表評論。
今年,科技公司面臨來自內容創作者的大量訴訟,這些內容創作者指控他們抄襲受版權保護的作品來構建生成人工智慧模型,這些模型引起了全球轟動並刺激了投資狂潮。
如果成功,這些案例可能會抑制生成式人工智慧的熱潮,因為它們可能會迫使人工智慧公司向藝術家、作家和其他內容創作者提供使用其作品的補償,從而提高構建需要大量數據的模型的成本。
同時,歐洲監管人工智慧的新臨時規則可能會迫使公司揭露用於訓練模型的數據,這可能會使它們面臨更多法律風險。
Meta 在 2 月發布了 Llama 大語言模型的第一個版本,並發布了用於訓練的資料集列表,其中包括「ThePile 的 Books3 部分」。 根據起訴書,收集該資料集的人曾在其他地方表示,該資料集包含 196,640 本書。
該公司沒有透露其最新版本的模型 Llama 2 的訓練數據,該模型於今年夏天投入商業使用。
Llama 2 可供每月活躍用戶數低於 7 億的公司免費使用。 它的發佈在科技領域被視為潛在的人工智慧生成軟體市場遊戲規則改變者,有可能顛覆 OpenAI 和Google(納斯達克股票代碼:GOOGL)等對其模型使用收費的參與者的主導地位。
紅利金加持,助投資人在交易世界成長!