近日,Meta公司因其使用數千本盜版書籍訓練人工智能模型的行為而陷入了版權侵權的訴訟之中。據報道,Meta使用了包含19.5萬本圖書、總容量近37GB的文本數據集“Books3”來訓練其LLAM 1和LLAM 2模型。盡管該公司承認了使用了這一數據集,但拒絕向其創作者支付相應的補償金。
“Books3”數據集由AI研究者Shawn Presser于2020年創建,旨在為改進機器學習算法提供更好的數據源。然而,在這個數據集中包含了大量從盜版網站Bibliotik爬取的受版權保護作品。因此,Meta在使用這個數據集進行訓練時面臨著法律風險。
值得注意的是,今年已經有幾位科技公司因在構建生成式AI模型時侵犯藝術家、作者和其他內容創作者的版權而受到指責。此外,歐盟正在制定關于人工智能的新臨時規則,這些規則可能會迫使公司披露用于訓練模型的數據集。這無疑將使他們面臨更大的法律風險。
【來源:中關村在線】