(ChinaZ.com) 8月8日消息:Prosecraft.io 是一個(gè)網(wǎng)站,它使用小說來支持一個(gè)以數(shù)據(jù)驅(qū)動(dòng)的項(xiàng)目,用于顯示字?jǐn)?shù)、被動(dòng)語態(tài)和其他更加主觀的寫作風(fēng)格標(biāo)記,比如生動(dòng)性。
但在作者們抗議這個(gè)項(xiàng)目之后,Prosecraft 今天關(guān)閉了。Prosecraft 使用超過 25,000 本書的全部文本——這都是受版權(quán)保護(hù)的材料——以便開發(fā)一個(gè)數(shù)據(jù)庫。作者們知道了這個(gè)項(xiàng)目,立即對此表示了強(qiáng)烈的不滿。
Zach Rosenberg 是第一個(gè)在 X(以前被稱為 Twitter)網(wǎng)站上引起作者們廣泛關(guān)注的人。很快,越來越多的作者開始發(fā)聲,其中包括高知名度的作者,比如 Jeff VanderMeer(《The Southern Reachtrilogy》),Indra Das(《The Devourers》),Gretchen Felker-Martin(《Manhunt》)。
其中一部分原因是 Prosecraft 承認(rèn)使用了「人工智能算法」。在 2018 年 10 月 5 日的一篇博客文章中,Prosecraft 和基于 Prosecraft 庫挖掘出來的數(shù)據(jù)構(gòu)建的寫作程序 Shaxpir 的開發(fā)者 Benji Smith 表示,「我們教會了我們的機(jī)器學(xué)習(xí) [AI] 算法識別哪些詞匯可以在哪些上下文中使用,通過觀察在類似的句子和段落中出現(xiàn)的詞匯和短語的類型。」此外,他寫道,Shaxpir「分析了來自 3300 多位知名作者撰寫的 580 多萬字的小說。」他沒有透露自己從哪里獲得這些小說,也沒有透露是否獲得了許可。
雖然使用的技術(shù)并不一定是像 ChatGPT 那樣的大型語言生成模型,但可以說,將生成的 LLM 算法納入 Prosecraft 的規(guī)劃是有可能的。而且由于該網(wǎng)站有龐大的圖書庫,作者們的擔(dān)憂是完全合理的。在此次抗議之后,Smith 在 Medium 上寫了一篇長篇博客,解釋了為什么他自愿關(guān)閉了 Prosecraft。
盡管 Prosecraft 只使用了文本的一部分,但它并沒有得到任何作者或出版商的許可來創(chuàng)建基于作者全部作品或整本書的數(shù)據(jù)庫。Smith 在博客上寫道,「由于我只發(fā)布了摘要統(tǒng)計(jì)數(shù)據(jù)和從這些書中提取的小段落,我相信我尊重了公平使用原則的精神,這并不需要原始作者的同意。」
盡管這個(gè)說法有些道理,但公平使用并不允許你在沒有獲得許可的情況下使用作者的整本受版權(quán)保護(hù)的作品,作為一個(gè)反映在你自己的「AI 算法」上的數(shù)據(jù)訓(xùn)練程序的一部分。雖然這種情況肯定會給很多人上一課,但很明顯,作者們不會允許他們的作品被用來訓(xùn)練 LLM 和矢量網(wǎng)絡(luò)。
最后,在一篇包含數(shù)十段文章的最后幾段中,Smith 說「我聽到了你們的反對意見,我希望你們能接受我最誠摯的歉意。」他在帖子的最后表示,他希望有一天「在作者和出版商的同意下重建這個(gè)項(xiàng)目」,社交媒體上的作家認(rèn)為這暗示著他實(shí)際上并沒有刪除他的圖書數(shù)據(jù)庫,這意味著數(shù)據(jù)仍然可以假設(shè)可以用來訓(xùn)練人工智能程序,以制作出與真實(shí)作家具有相同字?jǐn)?shù)和「生動(dòng)性」的虛假書籍。