(ChinaZ.com) 8月8日消息:Prosecraft.io 是一個網站,它使用小說來支持一個以數據驅動的項目,用于顯示字數、被動語態和其他更加主觀的寫作風格標記,比如生動性。
但在作者們抗議這個項目之后,Prosecraft 今天關閉了。Prosecraft 使用超過 25,000 本書的全部文本——這都是受版權保護的材料——以便開發一個數據庫。作者們知道了這個項目,立即對此表示了強烈的不滿。
Zach Rosenberg 是第一個在 X(以前被稱為 Twitter)網站上引起作者們廣泛關注的人。很快,越來越多的作者開始發聲,其中包括高知名度的作者,比如 Jeff VanderMeer(《The Southern Reachtrilogy》),Indra Das(《The Devourers》),Gretchen Felker-Martin(《Manhunt》)。
其中一部分原因是 Prosecraft 承認使用了「人工智能算法」。在 2018 年 10 月 5 日的一篇博客文章中,Prosecraft 和基于 Prosecraft 庫挖掘出來的數據構建的寫作程序 Shaxpir 的開發者 Benji Smith 表示,「我們教會了我們的機器學習 [AI] 算法識別哪些詞匯可以在哪些上下文中使用,通過觀察在類似的句子和段落中出現的詞匯和短語的類型。」此外,他寫道,Shaxpir「分析了來自 3300 多位知名作者撰寫的 580 多萬字的小說?!顾麤]有透露自己從哪里獲得這些小說,也沒有透露是否獲得了許可。
雖然使用的技術并不一定是像 ChatGPT 那樣的大型語言生成模型,但可以說,將生成的 LLM 算法納入 Prosecraft 的規劃是有可能的。而且由于該網站有龐大的圖書庫,作者們的擔憂是完全合理的。在此次抗議之后,Smith 在 Medium 上寫了一篇長篇博客,解釋了為什么他自愿關閉了 Prosecraft。
盡管 Prosecraft 只使用了文本的一部分,但它并沒有得到任何作者或出版商的許可來創建基于作者全部作品或整本書的數據庫。Smith 在博客上寫道,「由于我只發布了摘要統計數據和從這些書中提取的小段落,我相信我尊重了公平使用原則的精神,這并不需要原始作者的同意?!?/p>
盡管這個說法有些道理,但公平使用并不允許你在沒有獲得許可的情況下使用作者的整本受版權保護的作品,作為一個反映在你自己的「AI 算法」上的數據訓練程序的一部分。雖然這種情況肯定會給很多人上一課,但很明顯,作者們不會允許他們的作品被用來訓練 LLM 和矢量網絡。
最后,在一篇包含數十段文章的最后幾段中,Smith 說「我聽到了你們的反對意見,我希望你們能接受我最誠摯的歉意?!顾谔拥?span id="ebevfn7" class="spamTxt">最后表示,他希望有一天「在作者和出版商的同意下重建這個項目」,社交媒體上的作家認為這暗示著他實際上并沒有刪除他的圖書數據庫,這意味著數據仍然可以假設可以用來訓練人工智能程序,以制作出與真實作家具有相同字數和「生動性」的虛假書籍。