(ChinaZ.com)5月5日 消息:一項(xiàng)研究指出了當(dāng)今大型語(yǔ)言模型的另一個(gè)潛在版權(quán)問(wèn)題和文化挑戰(zhàn):一本書(shū)越有名和越受歡迎,語(yǔ)言模型就越能記住其內(nèi)容。
加州大學(xué)伯克利分校的研究人員測(cè)試了ChatGPT、GPT-4和 BERT 的“背誦”能力。根據(jù)這項(xiàng)研究,語(yǔ)言模型記住了“大量受版權(quán)保護(hù)的材料”。一本書(shū)的內(nèi)容在網(wǎng)上越受歡迎多,語(yǔ)言模型就越能記住其內(nèi)容。
根據(jù)這項(xiàng)研究,OpenAI 的模型特別擅長(zhǎng)記憶科幻小說(shuō)、奇幻小說(shuō)和暢銷書(shū)。其中包括 《1984》、《德古拉》和《弗蘭肯斯坦》等經(jīng)典作品,以及《哈利波特與魔法石》等近期作品。
研究人員將谷歌的 BERT 與 ChatGPT 和 GPT-4進(jìn)行了比較。“BookCorpus”是一套據(jù)稱由未知作者創(chuàng)作的免費(fèi)書(shū)籍的訓(xùn)練集,其中包括《丹·布朗》或《五十度灰》的作品。BERT 會(huì)記住這些書(shū)中的信息,因?yàn)檫@些都數(shù)據(jù)的一部分。
研究人員寫(xiě)道,一本書(shū)在網(wǎng)絡(luò)上出現(xiàn)的次數(shù)越多,大型語(yǔ)言模型對(duì)它的記憶就越詳細(xì)。記憶決定了語(yǔ)言模型執(zhí)行有關(guān)一本書(shū)的下游任務(wù)的能力:一本書(shū)越為人所知,語(yǔ)言模型就越有可能成功地執(zhí)行諸如命名出版年份或正確識(shí)別書(shū)中字符等任務(wù)。
研究人員主要關(guān)注的不是版權(quán)問(wèn)題。相反,他們關(guān)心的是使用大規(guī)模語(yǔ)言模型進(jìn)行文化分析的潛在機(jī)會(huì)和問(wèn)題,特別是通俗科幻小說(shuō)和奇幻作品中的共同敘事所造成的社會(huì)偏見(jiàn)。
文化分析研究可能會(huì)受到大規(guī)模語(yǔ)言模型的嚴(yán)重影響,并且根據(jù)培訓(xùn)材料中書(shū)籍的存在而產(chǎn)生的不同表現(xiàn)可能會(huì)導(dǎo)致研究出現(xiàn)偏差。
在此背景下,研究團(tuán)隊(duì)有一個(gè)明確的訴求:訓(xùn)練數(shù)據(jù)的公開(kāi)。
研究人員寫(xiě)道,這些模型特別擅長(zhǎng)從流行的敘述中學(xué)習(xí),但這些敘述并不代表大多數(shù)人的經(jīng)歷。這一事實(shí)如何影響大規(guī)模語(yǔ)言模型的輸出,以及它們作為文化分析工具的有用性,需要進(jìn)一步研究。
此外,該團(tuán)隊(duì)表示,研究表明流行書(shū)籍并不是大型語(yǔ)言模型的良好性能測(cè)試,它們可能會(huì)表現(xiàn)更為出色。