隨著人工智能峰會(huì)的順利舉行,研究人員熱衷于提出與這項(xiàng)技術(shù)相關(guān)的真正問題——教它如何忘記。社會(huì)現(xiàn)在充斥著現(xiàn)代人工智能,以及對其卓越的能力的贊美。我們不斷地被提醒它的潛在好處,在很多領(lǐng)域,幾乎滲透到我們生活的方方面面,但也有它的危險(xiǎn)。
在一個(gè)新興的研究領(lǐng)域,科學(xué)家們正在強(qiáng)調(diào)我們減少人工智能風(fēng)險(xiǎn)的武器庫中的一個(gè)重要武器——“機(jī)器遺忘”。他們正在幫助尋找新的方法,使被稱為深度神經(jīng)網(wǎng)絡(luò)(DNN)的人工智能模型忘記對社會(huì)構(gòu)成風(fēng)險(xiǎn)的數(shù)據(jù)。
問題是,重新訓(xùn)練人工智能程序以“忘記”數(shù)據(jù)是一項(xiàng)非常昂貴和艱巨的任務(wù)。現(xiàn)代DNN,如基于“大型語言模型”的DNN(如ChatGPT、Bard等),需要大量資源進(jìn)行培訓(xùn),需要數(shù)周或數(shù)月的時(shí)間。每個(gè)培訓(xùn)項(xiàng)目還需要數(shù)十吉瓦時(shí)的能量,一些研究估計(jì),一年的能量相當(dāng)于為數(shù)千戶家庭供電。
機(jī)器遺忘是一個(gè)新興的研究領(lǐng)域,它可以快速、廉價(jià)、使用更少的資源從DNN中刪除麻煩的數(shù)據(jù)。我們的目標(biāo)是做到這一點(diǎn),同時(shí)繼續(xù)確保高精度。華威大學(xué)的計(jì)算機(jī)科學(xué)專家與谷歌DeepMind合作,站在這項(xiàng)研究的前沿。
華威大學(xué)計(jì)算機(jī)科學(xué)系的Peter Triantafillou教授最近與人合著了一本出版物《走向無界機(jī)器的解放》。他在著作中提到,DNN是一種極其復(fù)雜的結(jié)構(gòu),由多達(dá)數(shù)萬億個(gè)參數(shù)組成。通常,我們對它們是如何以及為什么實(shí)現(xiàn)目標(biāo)缺乏堅(jiān)實(shí)的理解。考慮到它們的復(fù)雜性,以及它們所訓(xùn)練的數(shù)據(jù)集的復(fù)雜性和規(guī)模,DNN可能對社會(huì)有害。
例如,通過對帶有偏見的數(shù)據(jù)進(jìn)行培訓(xùn),從而傳播負(fù)面的刻板印象。這些數(shù)據(jù)可能反映了現(xiàn)有的偏見、刻板印象和錯(cuò)誤的社會(huì)假設(shè),例如醫(yī)生是男性、護(hù)士是女性的偏見,甚至種族偏見。DNN還可能包含帶有“錯(cuò)誤注釋”的數(shù)據(jù)——例如,對物品的錯(cuò)誤標(biāo)記,例如將圖像標(biāo)記為深度偽造或非深度偽造。
令人擔(dān)憂的是,DNN可能會(huì)在侵犯個(gè)人隱私的數(shù)據(jù)上進(jìn)行培訓(xùn)。這對大型科技公司構(gòu)成了巨大挑戰(zhàn),因?yàn)橐呀?jīng)制定了旨在保障被遺忘權(quán)的重要立法(例如GDPR),即任何個(gè)人要求從任何數(shù)據(jù)集和人工智能程序中刪除其數(shù)據(jù)的權(quán)利。我們最近的研究衍生出了一種新的“機(jī)器遺忘”算法,該算法可以確保DNN能夠忘記不可靠的數(shù)據(jù),而不會(huì)影響整體人工智能性能。該算法可以引入DNN,使其專門忘記我們需要的數(shù)據(jù),無需從頭開始重新訓(xùn)練需要忘記的三種不同類型數(shù)據(jù)的訪問:偏見、錯(cuò)誤注釋和隱私問題。機(jī)器遺忘是一個(gè)令人興奮的研究領(lǐng)域,可以成為降低人工智能風(fēng)險(xiǎn)的重要工具。