【ITBEAR科技資訊】8月7日消息,近日,卡內(nèi)基梅隆大學(xué)(CMU)的研究人員發(fā)表了一項(xiàng)名為L(zhǎng)LM Attacks的研究成果,引起了廣泛關(guān)注。該研究提出了一種全新的算法,用于構(gòu)建針對(duì)各種大型語言模型(LLM)的對(duì)抗攻擊,包括ChatGPT、Claude和Bard等。通過這種算法,攻擊者可以自動(dòng)生成一系列提示后綴,繞過LLM的安全機(jī)制,并導(dǎo)致LLM輸出有害的響應(yīng)。
據(jù)ITBEAR科技資訊了解,與傳統(tǒng)的“越獄”攻擊不同,CMU團(tuán)隊(duì)設(shè)計(jì)的LLM Attacks算法采用了一個(gè)三步過程,自動(dòng)創(chuàng)建有害提示后綴。首先,攻擊者需要?jiǎng)?chuàng)建一個(gè)目標(biāo)令牌序列,類似于“Sure, here is (content of query)”,其中“content of query”是用戶實(shí)際的提示,要求有害響應(yīng)。接下來,算法使用貪婪坐標(biāo)梯度(GCG)方法,生成能導(dǎo)致LLM輸出目標(biāo)序列的提示后綴,盡管這確實(shí)需要訪問LLM。
該研究還通過基準(zhǔn)測(cè)試AdvBench評(píng)估了LLM Attacks算法的有效性。在這個(gè)基準(zhǔn)測(cè)試上,LLM Attacks對(duì)名為Vicuna的LLM的成功率達(dá)到了驚人的88%,而基線對(duì)抗算法的成功率卻僅為25%。這表明新的LLM Attacks算法具有更高的攻擊成功率,可能對(duì)LLM提供商構(gòu)成潛在威脅。
值得擔(dān)憂的是,這種對(duì)抗攻擊是否能被LLM提供商完全修復(fù)仍然是一個(gè)懸念。類似的對(duì)抗攻擊在計(jì)算機(jī)視覺領(lǐng)域已經(jīng)被證明是一個(gè)難以解決的問題,可能與深度學(xué)習(xí)模型的本質(zhì)相關(guān)。隨著ChatGPT和GPT-4等模型的發(fā)布,越來越多的針對(duì)這些模型的越獄技術(shù)也會(huì)出現(xiàn),其中一些技術(shù)可以繞過模型的安全措施,并輸出有害響應(yīng)。這對(duì)于廣泛應(yīng)用和依賴這些強(qiáng)大AI模型的現(xiàn)代社會(huì)來說,無疑是一個(gè)需要引起重視的問題。
總的來說,卡內(nèi)基梅隆大學(xué)的研究團(tuán)隊(duì)提出的LLM Attacks算法為針對(duì)大型語言模型的對(duì)抗攻擊提供了一種新的、更高效的方法。然而,其對(duì)LLM安全性帶來的挑戰(zhàn)也需要得到深入研究和重視。隨著技術(shù)的不斷發(fā)展,保障AI模型的安全性將成為AI領(lǐng)域亟待解決的重要問題。