青青草原无码在线播放,都市激情小说一区二区三区,日本一本中文字幕黄色B在线观看

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù)，提交前請(qǐng)做好本站友鏈：【網(wǎng)站目錄：http://www.ylptlb.cn 】，免友鏈快審服務(wù)（50元/站），

網(wǎng)站：51998
待審：31
小程序：12
文章：1030137
會(huì)員：747

首頁 > 新聞資訊 > 手機(jī)數(shù)碼 >正文

LLM Attacks：新算法構(gòu)建針對(duì)大型語言模型的對(duì)抗攻擊

發(fā)布時(shí)間：2023-08-07 10:49:31 作者：網(wǎng)友整理

【ITBEAR科技資訊】8月7日消息，近日，卡內(nèi)基梅隆大學(xué)(CMU)的研究人員發(fā)表了一項(xiàng)名為L(zhǎng)LM Attacks的研究成果，引起了廣泛關(guān)注。該研究提出了一種全新的算法，用于構(gòu)建針對(duì)各種大型語言模型(LLM)的對(duì)抗攻擊，包括ChatGPT、Claude和Bard等。通過這種算法，攻擊者可以自動(dòng)生成一系列提示后綴，繞過LLM的安全機(jī)制，并導(dǎo)致LLM輸出有害的響應(yīng)。

據(jù)ITBEAR科技資訊了解，與傳統(tǒng)的“越獄”攻擊不同，CMU團(tuán)隊(duì)設(shè)計(jì)的LLM Attacks算法采用了一個(gè)三步過程，自動(dòng)創(chuàng)建有害提示后綴。首先，攻擊者需要?jiǎng)?chuàng)建一個(gè)目標(biāo)令牌序列，類似于“Sure， here is (content of query)”，其中“content of query”是用戶實(shí)際的提示，要求有害響應(yīng)。接下來，算法使用貪婪坐標(biāo)梯度(GCG)方法，生成能導(dǎo)致LLM輸出目標(biāo)序列的提示后綴，盡管這確實(shí)需要訪問LLM。

該研究還通過基準(zhǔn)測(cè)試AdvBench評(píng)估了LLM Attacks算法的有效性。在這個(gè)基準(zhǔn)測(cè)試上，LLM Attacks對(duì)名為Vicuna的LLM的成功率達(dá)到了驚人的88%，而基線對(duì)抗算法的成功率卻僅為25%。這表明新的LLM Attacks算法具有更高的攻擊成功率，可能對(duì)LLM提供商構(gòu)成潛在威脅。

值得擔(dān)憂的是，這種對(duì)抗攻擊是否能被LLM提供商完全修復(fù)仍然是一個(gè)懸念。類似的對(duì)抗攻擊在計(jì)算機(jī)視覺領(lǐng)域已經(jīng)被證明是一個(gè)難以解決的問題，可能與深度學(xué)習(xí)模型的本質(zhì)相關(guān)。隨著ChatGPT和GPT-4等模型的發(fā)布，越來越多的針對(duì)這些模型的越獄技術(shù)也會(huì)出現(xiàn)，其中一些技術(shù)可以繞過模型的安全措施，并輸出有害響應(yīng)。這對(duì)于廣泛應(yīng)用和依賴這些強(qiáng)大AI模型的現(xiàn)代社會(huì)來說，無疑是一個(gè)需要引起重視的問題。

總的來說，卡內(nèi)基梅隆大學(xué)的研究團(tuán)隊(duì)提出的LLM Attacks算法為針對(duì)大型語言模型的對(duì)抗攻擊提供了一種新的、更高效的方法。然而，其對(duì)LLM安全性帶來的挑戰(zhàn)也需要得到深入研究和重視。隨著技術(shù)的不斷發(fā)展，保障AI模型的安全性將成為AI領(lǐng)域亟待解決的重要問題。

分享到：

標(biāo)簽：LLMAttacks：新算法構(gòu)建針對(duì)大型語言模型的對(duì)抗攻擊人工智能