【ITBEAR】9月19日消息,演講嘉賓 |馮景輝
編輯 |蔡芳芳
策劃 |AICon 全球人工智能開發與應用大會
大模型以其更智能、不確定和不可解釋的特點,給安全領域,尤其是內容安全帶來了更大的挑戰。百度在打造文心一言之初就意識到,傳統的內容審核技術無法從根本上滿足大模型內容安全的需求。因此,我們必須從頭開始構建一套全新的方法。在不久前舉辦的 AICon 全球人工智能開發與應用大會上,百度安全平臺副總經理馮景輝發表了專題演講“百度大模型原生安全構建之路”, 分享聚焦于百度在過去兩年百度安全平臺團隊在大模型內容安全領域遭遇的挑戰和問題,以及團隊嘗試過的解決思路和應對方法,涵蓋數據清洗、內生安全與安全對齊、安全圍欄建設,以及應用安全與基礎模型安全等方面。
以下是演講實錄(經 InfoQ 進行不改變原意的編輯整理)。
今天,我想與大家分享百度在過去兩年中,如何在開發大模型的過程中確保安全性的故事。早期當大模型遇到敏感問題時,,它通常會建議我們換個話題。在過去兩年里,我們一直在不斷優化,解決模型生成過程中出現的各類安全性問題,同時也在提升用戶體驗。在下面的圖中,我們可以看到,即使是其他公司的模型也經常會遇到需要用戶重新提問或直接拒絕回答的情況。然而,最近在使用文心一言時,我們發現它已經開始用更積極的角度引導用戶正確看待敏感問題,這在很大程度上改善了用戶體驗。
今天,我將討論四個方面的問題。首先,我們會回顧一下大型模型面臨的安全挑戰。接著,我們將探討我們是如何逐步演進,以確保大模型的安全性。然后,我們將深入討論今天的主題——原生安全之路。我們將解釋什么是原生安全,以及我們是如何實現它的。最后,會簡要介紹一些我們最近在智能體和 agent 安全領域遇到的課題。
大模型安全的挑戰
大模型的安全性挑戰貫穿其整個生命周期,我們將其與安全相關的部分分為三個階段:訓練階段、部署階段和運營階段。
在訓練階段,確保訓練數據的安全至關重要。我們需要采取措施來保護數據不被泄露或濫用,因為這些數據往往是模型學習的基礎,并且可能包含敏感信息。
進入部署階段,我們面臨的挑戰是如何在模型部署和推理過程中保護模型參數和文件不被泄露。這包括確保模型文件在存儲和傳輸過程中的安全性,以及在運行時防止未授權的訪問。
最后,也是今天討論的重點,是在運營階段我們會遇到的問題。這個階段涉及模型與用戶交互的安全性,包括但不限于防止惡意輸入、處理敏感請求以及確保用戶數據的隱私保護。在這一階段,我們需要不斷地監控和更新模型,以應對新出現的安全威脅和挑戰。
大模型訓練階段的安全挑戰
在大模型的訓練階段,我們面臨的安全挑戰主要涉及訓練數據的選擇、數據的血緣分析以及模型質量的評估。首先,訓練數據的選擇至關重要,因為它不僅決定了模型的性能,還影響著模型的安全性。我們希望模型能夠提供正確價值觀的回答,同時保持創新性和多樣性。因此,在數據選擇時,我們需要清洗掉不安全的內容,保留不同的觀點和數據。
再者,模型質量的評估在數據清洗后變得尤為重要。我們需要確保模型在經過數據清洗后,其質量仍然與數據訓練質量正相關。在數據清洗方面,我們需要去除不良價值觀的內容,刪除個人信息和敏感信息,以及處理涉及商業侵權的信息。
大模型訓練與部署階段的安全挑戰
在訓練與部署階段,我們面臨的挑戰包括如何保護模型文件和數據文件在流轉和傳輸過程中的安全。由于許多數據文件存儲在云訓練平臺上,企業內部人員可能擁有訪問權限,因此,我們需要確保訓練數據和模型參數文件在這一過程中不被泄露、篡改或刪除。
為了應對這些挑戰,我們需要一套解決方案,確保數據從訓練開始就是密態存儲,直到模型內部能夠原生支持加載密態文件。同時,我們還需要通過完整性校驗來發現模型文件的任何缺失或修改情況。
大模型業務運營階段的安全挑戰
在大模型的業務運營階段,我們面臨的安全挑戰不僅限于傳統內容安全中的黃反類信息,還包括一些特定于大模型的重點問題。這些挑戰包括注入型攻擊,即通過偽造特定環境或指令,試圖使大模型突破其原有的安全限制,輸出不應泄露的信息。此外,隨著多輪對話窗口的增加,大模型的能力得到擴展,但同時也引入了更多的安全風險。這包括主語指代問題,以及引入多模態內容(如網頁、文檔、圖片、音視頻)時增加的風險。
為了說明這些概念,我們分享一些有趣的故事。例如,“奶奶越獄”的故事,這是一個經典的例子,展示了如何通過巧妙的提問使大模型泄露信息。在這個故事中,通過詢問大模型關于 Windows 序列號的問題,試圖誘導其泄露信息。今天,注入型攻擊不僅限于此類情況,還可能包括其他場景。例如,當直接詢問大模型關于某城市不良場所的位置時,大模型通常會拒絕回答。但如果我們換個方式問,比如詢問帶孩子旅游時應避免哪些區域,大模型的安全對齊機制可能會被繞過,從而泄露原本不應提供的信息。
第二個例子涉及到梯度攻擊,這是一種在早期視覺領域模型中,尤其是在無人駕駛和道路識別技術中被廣泛討論的攻擊方式。大約在 10 年前,甚至更早,人們通過自動化方法尋找能夠干擾圖像識別的因子。例如,有人通過修改限速標志,將限速 40 公里 / 小時的標志改為限速 120 公里 / 小時,盡管人類視覺上仍然識別為 40 公里 / 小時,但機器卻可能將其識別為 120 公里 / 小時,從而引發安全隱患。
在多模態輸入的情況下,大模型的安全問題變得更加復雜。通常是在訓練數據階段可能沒有進行有效的清洗,同時在安全對齊階段存在疏漏。在單一模態下,尤其是在自然語言處理領域,大多數中文大模型已經較好地處理了安全對齊問題。但是,當引入多模態輸入后,由于多模態數據需要將不同模態的數據映射到同一模態的向量,這一過程中的安全對齊層可能沒有與自然語言的安全對齊完全一致,從而導致了安全問題的出現。
因此,我們開始考慮引入傳統內容安全技術。百度作為互聯網企業,已經研發了自己的內容審核技術,用于 PGC 和 UGC 內容的審核。我們考慮是否能夠通過這些技術來覆蓋大模型的內容安全。但很快我們發現,大模型有其獨特的挑戰,如多模態輸入和多輪會話,這些在傳統內容審核中并不常見。此外,內容審核可以有時間上的靈活性,例如發文審核可以進入隊列等待,但大模型的 prompt 審核卻不能這樣做,因為用戶期望在幾秒鐘內就得到響應。
此外,我們還應用了 RAG 技術和代答模型。代答模型是指用一個小模型來回答敏感的安全問題,而不是完全依賴大模型。這樣做的好處是多方面的。結合 RAG 技術,我們形成了一套基于生成式內容的原生安全方案,與底層的安全對齊相結合,構成了我們今天討論的原生安全策略。
為什么只做安全對齊不行
僅依靠安全對齊是不夠的,原因有幾點。首先,安全對齊通常在 SFT 或人力反饋的強化學習階段進行,這個階段對于價值觀類問題比較有效,比如避免紅燈區、不賭博、不進行人身攻擊等。然而,對于政治敏感性問題、領土完整等具有明確觀點性和事實性的問題,安全對齊階段處理起來就不太有效。這些問題不僅具有極強的專業性,而且具有時效性。這與價值觀類問題不同,價值觀類問題相對恒定不變,更容易在對齊階段一次性解決。此外,安全對齊需要及時更新以應對每天從政府、媒體、輿論和海外傳來的風險輿情,而重新訓練安全模型需要大量時間成本,因此我們需要一種外掛式的方式來實現及時更新。
關注準確率
隨著長文本處理的需求日益增長,大模型現在能夠處理的文本長度已經從 8K 起步,甚至有些模型可以處理長達 300K 的文本窗口,這使得我們可以將整本書的內容輸入到大模型中。在這樣的背景下,長文本的準確率變得尤為重要,不再僅僅局限于 200 或 500 個 token 的語境。長文本語境中容易出現誤報,尤其是在帶有特定場景的輸入安全方面。
數據清洗:數據是構建安全體系的基礎。必須確保數據在輸入模型之前經過徹底的清洗和篩選,以排除任何可能引發安全問題的不良內容。 安全圍欄:這是一個快速響應機制,用于補齊安全漏洞。它需要結合內部的基礎模型安全對齊和外部的快速反應能力,以確保在面對新出現的安全威脅時能夠迅速采取措施。 安全對齊:在安全對齊階段,重點是提升模型的基礎安全能力。通過加強這一環節,可以減輕安全圍欄的壓力,因為模型本身能夠更好地識別和處理潛在的安全問題。 持續評估:由于安全事件層出不窮,需要持續運營和監控。在安全事件發生時,能夠迅速反應并通過安全圍欄進行補齊,形成一個快速迭代的過程。這不是一次性的數據流程,而是一個周期性的循環過程。在這個循環中,通過持續評估發現的問題,不斷通過安全圍欄和數據清洗進行補齊,并在模型的下一輪迭代中提高安全對齊能力,從而形成一個持續提升的安全循環體系。
在進行數據清洗時,我們遵循國家相關法律法規的要求,特別是生成式人工智能管理的暫行辦法及其實施條例。
第二步是去除數據中的脫敏隱私內容,包括個人信息和隱私信息,如身份證號、電話號碼、家庭住址等,確保這些信息被徹底脫敏。
第三步是根據規范要求刪除不合規、不合法的數據內容,并在刪除后保持語義的通順和語境的完整性。經過這一輪修剪和刪除,可能有近 50% 的數據被清洗掉。
最后,我們需要對清洗后的數據集進行完整性評估,確保數據集仍然可用。如果評估結果顯示數據集質量仍然符合要求,那么數據清洗過程就完成了,數據可以進入下一步的訓練流程。
百度的解決方案
百度的內容安全解決方案是一個綜合性的體系,它由幾個關鍵部分組成:
數據清洗:這是解決方案的基礎,涉及我們之前討論的對訓練數據進行質量和安全性評估的過程。這包括對數據來源的分析、去除敏感信息、刪除不合規內容,并確保數據集在清洗后仍然保持完整性和可用性。 大模型防火墻:也稱為安全圍欄,它的功能是進行語義干預,快速響應新發現的安全問題,通過設置快速止損機制來阻攔潛在的安全威脅。它還能夠處理多輪會話,以會話(session)為單位進行內容識別,并通過意圖分析來規劃執行路徑。 檢索增強和代答模型:這是解決方案的核心,包括使用 RAG 技術來增強模型的檢索能力,以及使用代答模型來規避風險問題,引導模型給出安全的回答。 基礎能力:百度的自然語言處理、視覺和語音相關的安全模型都基于文心大模型,這些是構成解決方案的技術底座。 安全評估:為了實現持續運營,解決方案包括線上問題的持續發現和改進,以及在模型每個版本迭代過程中進行不斷的回歸測試和評估。安全圍欄對抗性防御架構
百度的安全圍欄對抗性防御架構是一個多步驟的流程,旨在確保大模型的安全性和可靠性。這個架構大致分為五個步驟:
多輪改寫:在多輪會話中,通過改寫的方式處理指代性詞匯,如“他”、“前一個”、“前文所指”等,確保語義的準確性和完整性。這樣,即使脫離上下文,單獨查看和審核語句時,也能準確理解其真實含義。 大模型防火墻:在這一步驟中,通過快速止損機制來發現和干預敏感風險點。這通常涉及到傳統的語義干預和查詢匹配技術,以快速識別和處理潛在的安全問題。 必答知識庫,代答模型:在大模型中構建知識庫,并利用檢索增強技術在安全語料范圍內構建 RAG 條目。目前,百度擁有大約五六千萬規模的 RAG 條目,覆蓋了基本的敏感話題。這些條目引導至專門為安全訓練的小型代答模型中。 模型輸出過濾:即使在輸入階段已經實施了各種安全策略,輸出階段仍然不能忽視。在這一階段,需要對輸出內容進行完整性分析,以發現可能出現問題的點。這是因為即使經過了輸入階段的處理,大模型在輸出階段仍可能產生有害的風險性內容。 內容審核:由于安全問題的復雜性,即使是經過重重防御,也很難做到 100% 的安全保障。即便經過了輸入、處理和輸出的一系列安全措施,我們仍然建議在最后一步引入人工判定。通過離線的審核、追溯和巡查機制,我們可以發現并處理在前四個步驟中未能發現或阻止的問題。這樣的人工介入有助于形成持續的迭代過程,將發現的問題反饋到下一輪的安全循環中,從而不斷提高大模型的安全性。我們的安全圍欄的數據流是一個復雜的過程,它從文本輸入開始,然后經過多個環節來確保內容的安全性。首先,系統需要識別輸入文本的語言,區分它是中文、英文、中英文混雜還是其他語種,因為不同語種需要采取不同的處理策略。接下來,文本可能會經過改寫,以消除歧義或潛在的安全問題,但具體細節在此不展開。文本經過改寫后,會進行意圖分析,以確定用戶的真實意圖。例如,如果分析發現文本可能涉及領土完整的負面攻擊性問題,系統會將其引導至安全模型進行處理。安全模型會利用基于安全語料構建的 RAG 數據,這些數據覆蓋了基本的敏感話題,以確保回復內容的安全性。RAG 數據隨后被送入專門為安全訓練的代答模型中,生成回復內容。如果文本在意圖分析階段被識別為具有較強攻擊性,如涉及領導人的攻擊性分類,可能會被標記為不上屏,即不直接顯示給用戶。我們越來越多地采用正面引導的方式,而不是直接拒答,這是通過檢索增強和代答模型實現的,將安全風險性問題引導至代答模型中進行準確引導和回答。
在整個過程中,系統需要關注多種潛在的安全威脅,包括但不限于:
使用繁體中文試圖繞過安全檢查的嘗試。 中英文混合文本中夾雜的不安全問題。 通過多輪對話中的指代方式誘導產生問題的嘗試。 嘗試通過編碼指令或其他高級攻擊手段繞過安全機制。安全對齊
雖然安全對齊不是本次分享的主要議題,但我們可以簡要總結百度在安全對齊方面的一些最佳實踐:
有監督精調:在大模型訓練中,無論是使用 LoRA 還是全量數據集進行 SFT,安全階段都需要引入大量語料。重點關注的是價值觀類問題,通過合適的數據集構建的模型,其基礎安全能力越來越強。例如,文心大模型能夠回答的安全性問題越來越多,這得益于有監督精調帶來的收益。 人類反饋強化學習,直接偏好優化:目前,我們廣泛采用 RM 獎勵模型,也采用 DPO 技術。通過這些方法,我們對大模型回答的不同類型問題進行好壞評比,給予大模型正向反饋,使其更多地回答與人類價值觀一致的問題。持續評估
持續評估是確保大模型內容安全的關鍵環節,它涉及多個方面的關注點:
風險分類問題:評估過程首先需要確保問題分類與國家標準完全符合。這包括關注召回問題,也就是識別出重大或高風險的問題,同時也要關注應答問題。根據國標的要求,除非特定場景外,通用的聊天機器人(chatbot)需要能夠回答常識性或通識性的問題,即使這些問題可能包含某些敏感關鍵詞,也不能簡單地拒絕回答。 攻擊手段的全面覆蓋:評估還需要覆蓋全面的攻擊手段,包括指代性攻擊、注入攻擊、越獄攻擊等。同時,還需要對編碼的適應性,包括代碼適應性等內容進行合理分析和評估。 自動標注的挑戰:在評估中,自動標注是一個難點。與 Web 安全和信息安全領域不同,大模型的回答內容很難通過機器自動識別是否存在風險,通常需要人工進行標注。為了實現持續評估,必須解決這一問題,減少對人工標注的依賴。為了實現自動化評估,我們采用了一個更大的模型,對問答內容進行大量的監督學習訓練。通過訓練,我們建立了一個裁判模型或監督模型,使其能夠理解對一個問題的正確回答和負向回答是什么。這個模型為被測模型的輸出提供了有效的評估,成為自動化評估的基準。目前,我們能夠在備測數據集上實現大約 90% 的 F1 分數,在大多數分類上,自動化評估是可行的。通過這樣的持續評估,我們可以確保大模型在處理各種問題時的安全性和可靠性。
安全代答模型如何做到比大模型更安全
在討論安全代答模型時,我們面臨一個看似矛盾的問題:理論上,一個更強大的模型應該能夠提供更安全的回答,但更強大的模型通常需要更多的訓練數據和更大的參數量,這可能導致資源消耗增加,從而增加成本。安全措施的成本必須低于業務成本,才能被接受。那么,代答模型如何在保持較小規模的同時,實現比大模型更高的安全性呢?我們從以下幾個方面進行了規范:
數據與模型尺寸:我們的代答模型是一個相對較小的模型,大約 6B 參數左右。小模型的優點是訓練周期短,但也可能帶來一些問題,比如經過大量 SFT 后,模型的指令跟隨能力可能會下降。這種下降反而減少了對高級攻擊的敏感性。 弱化指令跟隨:在微調階段損失指令跟隨, 使模型對高級攻擊反應 『遲鈍』,但也帶來適用性問題。 持續運營:通過更大參數的巡檢模型來發現事實性錯誤,前置過濾與錯峰巡檢實現性能優化。在低峰時段,巡檢模型能夠發現白天可能漏檢的問題,并在第二天進行修補。要點小結:
通過 SFT、DPO 或人類反饋的強化學習實現安全對齊。 構建大量的 RAG 數據,包括搜索引擎和權威媒體的數據。 通過大模型防火墻實現快速有效的干預。 通過持續運營和評估實現不斷的迭代和優化。關注智能體安全
我們認識到智能體是大模型生態發展中極為重要的一環。今年,百度特別重視智能體的推廣,因為它們不僅僅是基礎模型的簡單應用。
最初,我們認為只要做好基礎模型就足夠了,但很快發現實際情況并非如此。從開發大模型的第一天起,我們就面臨了大量惡意使用技術的情況,這與僅開發基礎模型時遇到的問題不同。我們需要能夠及時有效地應對這些濫用行為。
Prompt 泄露
舉一個例子,一位灣區的作者通過自己公司的數據創建了一個智能體,能夠展示和推理灣區特定職業的收入情況。然而,黑客可以通過簡單的指令泄露這些智能體的 prompt 內容,甚至可以將用于訓練的 RAG 數據以文件形式下載。在智能體的開發和應用中,我們需要特別注意數據和模型的安全性,防止敏感信息的泄露。
RAG 投毒
在大模型的應用中,RAG 數據已成為一個標準配置,它對于提供準確的信息至關重要。然而,RAG 數據也存在被“投毒”的風險,即數據被惡意篡改或污染。如下圖所示,如果 RAG 數據被投毒,當用戶詢問“湖南的省會是哪里”時,大模型可能會給出錯誤的回答。
禁止角色扮演:基座模型通常關注名人肖像模板等通用問題,而特定應用則需要關注更具體的問題,如用戶侵權、廣告創意方向等。如果場景沒有特殊需要,盡量通過指令禁用角色扮演, 根本上取消此類越獄風險。 防護指令:為了防止高級攻擊,需要在 prompt 模板中規范操作。例如,除非應用需要,否則應禁止角色扮演。同時,應設置防護指令,禁止輸出 prompt 內容、使用數據,以及禁止使用 print 指令輸出信息。 Say No:在某些情況下,應明確拒絕回答用戶的問題,而不是提供模棱兩可的建議。 結構化查詢:通過結構化查詢,限定系統指令,用戶指令空間,避免注入,使用模板而不是拼裝 prompt。 避免多輪會話:如果應用不需要多輪會話,使用一次性(One-Shot)方式可能更有助于規避安全風險。 演講嘉賓介紹 馮景輝,現任職于百度安全平臺,任副總經理,負責集團業務安全、業務風控和大模型安全解決方案;其負責的百度搜索內容檢測系統,多年來致力于持續改善搜索生態健康度,打擊各種違法違規黑產利用搜索引擎傳播,尤其是在打擊搜索結果中的涉詐內容方面,為保護網民,凈化網絡空間內容履行百度社會責任,連續七年持續投入打擊力量;其負責的業務風控、流量安全、反爬蟲等方向是百度所有互聯網業務的核心安全能力,歷年來在百度移動生態業務中發揮重要的保障作用;其主導的大模型安全解決方案是國內第一個可商用的覆蓋大模型訓練、部署和運營全生命周期的安全解決方案。在進入百度之前,馮景輝是國內第一家完全基于 SaaS 的云安全服務廠商安全寶的聯合創始人兼研發副總裁,安全寶系統架構總設計師。 會議推薦 AI 應用開發、大模型基礎設施與算力優化、出海合規與大模型安全、云原生工程、演進式架構、線上可靠性、新技術浪潮下的大前端…… 不得不說,QCon 還是太全面了。現在報名可以享受 9 折優惠,詳情請聯系票務經理 17310043226 咨詢。