為進一步梳理和調研基于生成式人工智能技術、應用、產業發展現狀,總結和推廣優秀成果,推動產業高質量發展。2023 年 2 月,中國信息通信研究院(以下簡稱“中國信通院”)依托人工智能關鍵技術和應用評測工業和信息化部重點實驗室 AI 工程化推進委員會生成式 AI 工作組,正式啟動了生成式 AI 技術和應用案例征集工作。5 月 31 日下午,杭州通用人工智能論壇大模型技術應用分論壇現場,首輪生成式 AI 技術和應用優秀案例評選結果正式發布,網易智企旗下網易易盾成功入選優秀案例,并獲中國信通院頒發證書。
一、內容風控仍是互聯網安全重中之重
近年來,隨著互聯網的飛速發展,網絡數據呈現井噴式增長。文本、圖像、語音、視頻等多元化的內容呈現形式已經成為人們日常工作和生活不可或缺的部分。內容形式多元化、內容創作門檻大幅降低為我們的生活帶來了極大的便捷和效率,但由此引發的內容風控問題卻日益凸顯,數字內容安全已經成為互聯網安全的重中之重。
二、傳統內容風控面臨新挑戰
數字內容風控存在涉及范圍與類型廣、粒度細、對抗頻繁、需求與標準多樣等特點。以往數字內容風控往往采用“后置+定制+感知”的方式進行識別與防護。
· 后置是指在有害類型或者數據出現后,再針對性的進行解決,時效性上往 往是后置,沒有太明確的風險提前感知與防范能力。
· 定制是指有害信息類型與范圍廣泛,由于缺少可靠的通用能力,需要對不同的有害類型進行不斷地模型定制訓練,且每次定制都需從頭構建專業領域能力,時間長、成本高。
· 感知是指對有害信息的識別往往是針對性感知,只針對目標的有害類型,沒有很好地利用場景內容信息,即過往內容風控是感知層面識別,而非認知層面推理。
·同時,對于有害類型的定義往往存在很多主觀、邊界、細節上的差異,頻繁 地根據標準的多樣更替適配模型,無法真正做到差異化分級分層精準防護。
因此,如何提前感知與預防可能的安全風險、如何針對新出現的危害類型快速構建安全防護能力、如何全面綜合場景信息進行深入認知推理、如何差異化分級分層精準防護,已經成為數字內容安全重要的挑戰與難點。
三、AIGC 為內容風控帶來新思路
當前 AIGC 的發展為提供更加通用、前置、快速響應的數字內容風控能力提供了可能。基于“世界知識”注入的 AIGC,將有更廣泛的通用能力、創造能力、數據感知和知識融合能力。具體來說:
· 基于其通用能力,在此基礎之上進一步定制領域安全能力,內容風控的時間周期與成本將大幅縮減;
· 基于其創造能力,內容風控將提前感知與預防未知風險,將”后置”轉變為”前置”,減少了未知有害類型的隱患;
· 基于其豐富的信息注入與融合能力,充分利用并融合場景、背景、知識等有害類型以外的綜合信息,將提升內容風控的場景理解與知識遷移能力,進行更深層次認知邏輯推理與綜合防控;
· 基于其提示上下文學習范式以及思維推理過程,內容風控將在不更新模型的基礎上更加便捷的適應不同的標準,差異化分級分層精準防控。
四、網易易盾:生成式 AI 技術賦能內容風控
基于上述思路,網易易盾利用生成式 AI 技術,研發了基于 AIGC 生成對抗防控、小樣本有害信息識別、細粒度自適應識別、綜合信息邏輯推理等方案,用最強的矛打造最強的盾。具體如下:
(1)基于AIGC生成對抗防控方案
為了實現安全風險提前感知與預防,基于 AIGC 創造能力,網易易盾研發了基于 AIGC 生成對抗防控方案,將原有的“發現+布控”改進為“發現+生成+布控”。該方案將生成當前模型無法覆蓋或者識別效果差的有害類型與樣本,并以當前主流的安全風險類型為基礎,進一步通過 AIGC 方法模擬安全風險變化趨勢,實現安全風險提前感知。進一步的布控方法包括結合 AIGC 生成樣本進行聯合訓練迭代防控模型、構建 AIGC 生成對抗庫定點防控等。
(2)基于AIGC小樣本有害信息識別方案
為了實現數字風控能力高效快速構建,基于 AIGC 的通用能力進一步的研發專業領域能力,我們研發了基于 AIGC 小樣本有害信息識別方案。將原有的從頭構建“通用能力+領域能力”方案改善為“AIGC 通用能力+通用能力補償+領域能力”構建的步驟。通過小樣本通用能力補償模塊設計,以少量樣本的代價彌補了 AIGC 通用能力在專業場景應用的差距,同時直接鏈接到領域能力構建模塊。相比于從頭構建通用能力,基于“AIGC 通用能力+通用能力補償”的方式更加快速、高效、低成本。
(3)基于 AIGC 細粒度自適應識別方案
為了實現差異化分級分層精準防控,基于 AIGC 提示上下文學習范式以及思維推理能力,我們研發了基于 AIGC 細粒度自適應識別方案,將 AIGC 的提示學習的思想應用到有害內容理解解決方案中,并且通過探索將多模態提示與推理輸入與不同標準進行對齊,使得通過不同的提示與推理輸入來映射不同的標準。例如性感這個類型,以往很難再做更細粒度的拆解,或者拆解成本很高,現在可以更細粒度的拆解為比如沙灘場景的性感與夜店場景的性感,從而將類型標準細化為場景與樣本,更好的適應不同主觀性、不同邊界的標準,更細粒度地實現分級分層精準防控。
(4)基于 AIGC 綜合信息邏輯推理解決方案
為了實現認知邏輯推理與綜合防控,基于 AIGC 的信息注入與融合以及邏輯推理能力,我們研發了基于 AIGC 綜合信息邏輯推理解決方案。將原有的只針對有害信息的感知識別改進為基于包括有害信息在內的綜合信息的綜合認知推理。有害信息以外的綜合信息以 AIGC 的方式獲取,綜合推理以視覺語言模型來完成。將原有的基于“領域能力的有害信息提取+決策”的方案改進為基于“領域能力有害信息提取+基于 AIGC 的通用知識提取+基于視覺語言模型的信息融合與綜合邏輯決策”的方案。
五、生成式 AI 為內容風控帶來顯著收益
在數字內容風控場景,網易易盾研發并融合生成式 AI 能力,實現領域安全能力高效快速構建、安全風險提前感知與預防、認知推理與綜合防控、差異化分級分層精準防控。相關解決方案的推出,幫助易盾從能力、數據、信息三個層面全面耦合了 AIGC 能力,并在客戶實際應用的數字內容風控場景下,取得效果、成本、時效性、多樣性、適應性、穩定性等方面的顯著收益。