背景
對抗是反作弊永恒的主旋律,面對對抗我們需要做到快速響應、見招拆招、在變化中發現不變的本質。
在反作弊場景中,黑產必須通過文本進行信息傳遞或觸達受害者,而文本由于其生產成本低廉、傳遞信息能力強的特點成為了黑產與我們進行對抗的主要戰場。文本理解算法為應對各類強對抗提供了文本檢索、文本風險標簽、風險信息提取的能力,以及一個文本模型訓練平臺。這些能力的組合使用可有效打擊文本內容維度的作弊行為,現已在反作弊的各業務場景中得到應用。
文本檢索
如上所述反作弊風控就是一個和黑產持續強對抗的過程,而強對抗的一個顯著特點就是快速的變化,所以常規的先收集標注數據再訓練模型的方式很難跟得上黑產變化的腳步。此外,黑產為了更多的獲利,通常會采用廣撒網的策略大批量將相似文本內容投放到平臺。因此,由文本黑庫和回掃構成的、只需單條標注數據的相似文本檢索能力便成了我們應對這種快速變化的有力武器,可有效識別存量和增量的問題文本,進行合理的處置。
字面相似 vs 語義相似
一般來講文本的相似大體可以分為字面相似和語義相似兩種:
- 字面相似:兩條文本只有極少字符不一樣則被認為是字面相似的
想要看片加我微
想要看片加我微信
- 語義相似:通常刻畫同一件事情的兩條文本被認為是語義相似的
勿信海外高薪,避免上當受騙,天上不會掉餡餅。
不要被高薪所誘惑,天上不會掉餡餅,請朋友們遠離詐騙
字面相似較語義相似條件更為嚴格,因此更加準確更適用于黑庫,而語義相似則有更強的召回能力,更適用于回掃。
文本回掃 vs 黑庫
適用場景
檢索目標索引特點適用場景回掃大盤全量數據1. 大而全;
2. 與數據源綁定,不能隨意定制索引內容;
3. 不支持樣本隨機增刪離線;主要用于作弊內容歷史存量治理黑庫有限樣本,一般為黑灰產作弊內容。(也可以把黑庫當白庫用,存儲白樣本)1. 小而精;
2. 用戶可自定義創建自己的內容索引庫;
3. 支持樣本隨機增刪在線;主要用于新增作弊內容管控
技術方案
- 回掃:從大盤在線獲取數據建立索引,用戶離線檢索結果
- 黑庫:從用戶離線獲取數據建立索引,在線檢索結果
能力提供
- 回掃
- 提供語義相似檢索、關鍵詞檢索
- 分鐘級延遲
- 黑庫
- 提供語義相似檢索、字面相似檢索、實體級相似檢索、布爾規則檢索、多模相似檢索
- 秒級延遲
- 為防止入庫樣本發生誤傷,提供前置防誤傷及線上灰度標簽能力
自動任務
為了對黑產的變化進行更快速的響應及更有效地利用人工審核數據,搭建了一套結合黑庫和回掃的自動任務流,該流程讓審出數據在短時間內便可起到上線攔截和存量處罰的作用
風險標簽
雖然黑產使用的文本在快速的變化,但只要黑產的目標是明確的,那么其使用的文本在類別語義層面便具有不變性。RiskText 風控文本標簽體系便是針對抖音風控場景中一些主要語義類別設計的一套文本標簽集
標簽體系
為什么要標簽體系
如果我們每次都是針對某個非常具體的業務場景使用少量特定場景數據訓練模型,例如評論色導、評論賭博導流等模型,那么會有以下問題:
- 標簽未進行合理抽象,時效性明顯,只適用于解決臨時的、特定的業務問題,黑產變了模型就失效了
- 由于數據量少,且無法長期積累,模型效果得不到保障
- 數據來源雜亂且質量沒有保證,導致標簽質量沒有保障
- 模型與具體業務 case 耦合度過高,很難進行業務或場景復用
- 模型和標簽過于雜亂,不利于維護和能力輸出
因此一套既具備可維護、可復用、魯棒性強等特點,又能很好解決業務風控問題的文本分類標簽體系就是我們需要的。
技術方案
模型架構:多 channel 輸入對同音、形近變體更加魯棒
訓練方法:樣本增廣 + 一致性訓練
樣本降噪:解決數據中的錯誤標簽
自動迭代
- 主動學習提高審出
- 監控看板保證質量
風險信息提取
黑產作弊文本經常會包含一些關鍵信息,作弊手法會變但關鍵信息不易變(或者變化成本較高),如果能夠正確識別出文本中的關鍵信息,就能有效提升防御體系魯棒性。目前已有建設 3 種風險信息提取能力:風險聯系方式、風險變體、風險文本片段。其他場景下,比如電商業務中風險地址提取,也能夠參考構建類似能力。
風險聯系方式
抖音是流量聚集地,黑產為了謀利往往會將流量引到端外,進而實施違法行為,因此識別黑產留下的聯系方式是一項重要能力。
能力全景圖
從使用階段劃分,包含 判別->提取->風險分->風險標簽。
- 判別(有沒有聯系方式):包含高準、高召兩部分模型集,根據使用場景、治理階段不同選取相應模型集。
- 提取(聯系方式在哪):支持將提取出的變體聯系方式歸一化,并且有例行挖掘任務,不斷補充新型變體數字字母。
- 風險分(有沒有風險):基于聯系方式風險特征 ,訓練得到風險分模型。
- 風險標簽(風險是啥):也區分高準和高召。高準通過人工標注,高召通過用戶-聯系方式二部圖標簽擴散方式得到。
風險變體
黑產為了對抗文本識別能力,會對文本關鍵部分變體。由于大部分文本模型不會經常更新,導致模型效果會隨著時間逐漸衰減。為了解決這個問題,將文本變體能力與下游文本能力解耦開,當變體識別能力提升時,所有下游任務均可受益。
PS:如果黑產文本變體太快,會不會跟不上,這樣能力建設有啥意義?
前期的簡單變體,我們的能力都會覆蓋,越到后期,黑產創造新變體的成本會越高,更考驗的是能力是否在不斷迭代更新。
技術方案
變體挖掘->變體判別->變體映射表流程可自動化運行,不斷挖掘得到新變體。
風險文本片段
黑產除了對關鍵信息變體,還會對非關鍵文本做話術變換。黑產為了表達意圖,關鍵信息不會很發散,來來回回可能就那幾個關鍵詞,但是會變換話術以此對抗識別模型,我們只需要從黑產發的大量文本中,找出表達意圖的關鍵信息,即可提升系統對話術變換的魯棒性。
技術方案
整體技術方案總結來說就兩步:
- 獲取文本重要黑特征(對應圖中黑詞精篩表)。
- 挖掘特征之間的關系,挖掘結果導出為規則,挖掘算法使用的 FP-Growth。