12月1日,國際人工智能頂級會議AAAI 2022論文接受結果公布!本屆會議共收到全球的9215篇投稿論文,接受率為15%。AAAI(Association for the Advance of Artificial Intelligence)是由國際人工智能促進協會主辦的年會,是人工智能領域中歷史最悠久、涵蓋內容最廣泛的國際頂級學術會議之一,也是中國計算機學會(CCF)推薦的A類國際學術會議。
本次騰訊優圖實驗室共有14篇論文被收錄,涵蓋語義分割、圖像著色、人臉安全、弱監督目標定位、場景文本識別等前沿領域。
以下為部分入選論文:
01
視頻異常檢測雙向預測網絡中的全面正則化方法
Comprehensive Regularization in a Bi-directional Predictive Network for Video Anomaly Detection
視頻異常檢測任務旨在通過學習正常視頻的特征,自動識別視頻中異常的目標或行為。此前的方法傾向于利用簡單的重建或預測約束,這將導致從正常視頻中學習特征不充分。基于此,我們提出一種包含三種一致性約束的雙向架構,能夠從像素級、跨模態和時間序列三個層面對預測任務做全面正則化。第一,我們提出預測的一致性,它考慮前后時序中運動的對稱性質,進而保證在像素級層面的高真實性外觀和運動預測。第二,我們提出關聯的一致性,它考慮不同模態的相關性并使用其中一種模態來正則化另一種模態的預測。最后,我們提出時序一致性,它利用視頻序列的關系保證預測網絡生成時序上一致的幀。在推理階段,異常幀的模式由于無法預測從而導致更高的預測錯誤置信度。實驗結果顯示本文方法效果超過了多種先進的異常檢測器,并在UCSD Ped2、22 CUHK Avenue和ShanghaiTech等數據集上取得了SOTA效果。
02
基于域不變表征學習的可泛化語義分割方法
DIRL: Domain-invariant Representation Learning for Generalizable Semantic Segmentation
在真實世界應用中,模型對未知場景的泛化能力是至關重要的,比如自動駕駛就需要魯棒的視覺系統。目前通過學習域不變的特征來增強模型泛化能力已被廣泛研究,然而大部分現有的研究工作都在關注學習不同域之間公共的特征空間,而忽視了特征本身的性質(比如對域相關風格的敏感度)。因此,我們提出了一種新的域泛化方法:利用特征敏感度特性作為特征先驗來引導模型訓練以便提升模型泛化能力。具體而言,1)提出特征校準模塊(PGAM)來強化不敏感特征并抑制敏感特征 2)引入新的特征白化方法(GFW)進一步弱化對域風格敏感相關的特征。通過對域風格敏感特征的抑制,我們可以學習到域不變特征表達,從而大大加強模型泛化能力。我們的方法簡單且有效,在幾乎不增加計算成本情況下可以增強各種主干網路的特征魯棒性。大量的實驗結果證明我們的方法在域泛化語義分割任務上明顯優于其他方法。
03
SCSNet: 一種同時學習圖像著色和超分高效方法
SCSNet: An Efficient Paradigm for Learning Simultaneously Image Colorization and Super-Resolution
在復原低分辨率灰度圖像的實際應用中,通常需要進行圖像著色、超分辨率和降采樣三個單獨的過程。然而,這種pipeline是冗余且不高效的。因此,我們提出了一種同時執行圖像著色和超分辨率的有效范式,并提出了一種端到端SCSNet來實施。該方法由兩部分組成:其一,用于學習顏色信息的著色分支,該分支使用所提出的即插即用金字塔閥交叉注意(PVCAttn)模塊,在源圖像和參考圖像之間聚合特征映射。其二,超分辨率分支,用于集成顏色和紋理信息以預測目標圖像,該分支使用連續像素映射(CPM)在連續空間中預測高分辨率圖像。此外,我們的SCSNet支持“自動上色”和“參考上色”兩種模式,更適合實際應用。大量的實驗證明了我們的方法的優越性, 與自動模式和參考模式下,在多個數據集上FID平均降低1.8 和5.1。 此外,我們的方法相比于SOTA基線具有更少的參數量(x2↓)和更快的運行速度(x3↑)。
04
LCTR:喚醒弱監督目標定位中Transformer的局部拓展性
LCTR: On Awakening the Local Continuity of Transformer for Weakly Supervised Object Localization
弱監督目標定位(WSOL)旨在實現僅給定圖像級標簽的前提下學習一個目標定位器。基于卷積神經網絡的技術往往會過分突出目標最具判別力的區域從而導致忽略目標的整體輪廓。最近,基于自注意力機制和多層感知器結構的transformer因其可以捕獲長距離特征依賴而在WSOL中嶄露頭角。美中不足的是,transformer類的方法缺少基于CNN的方法中固有的局部感知傾向,從而容易在WSOL中丟失局部特征細節。在本文中,我們提出了一個基于transformer的新穎框架,叫作LCTR(局部拓展性Transformer),來在transformer中長距離全局特征的的基礎上增強局部感知能力。具體地,我們提出了一個關聯塊注意力模塊來引入圖像塊之間的局部關聯關系。此外,我們還設計了一個細節挖掘模塊,從而可以利用局部特征來引導模型學習著去關注那些弱響應區域。最后,我們在兩大公開數據集CUB-200-2011和ILSVRC上進行了充分的實驗來驗證我們方法的有效性。
05
基于特征生成和假設驗證的可靠人臉活體檢測
Feature Generation and Hypothesis Verification for Reliable Face Anti-Spoofing
人臉識別技術已廣泛應用于各種智能系統中,與此同時,無窮無盡的“人臉表示攻擊”不斷地威脅著智能系統的安全。為了賦予智能系統足夠的防御能力,人臉活體檢測(face anti-spoofing)技術應運而生。盡管當前的活體檢測方法在已知域中表現優異,但對于未知域中的攻擊則不能良好的防御。針對該泛化問題,有兩大類方法被廣泛研究:領域通用(domain generalization)和特征解耦(representation disentanglement)。然而,它們都有各自的局限性:(1)考慮到未知域中的樣本,很難將所有人臉映射到一個共享的、足夠泛化的特征空間。如果未知域中的人臉沒有被映射到該特征空間中的已知區域,模型將會產生不準確的預測。(2)考慮到未知種類的攻擊,很難將所有攻擊痕跡(spoof trace)精確解耦。因此在本文中,我們提出了一種特征生成和假設驗證的算法框架。首先,我們引入了特征生成網絡,用于生成真人和已知攻擊的假設(hypotheses)。隨后,設計了兩個假設驗證模塊,用于判斷輸入人臉在多大程度上來自真人特征空間和真人特征分布。并且,我們分析了該算法框架與貝葉斯不確定性估計(Bayesian Uncertainty Estimation)的關聯,為該算法框架的有效性提供了理論支持。實驗結果表明,我們的框架在跨場景和跨攻擊類型兩種不同的配置下,均獲得了SOTA的效果。
06
基于漸進式增強學習的人臉偽造圖像檢測
Exploiting Fine-grained Face Forgery Clues via Progressive Enhancement Learning
隨著人臉編輯技術的快速發展,人臉內容取證引起了廣泛的關注。在針對偽造人臉圖像的檢測上,大多數現有方法往往嘗試利用頻域信息來挖掘偽造痕跡,然而這些方法對頻域信息的利用較為粗糙,且傳統的網絡結構難以應用于頻率下的細微信息的提取。
為了解決上述問題,本文提出了一種漸進式的增強學習框架來同時利用RGB信息和細粒度的頻率信息。首先,本文基于滑動窗口和離散余弦變換將輸入RGB圖像轉換成細粒度的頻率分量,來充分在頻域空間對真假痕跡解耦。隨后,本文基于雙流網絡引入了自增強模塊和互增強模塊,其中自增強模塊可以捕捉不同輸入空間下的篡改痕跡,而互增強模塊可以互補加強雙流的特征交互。通過這種漸進式的特征增強流程,能夠有效利用細粒度的頻率信息以及RGB信息來定位細微的偽造痕跡。
大量的實驗表明我們所提出的方法在FaceForensics++、WildDeepfake等多個數據集同源設置下效果優于現有的方法,同時詳細的可視化也充分證明了我們方法的魯棒性和可解釋性。
07
基于雙重對比學習的人臉偽造圖像檢測
Dual Contrastive Learning for General Face Forgery Detection
由于人臉偽造技術不斷迭代更新,如何保持檢測模型在未知攻擊上的泛化性成為了目前人臉偽造檢測領域的一大挑戰。先前工作往往都采用基于交叉熵損失的分類框架來建模人臉偽造檢測問題,然而這種范式過于強調類別層面的差異,但忽略了每個樣本特有的偽造信息,限制了模型在未知領域的通用性。
為了解決上述問題,本文提出了一種新型的人臉偽造檢測框架,即雙重對比學習(Dual Contrastive Learning,DCL),其針對性地構造了不同種類的樣本對,并在不同粒度上進行對比學習得到更泛化的特征表示。具體而言,本文結合困難樣本選擇策略提出了實例間對比學習(Inter-ICL),促進任務相關的判別性特征學習。此外,為了進一步探索本質上的差異引入了實例內對比學習(Intra-ICL),來進一步捕捉偽造人臉中普遍存在的特征不一致性。
本文構造了泛化性評估實驗,即在FaceForensics++等數據集上訓練,并在DFD和DFDC等其他包含未知攻擊的學術數據集下評估模型效果。大量實驗和分析表明我們方法能顯著提升模型的泛化性。
08
基于動態不一致性學習的人臉偽造視頻檢測
Delving into the local: Dynamic Inconsistency Learning for DeepFake Video Detection
在人臉偽造視頻的檢測上,現有的Deepfake視頻檢測方法試圖基于時序建模來捕獲真假人臉之間的判別特征,然而這些方法往往對稀疏采樣的視頻幀進行建模,忽略了相鄰幀之間的局部運動信息。由于局部運動信息中包含了幀間的運動不一致性,因此可以作為 DeepFake 視頻檢測的重要線索。
為了解決這一問題,本文深入研究了視頻中的局部運動信息,并提出了一種新視頻采樣單元“Snippet”,該單元包含一些局部連續視頻幀。此外,本文精心設計了Intra-Snippet Inconsistency Module(Intra-SIM)和 Inter-Snippet Interaction Module(InterSIM)來建立不一致性動態建模框架。具體來說,Intra-SIM 應用雙向時間差分運算和可學習的卷積核來挖掘每個“Snippet”內的細微運動。然后 Inter-SIM 用以促進跨 “Snippet” 間的信息交互來形成全局表示。 此外,IntraSIM 和 Inter-SIM 采用交替方式進行工作,可以方便插入現有的 2D 基礎網絡結構。
我們方法在FaceForensics++、Celeb-DF等多個學術數據集上視頻評估標準下達到SOTA,豐富的可視化分析進一步證明了我們方法的有效性。
09
基于雙流更新的視覺Transformer動態加速方法
Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer
視覺Transformer 通過自注意力機制捕獲短程和長程視覺依賴的能力使其在各種計算機視覺任務中顯示出巨大的潛力,但是長程感受野同樣帶來了巨大的計算開銷,特別是對于高分辨率視覺任務。為了能夠在保持原有模型準確率的前提下,降低模型計算復雜度,從而使得視覺 Transformer成為一種更加通用、高效、低廉的解決框架,我們提出了Evo-ViT,基于雙流token更新的視覺transformer動態加速方法。該方法在保持了完整空間結構的同時給高信息量token和低信息量token分配不同的計算通道。從而在不改變網絡結構的情況下,以極低的精度損失大幅提升直筒狀和金字塔壓縮型的Transformer模型推理性能。其中,我們提出的基于全局class attention的token選擇策略通過增強層間的通信聯系實現穩定token選擇,相比以往方法,無需依靠外部的可學習網絡來對每一層的token進行選擇,也無需基于訓練好的網絡進行token裁剪。在ImageNet 1K數據集下,Evo-ViT可以提升DeiT-S 60%推理速度的同時僅僅損失0.4%的精度。
10
基于偽任務知識保存的行人重識別持續學習方法
Lifelong Person Re-identification by Pseudo Task Knowledge Preservation
現實應用中的行人重識別數據來源在時空上通常是分散的,這要求模型在不忘記舊知識的前提下,能夠持續學習到新知識。數據的時空分散會帶來任務相關的域差異,從而導致持續學習中的災難性遺忘。 為了解決這個問題,我們設計了一個偽任務知識存留框架來充分挖掘任務間的信息用于知識保存。該框架由一個能將當前任務特征映射到舊任務特征空間的偽任務變換模塊,一個任務相關的域一致性學習模塊,一個基于偽任務的知識蒸餾模塊和身份判別模塊組成。我們的方法在LReID任務上顯著地超過了之前SOTA,并獲得了可以媲美聯合訓練的效果。
11
通過Overlap估計引導局部特征點的匹配
Guide Local Feature Matching by Overlap Estimation
尺度不變情況下的特征匹配問題從傳統的SIFT到最近基于CNN的方法都沒有得到很好解決。常規的局部特征點匹配方法直接從全圖考慮,進行特征點提取匹配。本文提出的OETR方法,在借助CNN和Transformer強大特征交互能力,直接估計出兩張圖片之間的Overlap區域。通過將特征點的提取匹配限制在兩張圖片的Overlap區域內,并對Overlap區域進行縮放,有效降低兩張圖片尺度差異大時特征匹配的難度,在多個Benchmark上的實驗獲得SOTA的性能。此外,OETR可以作為一個前處理模塊,應用于任意的局部特征提取匹配方法,幫助現有的特征匹配提升效果。
12
基于筆畫-語義上下文感知的場景文本識別對比學習方法
Perceiving Stroke-Semantic Context: Hierarchical Contrastive Learning for Robust Scene Text Recognition
本文提出了一種針對場景文本識別(Scene Text Recognition, STR)任務的自監督表示學習新方法——感知筆畫-語義上下文(Perceiving Stroke-Semantic Context, PerSec)。針對場景文本圖像兼具視覺性和語義性的特點,本方法提出了雙重上下文感知器,可以對無標簽的文本圖像數據同時從低級別筆畫和高級別語義上下文空間中進行對比學習。在場景文本識別的標準數據集上的實驗結果表明,本文提出的框架可以為基于ctc和基于注意力的解碼器生成更為魯棒的特征表示。為了充分挖掘該方法的潛力,我們還收集了1億張無標簽文本圖像作為數據集UTI-100M,涵蓋5個場景和4種語言。通過利用上億級的無標簽數據進行預訓練,得到的編碼器特征對于下游文本識別的性能優良進一步提升。此外,PerSec學習的特征表示還展現除了很強的泛化能力,特別是在僅有少量有標簽數據的場景下。
13
基于動作引導序列生成的語法錯誤糾正方法
Sequence-to-Action: Grammatical Error Correction with Action Guided Sequence Generation
本文針對語法錯誤糾正(Grammatical Error Correction, GEC)任務的特點,將seq2seq以及序列標注兩種經典模型的優點結合起來,提出了一個全新的序列-動作(Sequence-to-Action, S2A)模型。S2A模塊將源語句和目標語句同時作為輸入,并且能夠在預測每個token之前自動生成token級別的操作序列(包括“跳過”、“拷貝”和“生成”三種操作)。之后,這些動作與基本的seq2seq框架融合進行最終的結果預測。在中英文GEC任務的基準數據集上的實驗結果表明,本文提出的模型性能遠優于業內其他方法,同時能夠顯著緩解過度校正問題。此外,與序列標記模型相比,本文方法在生成結果上能夠保持更好的通用性和多樣性。