12月1日,國(guó)際人工智能頂級(jí)會(huì)議AAAI 2022論文接受結(jié)果公布!本屆會(huì)議共收到全球的9215篇投稿論文,接受率為15%。AAAI(Association for the Advance of Artificial Intelligence)是由國(guó)際人工智能促進(jìn)協(xié)會(huì)主辦的年會(huì),是人工智能領(lǐng)域中歷史最悠久、涵蓋內(nèi)容最廣泛的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議之一,也是中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)推薦的A類(lèi)國(guó)際學(xué)術(shù)會(huì)議。
本次騰訊優(yōu)圖實(shí)驗(yàn)室共有14篇論文被收錄,涵蓋語(yǔ)義分割、圖像著色、人臉安全、弱監(jiān)督目標(biāo)定位、場(chǎng)景文本識(shí)別等前沿領(lǐng)域。
以下為部分入選論文:
01
視頻異常檢測(cè)雙向預(yù)測(cè)網(wǎng)絡(luò)中的全面正則化方法
Comprehensive Regularization in a Bi-directional Predictive Network for Video Anomaly Detection
視頻異常檢測(cè)任務(wù)旨在通過(guò)學(xué)習(xí)正常視頻的特征,自動(dòng)識(shí)別視頻中異常的目標(biāo)或行為。此前的方法傾向于利用簡(jiǎn)單的重建或預(yù)測(cè)約束,這將導(dǎo)致從正常視頻中學(xué)習(xí)特征不充分。基于此,我們提出一種包含三種一致性約束的雙向架構(gòu),能夠從像素級(jí)、跨模態(tài)和時(shí)間序列三個(gè)層面對(duì)預(yù)測(cè)任務(wù)做全面正則化。第一,我們提出預(yù)測(cè)的一致性,它考慮前后時(shí)序中運(yùn)動(dòng)的對(duì)稱(chēng)性質(zhì),進(jìn)而保證在像素級(jí)層面的高真實(shí)性外觀(guān)和運(yùn)動(dòng)預(yù)測(cè)。第二,我們提出關(guān)聯(lián)的一致性,它考慮不同模態(tài)的相關(guān)性并使用其中一種模態(tài)來(lái)正則化另一種模態(tài)的預(yù)測(cè)。最后,我們提出時(shí)序一致性,它利用視頻序列的關(guān)系保證預(yù)測(cè)網(wǎng)絡(luò)生成時(shí)序上一致的幀。在推理階段,異常幀的模式由于無(wú)法預(yù)測(cè)從而導(dǎo)致更高的預(yù)測(cè)錯(cuò)誤置信度。實(shí)驗(yàn)結(jié)果顯示本文方法效果超過(guò)了多種先進(jìn)的異常檢測(cè)器,并在UCSD Ped2、22 CUHK Avenue和ShanghaiTech等數(shù)據(jù)集上取得了SOTA效果。
02
基于域不變表征學(xué)習(xí)的可泛化語(yǔ)義分割方法
DIRL: Domain-invariant Representation Learning for Generalizable Semantic Segmentation
在真實(shí)世界應(yīng)用中,模型對(duì)未知場(chǎng)景的泛化能力是至關(guān)重要的,比如自動(dòng)駕駛就需要魯棒的視覺(jué)系統(tǒng)。目前通過(guò)學(xué)習(xí)域不變的特征來(lái)增強(qiáng)模型泛化能力已被廣泛研究,然而大部分現(xiàn)有的研究工作都在關(guān)注學(xué)習(xí)不同域之間公共的特征空間,而忽視了特征本身的性質(zhì)(比如對(duì)域相關(guān)風(fēng)格的敏感度)。因此,我們提出了一種新的域泛化方法:利用特征敏感度特性作為特征先驗(yàn)來(lái)引導(dǎo)模型訓(xùn)練以便提升模型泛化能力。具體而言,1)提出特征校準(zhǔn)模塊(PGAM)來(lái)強(qiáng)化不敏感特征并抑制敏感特征 2)引入新的特征白化方法(GFW)進(jìn)一步弱化對(duì)域風(fēng)格敏感相關(guān)的特征。通過(guò)對(duì)域風(fēng)格敏感特征的抑制,我們可以學(xué)習(xí)到域不變特征表達(dá),從而大大加強(qiáng)模型泛化能力。我們的方法簡(jiǎn)單且有效,在幾乎不增加計(jì)算成本情況下可以增強(qiáng)各種主干網(wǎng)路的特征魯棒性。大量的實(shí)驗(yàn)結(jié)果證明我們的方法在域泛化語(yǔ)義分割任務(wù)上明顯優(yōu)于其他方法。
03
SCSNet: 一種同時(shí)學(xué)習(xí)圖像著色和超分高效方法
SCSNet: An Efficient Paradigm for Learning Simultaneously Image Colorization and Super-Resolution
在復(fù)原低分辨率灰度圖像的實(shí)際應(yīng)用中,通常需要進(jìn)行圖像著色、超分辨率和降采樣三個(gè)單獨(dú)的過(guò)程。然而,這種pipeline是冗余且不高效的。因此,我們提出了一種同時(shí)執(zhí)行圖像著色和超分辨率的有效范式,并提出了一種端到端SCSNet來(lái)實(shí)施。該方法由兩部分組成:其一,用于學(xué)習(xí)顏色信息的著色分支,該分支使用所提出的即插即用金字塔閥交叉注意(PVCAttn)模塊,在源圖像和參考圖像之間聚合特征映射。其二,超分辨率分支,用于集成顏色和紋理信息以預(yù)測(cè)目標(biāo)圖像,該分支使用連續(xù)像素映射(CPM)在連續(xù)空間中預(yù)測(cè)高分辨率圖像。此外,我們的SCSNet支持“自動(dòng)上色”和“參考上色”兩種模式,更適合實(shí)際應(yīng)用。大量的實(shí)驗(yàn)證明了我們的方法的優(yōu)越性, 與自動(dòng)模式和參考模式下,在多個(gè)數(shù)據(jù)集上FID平均降低1.8 和5.1。 此外,我們的方法相比于SOTA基線(xiàn)具有更少的參數(shù)量(x2↓)和更快的運(yùn)行速度(x3↑)。
04
LCTR:?jiǎn)拘讶醣O(jiān)督目標(biāo)定位中Transformer的局部拓展性
LCTR: On Awakening the Local Continuity of Transformer for Weakly Supervised Object Localization
弱監(jiān)督目標(biāo)定位(WSOL)旨在實(shí)現(xiàn)僅給定圖像級(jí)標(biāo)簽的前提下學(xué)習(xí)一個(gè)目標(biāo)定位器。基于卷積神經(jīng)網(wǎng)絡(luò)的技術(shù)往往會(huì)過(guò)分突出目標(biāo)最具判別力的區(qū)域從而導(dǎo)致忽略目標(biāo)的整體輪廓。最近,基于自注意力機(jī)制和多層感知器結(jié)構(gòu)的transformer因其可以捕獲長(zhǎng)距離特征依賴(lài)而在WSOL中嶄露頭角。美中不足的是,transformer類(lèi)的方法缺少基于CNN的方法中固有的局部感知傾向,從而容易在WSOL中丟失局部特征細(xì)節(jié)。在本文中,我們提出了一個(gè)基于transformer的新穎框架,叫作LCTR(局部拓展性Transformer),來(lái)在transformer中長(zhǎng)距離全局特征的的基礎(chǔ)上增強(qiáng)局部感知能力。具體地,我們提出了一個(gè)關(guān)聯(lián)塊注意力模塊來(lái)引入圖像塊之間的局部關(guān)聯(lián)關(guān)系。此外,我們還設(shè)計(jì)了一個(gè)細(xì)節(jié)挖掘模塊,從而可以利用局部特征來(lái)引導(dǎo)模型學(xué)習(xí)著去關(guān)注那些弱響應(yīng)區(qū)域。最后,我們?cè)趦纱蠊_(kāi)數(shù)據(jù)集CUB-200-2011和ILSVRC上進(jìn)行了充分的實(shí)驗(yàn)來(lái)驗(yàn)證我們方法的有效性。
05
基于特征生成和假設(shè)驗(yàn)證的可靠人臉活體檢測(cè)
Feature Generation and Hypothesis Verification for Reliable Face Anti-Spoofing
人臉識(shí)別技術(shù)已廣泛應(yīng)用于各種智能系統(tǒng)中,與此同時(shí),無(wú)窮無(wú)盡的“人臉表示攻擊”不斷地威脅著智能系統(tǒng)的安全。為了賦予智能系統(tǒng)足夠的防御能力,人臉活體檢測(cè)(face anti-spoofing)技術(shù)應(yīng)運(yùn)而生。盡管當(dāng)前的活體檢測(cè)方法在已知域中表現(xiàn)優(yōu)異,但對(duì)于未知域中的攻擊則不能良好的防御。針對(duì)該泛化問(wèn)題,有兩大類(lèi)方法被廣泛研究:領(lǐng)域通用(domain generalization)和特征解耦(representation disentanglement)。然而,它們都有各自的局限性:(1)考慮到未知域中的樣本,很難將所有人臉映射到一個(gè)共享的、足夠泛化的特征空間。如果未知域中的人臉沒(méi)有被映射到該特征空間中的已知區(qū)域,模型將會(huì)產(chǎn)生不準(zhǔn)確的預(yù)測(cè)。(2)考慮到未知種類(lèi)的攻擊,很難將所有攻擊痕跡(spoof trace)精確解耦。因此在本文中,我們提出了一種特征生成和假設(shè)驗(yàn)證的算法框架。首先,我們引入了特征生成網(wǎng)絡(luò),用于生成真人和已知攻擊的假設(shè)(hypotheses)。隨后,設(shè)計(jì)了兩個(gè)假設(shè)驗(yàn)證模塊,用于判斷輸入人臉在多大程度上來(lái)自真人特征空間和真人特征分布。并且,我們分析了該算法框架與貝葉斯不確定性估計(jì)(Bayesian Uncertainty Estimation)的關(guān)聯(lián),為該算法框架的有效性提供了理論支持。實(shí)驗(yàn)結(jié)果表明,我們的框架在跨場(chǎng)景和跨攻擊類(lèi)型兩種不同的配置下,均獲得了SOTA的效果。
06
基于漸進(jìn)式增強(qiáng)學(xué)習(xí)的人臉偽造圖像檢測(cè)
Exploiting Fine-grained Face Forgery Clues via Progressive Enhancement Learning
隨著人臉編輯技術(shù)的快速發(fā)展,人臉內(nèi)容取證引起了廣泛的關(guān)注。在針對(duì)偽造人臉圖像的檢測(cè)上,大多數(shù)現(xiàn)有方法往往嘗試?yán)妙l域信息來(lái)挖掘偽造痕跡,然而這些方法對(duì)頻域信息的利用較為粗糙,且傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)難以應(yīng)用于頻率下的細(xì)微信息的提取。
為了解決上述問(wèn)題,本文提出了一種漸進(jìn)式的增強(qiáng)學(xué)習(xí)框架來(lái)同時(shí)利用RGB信息和細(xì)粒度的頻率信息。首先,本文基于滑動(dòng)窗口和離散余弦變換將輸入RGB圖像轉(zhuǎn)換成細(xì)粒度的頻率分量,來(lái)充分在頻域空間對(duì)真假痕跡解耦。隨后,本文基于雙流網(wǎng)絡(luò)引入了自增強(qiáng)模塊和互增強(qiáng)模塊,其中自增強(qiáng)模塊可以捕捉不同輸入空間下的篡改痕跡,而互增強(qiáng)模塊可以互補(bǔ)加強(qiáng)雙流的特征交互。通過(guò)這種漸進(jìn)式的特征增強(qiáng)流程,能夠有效利用細(xì)粒度的頻率信息以及RGB信息來(lái)定位細(xì)微的偽造痕跡。
大量的實(shí)驗(yàn)表明我們所提出的方法在FaceForensics++、WildDeepfake等多個(gè)數(shù)據(jù)集同源設(shè)置下效果優(yōu)于現(xiàn)有的方法,同時(shí)詳細(xì)的可視化也充分證明了我們方法的魯棒性和可解釋性。
07
基于雙重對(duì)比學(xué)習(xí)的人臉偽造圖像檢測(cè)
Dual Contrastive Learning for General Face Forgery Detection
由于人臉偽造技術(shù)不斷迭代更新,如何保持檢測(cè)模型在未知攻擊上的泛化性成為了目前人臉偽造檢測(cè)領(lǐng)域的一大挑戰(zhàn)。先前工作往往都采用基于交叉熵?fù)p失的分類(lèi)框架來(lái)建模人臉偽造檢測(cè)問(wèn)題,然而這種范式過(guò)于強(qiáng)調(diào)類(lèi)別層面的差異,但忽略了每個(gè)樣本特有的偽造信息,限制了模型在未知領(lǐng)域的通用性。
為了解決上述問(wèn)題,本文提出了一種新型的人臉偽造檢測(cè)框架,即雙重對(duì)比學(xué)習(xí)(Dual Contrastive Learning,DCL),其針對(duì)性地構(gòu)造了不同種類(lèi)的樣本對(duì),并在不同粒度上進(jìn)行對(duì)比學(xué)習(xí)得到更泛化的特征表示。具體而言,本文結(jié)合困難樣本選擇策略提出了實(shí)例間對(duì)比學(xué)習(xí)(Inter-ICL),促進(jìn)任務(wù)相關(guān)的判別性特征學(xué)習(xí)。此外,為了進(jìn)一步探索本質(zhì)上的差異引入了實(shí)例內(nèi)對(duì)比學(xué)習(xí)(Intra-ICL),來(lái)進(jìn)一步捕捉偽造人臉中普遍存在的特征不一致性。
本文構(gòu)造了泛化性評(píng)估實(shí)驗(yàn),即在FaceForensics++等數(shù)據(jù)集上訓(xùn)練,并在DFD和DFDC等其他包含未知攻擊的學(xué)術(shù)數(shù)據(jù)集下評(píng)估模型效果。大量實(shí)驗(yàn)和分析表明我們方法能顯著提升模型的泛化性。
08
基于動(dòng)態(tài)不一致性學(xué)習(xí)的人臉偽造視頻檢測(cè)
Delving into the local: Dynamic Inconsistency Learning for DeepFake Video Detection
在人臉偽造視頻的檢測(cè)上,現(xiàn)有的Deepfake視頻檢測(cè)方法試圖基于時(shí)序建模來(lái)捕獲真假人臉之間的判別特征,然而這些方法往往對(duì)稀疏采樣的視頻幀進(jìn)行建模,忽略了相鄰幀之間的局部運(yùn)動(dòng)信息。由于局部運(yùn)動(dòng)信息中包含了幀間的運(yùn)動(dòng)不一致性,因此可以作為 DeepFake 視頻檢測(cè)的重要線(xiàn)索。
為了解決這一問(wèn)題,本文深入研究了視頻中的局部運(yùn)動(dòng)信息,并提出了一種新視頻采樣單元“Snippet”,該單元包含一些局部連續(xù)視頻幀。此外,本文精心設(shè)計(jì)了Intra-Snippet Inconsistency Module(Intra-SIM)和 Inter-Snippet Interaction Module(InterSIM)來(lái)建立不一致性動(dòng)態(tài)建模框架。具體來(lái)說(shuō),Intra-SIM 應(yīng)用雙向時(shí)間差分運(yùn)算和可學(xué)習(xí)的卷積核來(lái)挖掘每個(gè)“Snippet”內(nèi)的細(xì)微運(yùn)動(dòng)。然后 Inter-SIM 用以促進(jìn)跨 “Snippet” 間的信息交互來(lái)形成全局表示。 此外,IntraSIM 和 Inter-SIM 采用交替方式進(jìn)行工作,可以方便插入現(xiàn)有的 2D 基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)。
我們方法在FaceForensics++、Celeb-DF等多個(gè)學(xué)術(shù)數(shù)據(jù)集上視頻評(píng)估標(biāo)準(zhǔn)下達(dá)到SOTA,豐富的可視化分析進(jìn)一步證明了我們方法的有效性。
09
基于雙流更新的視覺(jué)Transformer動(dòng)態(tài)加速方法
Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer
視覺(jué)Transformer 通過(guò)自注意力機(jī)制捕獲短程和長(zhǎng)程視覺(jué)依賴(lài)的能力使其在各種計(jì)算機(jī)視覺(jué)任務(wù)中顯示出巨大的潛力,但是長(zhǎng)程感受野同樣帶來(lái)了巨大的計(jì)算開(kāi)銷(xiāo),特別是對(duì)于高分辨率視覺(jué)任務(wù)。為了能夠在保持原有模型準(zhǔn)確率的前提下,降低模型計(jì)算復(fù)雜度,從而使得視覺(jué) Transformer成為一種更加通用、高效、低廉的解決框架,我們提出了Evo-ViT,基于雙流token更新的視覺(jué)transformer動(dòng)態(tài)加速方法。該方法在保持了完整空間結(jié)構(gòu)的同時(shí)給高信息量token和低信息量token分配不同的計(jì)算通道。從而在不改變網(wǎng)絡(luò)結(jié)構(gòu)的情況下,以極低的精度損失大幅提升直筒狀和金字塔壓縮型的Transformer模型推理性能。其中,我們提出的基于全局class attention的token選擇策略通過(guò)增強(qiáng)層間的通信聯(lián)系實(shí)現(xiàn)穩(wěn)定token選擇,相比以往方法,無(wú)需依靠外部的可學(xué)習(xí)網(wǎng)絡(luò)來(lái)對(duì)每一層的token進(jìn)行選擇,也無(wú)需基于訓(xùn)練好的網(wǎng)絡(luò)進(jìn)行token裁剪。在ImageNet 1K數(shù)據(jù)集下,Evo-ViT可以提升DeiT-S 60%推理速度的同時(shí)僅僅損失0.4%的精度。
10
基于偽任務(wù)知識(shí)保存的行人重識(shí)別持續(xù)學(xué)習(xí)方法
Lifelong Person Re-identification by Pseudo Task Knowledge Preservation
現(xiàn)實(shí)應(yīng)用中的行人重識(shí)別數(shù)據(jù)來(lái)源在時(shí)空上通常是分散的,這要求模型在不忘記舊知識(shí)的前提下,能夠持續(xù)學(xué)習(xí)到新知識(shí)。數(shù)據(jù)的時(shí)空分散會(huì)帶來(lái)任務(wù)相關(guān)的域差異,從而導(dǎo)致持續(xù)學(xué)習(xí)中的災(zāi)難性遺忘。 為了解決這個(gè)問(wèn)題,我們?cè)O(shè)計(jì)了一個(gè)偽任務(wù)知識(shí)存留框架來(lái)充分挖掘任務(wù)間的信息用于知識(shí)保存。該框架由一個(gè)能將當(dāng)前任務(wù)特征映射到舊任務(wù)特征空間的偽任務(wù)變換模塊,一個(gè)任務(wù)相關(guān)的域一致性學(xué)習(xí)模塊,一個(gè)基于偽任務(wù)的知識(shí)蒸餾模塊和身份判別模塊組成。我們的方法在LReID任務(wù)上顯著地超過(guò)了之前SOTA,并獲得了可以媲美聯(lián)合訓(xùn)練的效果。
11
通過(guò)Overlap估計(jì)引導(dǎo)局部特征點(diǎn)的匹配
Guide Local Feature Matching by Overlap Estimation
尺度不變情況下的特征匹配問(wèn)題從傳統(tǒng)的SIFT到最近基于CNN的方法都沒(méi)有得到很好解決。常規(guī)的局部特征點(diǎn)匹配方法直接從全圖考慮,進(jìn)行特征點(diǎn)提取匹配。本文提出的OETR方法,在借助CNN和Transformer強(qiáng)大特征交互能力,直接估計(jì)出兩張圖片之間的Overlap區(qū)域。通過(guò)將特征點(diǎn)的提取匹配限制在兩張圖片的Overlap區(qū)域內(nèi),并對(duì)Overlap區(qū)域進(jìn)行縮放,有效降低兩張圖片尺度差異大時(shí)特征匹配的難度,在多個(gè)Benchmark上的實(shí)驗(yàn)獲得SOTA的性能。此外,OETR可以作為一個(gè)前處理模塊,應(yīng)用于任意的局部特征提取匹配方法,幫助現(xiàn)有的特征匹配提升效果。
12
基于筆畫(huà)-語(yǔ)義上下文感知的場(chǎng)景文本識(shí)別對(duì)比學(xué)習(xí)方法
Perceiving Stroke-Semantic Context: Hierarchical Contrastive Learning for Robust Scene Text Recognition
本文提出了一種針對(duì)場(chǎng)景文本識(shí)別(Scene Text Recognition, STR)任務(wù)的自監(jiān)督表示學(xué)習(xí)新方法——感知筆畫(huà)-語(yǔ)義上下文(Perceiving Stroke-Semantic Context, PerSec)。針對(duì)場(chǎng)景文本圖像兼具視覺(jué)性和語(yǔ)義性的特點(diǎn),本方法提出了雙重上下文感知器,可以對(duì)無(wú)標(biāo)簽的文本圖像數(shù)據(jù)同時(shí)從低級(jí)別筆畫(huà)和高級(jí)別語(yǔ)義上下文空間中進(jìn)行對(duì)比學(xué)習(xí)。在場(chǎng)景文本識(shí)別的標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出的框架可以為基于ctc和基于注意力的解碼器生成更為魯棒的特征表示。為了充分挖掘該方法的潛力,我們還收集了1億張無(wú)標(biāo)簽文本圖像作為數(shù)據(jù)集UTI-100M,涵蓋5個(gè)場(chǎng)景和4種語(yǔ)言。通過(guò)利用上億級(jí)的無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,得到的編碼器特征對(duì)于下游文本識(shí)別的性能優(yōu)良進(jìn)一步提升。此外,PerSec學(xué)習(xí)的特征表示還展現(xiàn)除了很強(qiáng)的泛化能力,特別是在僅有少量有標(biāo)簽數(shù)據(jù)的場(chǎng)景下。
13
基于動(dòng)作引導(dǎo)序列生成的語(yǔ)法錯(cuò)誤糾正方法
Sequence-to-Action: Grammatical Error Correction with Action Guided Sequence Generation
本文針對(duì)語(yǔ)法錯(cuò)誤糾正(Grammatical Error Correction, GEC)任務(wù)的特點(diǎn),將seq2seq以及序列標(biāo)注兩種經(jīng)典模型的優(yōu)點(diǎn)結(jié)合起來(lái),提出了一個(gè)全新的序列-動(dòng)作(Sequence-to-Action, S2A)模型。S2A模塊將源語(yǔ)句和目標(biāo)語(yǔ)句同時(shí)作為輸入,并且能夠在預(yù)測(cè)每個(gè)token之前自動(dòng)生成token級(jí)別的操作序列(包括“跳過(guò)”、“拷貝”和“生成”三種操作)。之后,這些動(dòng)作與基本的seq2seq框架融合進(jìn)行最終的結(jié)果預(yù)測(cè)。在中英文GEC任務(wù)的基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出的模型性能遠(yuǎn)優(yōu)于業(yè)內(nèi)其他方法,同時(shí)能夠顯著緩解過(guò)度校正問(wèn)題。此外,與序列標(biāo)記模型相比,本文方法在生成結(jié)果上能夠保持更好的通用性和多樣性。