近日,國際人工智能頂級會議AAAI 2021公布論文錄取結果。網易伏羲實驗室再創佳績,共有9篇論文入選,研究方向涉及強化學習、虛擬人、自然語言處理(NLP)、圖像動畫、用戶畫像等領域。科研成果的集中爆發,充分顯示網易伏羲在人工智能的多個領域已經具備國際頂尖的技術創新能力。
AAAI(Association for the Advance of Artificial Intelligence)是美國人工智能協會主辦的年會,是人工智能領域中歷史最悠久、涵蓋內容最廣泛的的國際頂級學術會議之一。在中國計算機學會的國際學術會議排名中,AAAI被列為人工智能領域的A類頂級會議。
作為人工智能領域的風向標,每年的AAAI都會吸引大量來自學術界、產業界的研究員、開發者投稿和參會,論文競爭更是異常激烈。AAAI 2021聯合主席Kevin Leyton-Brown在Twitter上表示,今年接受的投稿論文總數達到“驚人的高技術水平”。9034篇投稿論文中,7911篇接受評審,最終僅有1692篇論文被錄取,錄取率為21%。
網易伏羲成立于2017年,是國內專業從事游戲與文創AI研究和應用的頂尖機構。此次AAAI中稿論文中展示的部分技術成果,如:智能捏臉、表情遷移等技術,已在網易多個產品中應用落地,成為吸引行業關注的亮點。
以下是網易伏羲入選9篇論文:
MeInGame:從單個肖像中創建一個游戲角色
(MeInGame: Create a Game Character Face from a Single Portrait)
關鍵詞:角色創建、智能捏臉
受到參數范圍的限制,現有的游戲角色人臉自動創建算法無法很好地還原參數范圍之外的人臉,且大部分方法都沒有考慮貼圖。少部分能夠生成貼圖的方法,也沒有考慮光照和遮擋物的影響,導致創建的三維人臉無法很好地應用在游戲中。
為了提高創建的游戲人臉的形狀相似度,本文提出先使用業內成熟的基于3DMM和CNN的方法重建三維人臉,然后基于徑向基函數插值的方法,將三維人臉的形狀遷移到游戲三維人臉模板上。
(網絡結構圖示)
(智能捏臉效果圖示)
主觀實驗表明,本文提出的方法在約98%的測試用例上都優于其它現有方法。
2、基于標準化外觀自適應的人臉重演方法
(One-shot Face Reenactment Using Appearance Adaptive Normalization)
關鍵詞:表情遷移
人臉重演的目的是將一張人臉的表情和姿態遷移到另外一張人臉上去,該任務可以用于說話頭生成、虛擬形象驅動等目的。
之前的部分模型需要多張源圖片來訓練一個單獨的網絡。一些one-shot模型往往無法較好地保存原始人臉的身份信息,且生成質量較低。通過對adptive normalization的分析,我們指出先前的模型不適用于人臉重演這一任務。
本文通過一個網絡來預測所有層的adaptive 參數,這種設計能夠對adaptive 參數進行全局的規劃。此外,本文引入local-global機制,通過先將局部的五官遷移,然后用五官來指導生成整張臉簡化了任務。
(網絡結構圖示)
實驗表明,本文提出的方法能更好地保存原始人臉信息,生成更真實的圖像。
3、結構感知下基于姿態分解和語義相關性的人體圖像生成
(Structure-aware Person Image Generation with Pose Decomposition and Semantic Correlation)
關鍵詞:動作遷移、圖片生成
基于姿態引導的人體圖片生成是一種將源輸入圖片中的人體圖像變換為目標動作姿態的技術。目前,該技術已經被廣泛地應用于影視制作、動畫生成、虛擬試穿等諸多領域,具有廣泛的應用前景和巨大的市場價值。
鑒于標準CNN無法高效地處理大的空間形變,本文提出了一種基于外觀流的方法來建模源特征與目標特征之間的密集對應關系。在此框架下,我們結合人體的先驗結構信息來指導網絡學習,從而有效地改善效果。同時,我們進一步設計了一個輕量且有效的基于金字塔池化的非局部(non-local)模塊以捕獲不同尺度下不同人體部分的全局語義相關性。
(網絡結構圖示)
實驗結果表明,本文提出的方法可以在較大的姿態差異下生成高質量的結果。
(實驗結果圖示)
4、基于視覺感知下全局關系學習的游戲住宅規劃
(In-game Residential Home Planning via Visual Context-aware Global Relation Learning)
關鍵詞:游戲莊園合成,全局關系圖生成,視覺感知
在場景合成領域,基于組件的三維場景合成一直是一個相對空缺的研究方向。現有方案傾向于依賴組件之間的功能性約束,例如,電視機一定會放置在電視柜上等等。另外,室內場景組織的時候單一場景的組件比較少,大約在10個左右。
這類場景下的研究工作與實際的莊園合成場景差異很大。例如,在莊園中,組件之間沒有很強的功能性約束;另外,在莊園中通常會有幾百個組件,這也是之前的工作不能解決的。
本文提出了一種基于全局關系約束的思路。我們將當前場景轉化為一個帶有豐富空間信息的有向圖。通過學習數據集中邊的分布情況,我們可以采樣出當前場景中所有節點到新節點的邊的分布,進而通過邊的分布來推斷出新節點的位置。如此便可以輔助整個場景中組件的逐一擺放。
為了實現這個目的,我們基于圖注意力機制下的循環網絡來模擬當前子圖到目標節點的邊的分布情況,為了在模型中加入對2D空間的理解,我們將3D場景渲染為2D,提取對應節點視覺特征,融合到循環網絡中。由于圖節點信息和2D場景信息來自不同的域,我們還加入一個全局的視覺內容-圖節點匹配損失。
(網絡結構圖示)
實驗結果表明,我們的方案能解決之前的工作在我們的場景下不適用的問題,并且能給出理想的位置推薦結果。
5、HR-Depth:高分辨率自監督單目深度估計
(HR-Depth : High Resolution Self-Supervised Monocular Depth Estimation)
關鍵詞:自監督,深度估計
通過以圖像序列作為唯一的監督來源,自我監督學習在單眼深度估計中顯示出巨大潛力。盡管人們嘗試將高分辨率圖像用于深度估計,但是預測的準確性并未得到明顯提高。
在這項工作中,我們發現主要原因來自于對大梯度區域的不正確的深度估計,從而使雙線性插值誤差隨著分辨率的提高而逐漸消失。為了在大的梯度區域中獲得更準確的深度估計,必須獲得具有空間和語義信息的高分辨率特征。
因此,我們提出了一種改進的DepthNet HR-Depth,它具有兩種有效的策略:(1)重新設計DepthNet中的跳躍連接以減少編碼器和解碼器之間的語義鴻溝;(2)提出特征融合Squeeze-and-Excitation(fSE)模塊以更有效地融合特征。使用Resnet-18作為編碼器,HR-Depth在高分辨率和低分辨率場景中都超越了所有現有技術,同時具有更少的參數。此外,以前的最新方法是基于相當復雜的深度網絡,具有大量參數從而限制了它們的實際應用。因此,我們還構建了一個使用MobileNetV3作為編碼器的輕量級網絡。
(網絡結構圖示)
(估計結果圖示)
實驗表明,輕量級網絡可以以僅20%的參數與許多大型模型(如Monodepth2)以高分辨率相媲美。
6、結合解耦通用值函數的強化學習商品推薦
(Reinforcement Learning with a Disentangled Universal Value Function for Item Recommendation)
關鍵詞:強化學習、商品推薦
近年來,將強化學習結合到推薦系統中,引起了人們極大的興趣,也帶來了新的挑戰。本文總結了基于強化學習的大規模推薦系統在實際應用中面臨的三大挑戰,并研發了一種基于 goal-based 的強化學習框架 GoalRec。
(解耦值函數的強化學習推薦框架)
本文結合world model和值函數的思想,提出了一種基于模型的值函數形式化方式,能夠將環境演變和獎勵分離開來。通過使用稠密的推薦環境數據而非獎勵信號,我們有效地學習了一個與獎勵無關的、高模型容量的world model。
不同于只預測下一步狀態的傳統world model,我們通過引入goal-based 強化學習框架,通過對強化學習策略的參數化序列建模,將world model擴展到了用戶軌跡維度。因為傳統的基于模型的規劃方法效率較低,我們進一步將world model融入到值函數中,且一定程度上幫助值函數規避了高方差環境與稀疏獎勵信號帶來的學習問題。
在網易熱門游戲《遇見逆水寒》神秘商店場景中,我們部署了這一算法,驗證了該算法相比之前的監督學習與普通強化學習算法能帶來較大的業務收益。
7、NeuralAC:用于比賽結果預測的學習合作與競爭效應
(NeuralAC: Learning Cooperation and Competition Effects for Match Outcome Prediction)
關鍵詞:神經網絡,比賽預測、合作競爭
預測團體比賽的勝負是一項重要且有挑戰的任務。由于人具有社會屬性,比賽中的成員不可避免地會與其他成員產生交互,影響比賽結局。現有的工作主要關注于學習團隊成員的個體能力,或者建模團隊內部的交互。然而,群體比賽中存在多種復雜的交互,包括團隊內部交互(即合作效應)和團隊間交互(即競爭效應)。同時,不同重要性的成員還會在群體比賽中受到不同程度的關注,影響比賽結果。
(游戲對戰中的合作與競爭關系)
為此,本文提出了 NeuralAC,它能學習帶權重的競爭合作效應,用于比賽結果的預測。具體來說,NeuralAC首先將個體成員投影到多個隱空間,使用神經網絡作為交互函數來建模對友間的合作和對手間的競爭效應。隨后,我們使用兩種注意力機制來捕捉團隊內部以及團隊間的注意力分布,這同時提高了比賽預測的準確性和可解釋性。
(NeuralAC模型框架)
在多個電子團體競技的數據集上的實驗結果都表明NeuralAC優于其它方法。該方法還可以很容易地推廣到其他任務中,如團隊組建、MOBA游戲平衡性檢測等。
8、基于風格化的非平行語料的風格化對話回復生成
(Stylized Dialogue Response Generation Using Stylized Unpaired Texts)
關鍵詞:自然語言處理、對話生成、自然語言生成、預訓練語言模型、數據增強
生成風格化的回應是構建智能且吸引人的對話系統的關鍵。然而,這一任務遠未得到很好的探索。這是因為讓神經網絡在生成連貫的響應的同時呈現特定風格非常困難,特別是當目標風格只嵌入在無法直接用于訓練對話模型的未配對文本中時。
本文提出了一種風格化的對話生成方法,可以捕捉嵌入在未配對文本中的風格特征。具體來說,我們的方法可以生成既符合上下文,又符合目標風格的對話回復。在本文中,我們首先引入了一個逆向對話模型來預測一條回復內容對應的輸入。然后,我們用這個逆向模型來根據這些風格化的非配對文本生成風格化的偽對話對。我們使用這些偽對話對來聯合訓練風格化對話模型。為了增強decoder中的風格特征,我們提出了style routing方法。
在兩個數據集上的自動和人工評估表明,我們的方法在產生連貫和風格密集的對話回復方面優于競爭基線。
9、生成一個演講者:基于文字生成的、具有表情和韻律的的說話人臉視頻算法框架
(Write-a-speaker: Text-based Emotional and Rhythmic Talking-head Generation)
關鍵詞:虛擬人、圖像生成、數字人、音視頻同步、說話人臉、視頻合成
本文首次提出了從文字生成說話人臉視頻的算法框架,除了音視頻同步的口型,還同時生成了與說話內容匹配的面部表情和與說話節奏匹配度韻律頭動。
本文的算法由兩個階段組成:第一階段與特定說話人無關,包括三個并行網絡,分別用于生成口型、眉眼表情和頭部運動三組動作參數; 第二階段合成特定說話人視頻,基于三維人臉信息監督的自適應注意力網絡來生成不同特定人的說話視頻, 此階段以動作參數作為輸入,生成注意力掩碼來修改不同說話人的面部表情變化。為了更好的采集面部動作和說話內容的關系,本文借助動作捕捉設備建立了一個音視頻同步數據集。基于這個動捕數據集,本文的算法可以實現高效的端到端訓練。
(由算法合成的說話人臉視頻)
定性和定量的實驗結果表明,基于任意特定人物的少量視頻數據(5分鐘),本文的算法能夠從文字生成有情緒和韻律節奏的該特定人物的像素級說話人臉視頻,其中視覺質量超過已有方法。