2月28日,人工智能頂級會議CVPR 2021(國際計算機視覺與模式識別會議,Conference on Computer Vision and Pattern Recognition)公布論文錄取結果,網易伏羲共有3篇論文入選。
其中,由網易伏羲虛擬人團隊發表的一項研究頗為引人關注。該研究提出了一種人類表情編碼的創新提取方法,大幅提升了AI感知人類表情的精度。隨著該技術的發展,未來,AI感知人類表情的能力甚至有望超越人類感知平均水平。
這一技術的應用場景十分廣泛,包括測謊、性格評估、自閉癥檢測、表演能力評估等眾多與人臉表情相關的領域。
過去,學術界對人類表情的識別和描述,一般源于兩種傳統理論:一種源自150年前的達爾文時期,學者們從心理學出發,基于高興、驚訝、生氣、悲傷等有限的情緒類別描述人類表情;另一種起源于上世紀70年代末,知名心理學家Paul Ekman博士從解剖學角度出發,基于人臉肌肉運動,用27種動作單元來描述人類表情。
從數量上看,傳統理論對人類表情的描述極為有限。網易伏羲的人類表情編碼提取方法,則以人工智能的方式進一步突破了這一瓶頸。通過學習大量的人臉表情數據,AI可以無窮盡、無上限地感知人類表情。
為了讓AI更懂人類的喜怒哀樂,技術人員還需要大量細顆粒度、人工標注的人臉表情數據用于算法參數迭代,進一步提升表情編碼的精度。為此,網易伏羲正在開發一個游戲化標注小程序,讓普通用戶能夠在游戲的過程中,輕輕松松地參與表情標注,加速推進人類表情領域的人工智能研究與應用。
網易伏羲成立于2017年,是國內從事游戲與文創AI研究和應用的頂尖機構,研究方向包括強化學習、圖像動畫、自然語言、虛擬人、用戶畫像、大數據平臺等領域。據了解,此次CVPR中稿論文展示的部分科研成果,已經在網易多個產品中成功落地。未來,網易伏羲將繼續以技術落地為導向,用科研成果推動產品創新。
附| 網易伏羲三篇入選CVPR2021論文簡介:
1、《去ID信息的表情編碼》
(Learning a Facial Expression Embedding Disentangled from Identity)
論文簡介:
本文研究的主要目的,是獲取一種緊致的,且與ID信息無關的人臉表情表征。
本研究中,網易伏羲虛擬人團隊首次提出,將表情特征建模為從ID身份特征出發的一個差值向量,以這種顯式方式去掉ID的影響。為此,本研究設計了一個偽孿生結構的網絡去學習這種差值。同時,為了加強網絡在深層的學習能力,本研究通過高階多項式的方法替代一般的全連接層去完成從高維到低維的映射。另外,考慮到不同標注者存在一定標注噪音,本研究增加了眾包層學習不同標注者的偏差,使學習到的表情表征更加魯棒。
定性和定量的實驗結果表明,該方法在FEC數據集上超越了前沿水平。同時在情緒識別、圖像檢索以及人臉表情生成等應以用上都有不錯的效果。
(論文的Pipeline)
下圖展示了該工作的表情表征編碼的效果,輸入一張檢索(Query)表情,通過比較表情編碼的距離,從一個足夠大的人臉數據集中檢索出與之最相似的一些表情(Results),下圖中展示了TOP5的結果。
(本研究中表情表征的效果)
由圖可知,所檢索出來的圖像和目標表情非常接近,說明本研究提出的表情表征編碼可以感知微妙且精細的表情。
2、《基于稠密運動場的高清說話人臉視頻生成》
(Flow-based One-shot Talking Face Genaration with a High-resolution Audio-visual Dataset)
論文簡介:
One-shot說話人臉合成的目的,是給定任意一張人臉圖像和任意一段語音,合成具有語音口型同步、眉眼頭動自然的高清說話人臉視頻。之前工作合成的視頻分辨率之所以一直受到限制,主要有兩個原因:1、目前沒有合適的高清視聽數據集。2.之前的工作使用人臉特征引導人臉圖像合成,而對于高分辨率圖像來說特征太稀疏。
為了解決上述問題,本研究首先收集了一個無約束條件下(in-the-wild)的高清人臉音視數據集YAD,該數據集比之前無約束條件下的數據集更加高清,也比之前實驗室環境下(in-the-lab)數據集包含有更多的人物ID。
基于高清數據集YAD,本研究借助三維人臉重建(3DMM)將整個方法分成表情參數合成和視頻圖像合成兩個階段;在表情參數合成階段中,使用多任務的方法合成嘴唇運動參數、眉眼運動參數和頭部運動參數。在視頻圖像合成階段,則使用稠密運動場替代人臉關鍵點引導人臉圖像生成。定性和定量結果表明,與之前的工作相比,本研究可以合成更加高清的視頻。以下二圖分別展示方法的流程圖和視頻合成效果。
(論文的pipeline)
(實驗的合成結果)
3、《神經風格畫筆》
(Stylized Neural Painting)
論文簡介:
網易伏羲與密歇根大學合作研究,提出了一種圖像到繪畫的轉換方法。該方法可以生成風格可控、生動逼真的繪畫作品。不同于神經風格遷移方法,網易伏羲在參數化的條件下處理這種藝術創作過程,并產生一系列具有物理意義的畫筆參數。
(借助神經可微渲染器,AI可以創造出高相似度,又獨具風格的繪畫作品)
由于經典的矢量渲染是不可微的,因此我們設計了一種全新的神經可微渲染器。它可以模仿矢量渲染器的行為,然后將畫筆預測轉換為參數搜索過程,即最大化輸入與渲染輸出之間的相似度。
實驗表明,通過該方法生成的繪畫在整體外觀、局部紋理上都具有很高的保真度;該方法也可以與神經風格遷移共同優化,后者可以進一步遷移其他圖像的視覺樣式。