作為3D 人臉重建、人臉識別、表情遷移及美化等應用的核心基礎(chǔ)技術(shù),人臉關(guān)鍵點檢測算法一直是工業(yè)界和學術(shù)界的研究熱點。
近日,在第25屆國際模式識別大會(ICPR 2020)舉辦的人臉106關(guān)鍵點檢測挑戰(zhàn)賽中,搜狗AI團隊榮獲冠軍,彰顯其在計算機視覺領(lǐng)域的核心技術(shù)實力。
ICPR 2020大會是模式識別領(lǐng)域的頂級國際會議,由國際權(quán)威學術(shù)組織---國際模式識別協(xié)會(The International Association for Pattern Recognition,IAPR)主辦,在本屆大會組織的人臉識別領(lǐng)域競賽單元-人臉106關(guān)鍵點檢測比賽中,搜狗AI 團隊在預賽驗證和決賽測試兩階段均取得第一,擊敗OPPO研究院、美團視覺中心、東南大學、西安交大等多支強隊,最終一舉摘得桂冠。
圖1 本屆挑戰(zhàn)賽決賽階段前五名結(jié)果
ICPR人臉106關(guān)鍵點檢測挑戰(zhàn)賽是什么?
人臉關(guān)鍵點檢測算法的研究重點是在不同表情、性別、年齡、姿態(tài)、光照條件下,準確定位人臉輪廓及五官關(guān)鍵點,近年來偏向?qū)嵱玫娜四橁P(guān)鍵點檢測的國際評測陸續(xù)舉辦,國際頂級計算機會議ICME 2019就曾舉辦人臉關(guān)鍵點檢測的比賽。
人臉106關(guān)鍵點檢測挑戰(zhàn)賽(Grand Challenge of 106-p Facial Landmark Localization)是ICPR 2020舉辦的八項比賽之一,相較于之前的評測,本次ICPR 2020大會舉辦的評測難度更大。其測試樣本涵蓋大姿態(tài)、極端表情、遮擋等多種高難度、復雜的情況,且訓練樣本少,對算法的泛化能力、準確性及魯棒性等多個方面提出了巨大的挑戰(zhàn),在比拼檢測精度的同時,更加追求技術(shù)的實用化程度,對模型復雜度做了更加嚴格的要求,模型大小需要低于20 MB,運算復雜度不超過 1GFLOPs,希望推動更加高效并且魯棒的輕量級人臉關(guān)鍵點檢測算法的技術(shù)進步,因此極富學術(shù)和實用價值,吸引了數(shù)十家企業(yè)和高校的參賽隊伍參賽。
圖2 本屆比賽數(shù)據(jù)集圖片樣例
搜狗本屆比賽奪冠的技術(shù)優(yōu)勢是什么?
作為本屆賽事的冠軍隊伍,搜狗AI團隊在人臉關(guān)鍵點檢測技術(shù)上有三個重要突破。
首先,采用基于HRNet基礎(chǔ)模型的改進版本,利用不同分辨率之間特征全融合的方式,有效學習不同尺度圖像的語義信息,同時為了保證算法的精度,搜狗增加了HRNet不同分辨率分支的通道數(shù),從而在人臉關(guān)鍵點檢測任務上表現(xiàn)出了出色的效果;
圖3 使用的HRnet網(wǎng)絡結(jié)構(gòu)
其次,在卷積層部分采用組卷積,并且把其中的瓶頸層(BottleNeck)改換為MobileNet V2中的逆殘差結(jié)構(gòu)(Inverted Residuals),設置逆殘差結(jié)構(gòu)的擴展參數(shù)為1,從而有效的降低了模型的復雜度;經(jīng)典殘差結(jié)構(gòu):1x1(壓縮)->3x3(卷積)->1x1(升維),逆殘差結(jié)構(gòu):1x1(升維)->3x3(dw conv+relu)->1x1(降維+線性變換),這對基于移動端設計的小模型有廣泛的效果提升作用。
圖4 殘差結(jié)構(gòu)圖
最后,除了使用常規(guī)的平移、旋轉(zhuǎn)等數(shù)據(jù)增強策略,還使用了PDB(Pose-based Data Balancing)策略。該策略統(tǒng)計訓練數(shù)據(jù)集中的不同姿態(tài)的圖片的數(shù)量,然后通過簡單的復制數(shù)量較少的姿態(tài)的圖片,從而解決了不同的姿態(tài)的數(shù)據(jù)不均衡的問題,對大姿態(tài)下關(guān)鍵點的預測起到有效的作用。
表1 本屆比賽使用的網(wǎng)絡結(jié)構(gòu)
最終搜狗的算法在模型大小12MB,模型計算復雜度0.887GFLOPs的基礎(chǔ)上,取得了本次比賽中最好的性能,模型累計誤差分布曲線面積指標(AUC)達到80.52,歸一化平均誤差(NME)為1.58,預測失誤率(FR@0.08)只有0.05。
圖5 人臉關(guān)鍵點的累計誤差分布圖
(曲線與橫軸圍成的面積越大算法性能越優(yōu)異)
圖5搜狗AI的比賽測試結(jié)果樣例
堅持技術(shù)創(chuàng)新與應用落地并重,搜狗核心AI技術(shù)持續(xù)領(lǐng)先
搜狗在自然交互與知識計算的人工智能戰(zhàn)略指引下,堅持以語言為核心的人工智能研究,近年來在語音、計算機視覺、問答、翻譯、對話等核心技術(shù)領(lǐng)域取得突破性進展。
在技術(shù)創(chuàng)新方面,搜狗在計算機視覺領(lǐng)域一直保持著強勁實力。通用技術(shù)方向,于2018 年在CVPR WAD自動駕駛視覺競賽中奪得道路目標檢測任務第一名;在國際自動駕駛領(lǐng)域權(quán)威評測集Cityscapes實例分割評測任務中同樣拿到第一名的好成績。OCR方向,于2019年11月刷新了ICDAR 2019 ArT檢測、識別、端到端三項單元的新記錄;人臉識別方向,于2018年11月在人臉識別頂級評測 MegaFace 的Face Identification(人臉識別)任務中,基于百萬規(guī)模級別的人臉數(shù)據(jù)庫以 99.939% 的識別準確率斬獲大賽第一名;本次ICPR 2020人臉106關(guān)鍵點檢測挑戰(zhàn)賽中又一次取得技術(shù)突破獲得冠軍,證明了搜狗在計算機視覺領(lǐng)域的領(lǐng)先實力。
在應用落地方面,搜狗自研的人臉相關(guān)技術(shù)已經(jīng)應用于搜狗核心產(chǎn)品及解決方案中,其中,領(lǐng)先行業(yè)的數(shù)字人解決方案-搜狗分身已大量使用了自研的人臉關(guān)鍵點檢測、識別以及生成技術(shù),技術(shù)的不斷突破有力確保了搜狗分身的領(lǐng)先優(yōu)勢;搜狗首創(chuàng)的基于模態(tài)注意力機制的語音+唇語的多模態(tài)識別技術(shù),強噪聲場景下識別準確率提升36%;搜狗最新發(fā)布的搜狗AI錄音筆-E2在語音能力之外新增了視覺能力,能夠支持文檔圖像識別OCR等技術(shù),后續(xù)會陸續(xù)擴展人臉識別等相關(guān)應用。本次參賽的技術(shù)以應用落地為導向,已具備了大規(guī)模部署的能力,不久的將來會與搜狗分身、AI硬件、多模態(tài)識別等能力產(chǎn)生聯(lián)動效應,進一步提升搜狗AI創(chuàng)新產(chǎn)品的用戶體驗。
未來,搜狗將持續(xù)在計算機視覺領(lǐng)域推動核心技術(shù)研發(fā)及創(chuàng)新,不斷擴展技術(shù)成果的應用落地,帶給用戶更多差異化的優(yōu)質(zhì)體驗。