近日,騰訊光影研究室(Tencent GY-Lab)憑借自研GYDepth算法,在CVPR 2021 Workshop的Mobile AI單目深度估計競賽中以領先第二名9倍的絕對優勢奪冠,擊敗三星、OPPO等手機廠商和國內外著名高校。
關于Mobile AI 2021
CVPR是世界計算機視覺三大頂級會議之一,Mobile AI是CVPR 2021其中一項Workshop比賽,除了單目深度估計競賽之外,還包括圖像超分、視頻超分等任務。這項比賽以“Mobile”為名,主打移動端芯片上的AI能力,在AI相關技術領域受到廣泛關注和高度認可,吸引著眾多手機廠商如三星,OPPO和國內外著名高校參與。
光影實驗室自研GYDepth算法,斬獲單目深度估計競賽第一名
單目深度估計是計算機視覺領域的一項基礎任務,其目的在于讓普通的RGB攝像頭能夠識別出視野內的物體距離攝像頭的遠近。單目深度估計技術的完善能夠讓主流AR玩法擺脫深度攝像頭的限制,走向更普遍的機型。
比賽的最終指標由模型精度與模型速度兩部分組成,而此次比賽中,單目深度估計的數據大多來自室外場景,并由ZED雙目攝像頭采集。相比傳統AR玩法常用的室內場景的多樣性會更多,難度更大。
針對Mobile AI室外場景,騰訊光影研究室在常規單目深度估計模型訓練框架的基礎上,對網絡結構、訓練方式、模型部署上做了針對性調整。
在網絡結構設計上,團隊在模型小型化上投入了大量精力。整體網絡是一個標準的Encoder-Decoder模型,模型自原圖輸入后經過了4次共16倍的下采樣,然后經過特征融合模塊再逐層上采樣回初始的分辨率。在模型上采樣的過程中,由于模型部署條件的限制,騰訊光影研究室摒棄了Depthwise Deconvolution的方案,轉而選擇了實現更加高效的Resize + Depthwise Convolution組合。不過,小模型自然也會帶來精度指標的降低。為了彌補這一差距,團隊在訓練流程中引入了在線蒸餾。由于單目深度估計本身就是對輸出的單通道Feature Map進行回歸,這里繼續對Soft Label進行蒸餾會和GT產生歧義,因此他們選擇在Hint Feature進行蒸餾,并且使用了網絡結構類似的服務器端開源大模型Bts作為Teacher。
除此之外,在訓練過程中,團隊除了使用常規的Flip、Color Transform外,還針對固定分辨率下絕對深度的特性,對RGBD圖片對采用了Random Crop的策略。和常規Crop不同,團隊在Crop后利用相似三角形的特性對Depth的值進行了補償,其背后的原理類似于使用相機拍攝時,把畫面放大和拍攝者向前走能達到一樣的效果。
另外,在模型部署上,Mobile AI Depth競賽要求提交的模型以Float32 TFLite形式在樹莓派Raspberry Pi 4上以CPU運行。這意味著傳統上針對Conv等基礎算子在CPU上的計算優化是不可用的,模型的速度實打實的和模型計算量正相關。為了滿足比賽提交的要求,騰訊光影研究室打通了PyTorch -> Onnx -> Keras -> TFLite的轉換路徑,并確保了轉換前后模型端到端精度誤差小于1e-6。
持續深耕AI前沿技術研發,賦能更多應用場景
實際上,光影研究室的AR玩法中,或多或少都有單目深度估計技術的身影,通過壓縮、剪枝、蒸餾獲得的小模型,可以在手機移動端實時運行,并覆蓋ios和android雙端90%以上的機型。目前單目深度估計技術已作為基礎能力在多個AR玩法中發揮作用。比如,在手機QQ的AR蛋糕等貼紙類玩法中,單目深度估計技術提供了貼紙目標在空間中的方向與位置,使得AR算法能夠快速初始化;在水淹食堂特效中,單目深度估計模型提供了視野中每個點距離相機的遠近,結合相機內外參可以計算其在世界坐標系下的位置,從而實現AR特效。
未來,光影研究室也將持續深耕AI前沿技術的研發和積累,探索并開放更多場景的創意玩法及能力,為用戶提供充滿趣味驚喜的社交和視覺新體驗。
關于騰訊光影研究室
騰訊光影研究室是騰訊旗下專注于研究前沿影像處理技術的團隊,在單目深度估計技術、語義分割、目標檢測、分類識別、GAN生成對抗等方面均有深厚的技術積累。團隊一直致力于探索泛娛樂綜合解決方案,將前沿的AI能力、先進的玩法引擎和3D渲染技術賦能產品,讓視覺創意更多樣,音視頻編輯更智能,社交溝通更趣味。目前,QQ、微視等超20款業務產品中,均有光影研究室技術的身影。