“特效”已經成為抖音用戶在作品投稿時最常見的玩法,而這些五花八門的特效究竟是怎樣制作出來的,卻鮮有人知。
7月28日,抖音聯合火山引擎在北京舉辦智能特效技術開放日。火山引擎相關特效技術專家分享了抖音特效的生產流程和技術原理。
在影視領域,人們對“特效”并不陌生,而且隨著科技的進步,影視特效越來越令人震撼,特別是AI技術的興起,在動畫建模、渲染、編輯合成等特效制作環節帶來了巨大的提升。例如大家熟知的《復仇者聯盟》系列,就用了機器學習的方法,通過捕捉演員的面部表情來制作滅霸的表情,讓虛擬角色的表情特效達到非常生動、逼真的效果。
然而,在另一方面,影視特效的制作成本也非常高。此前有媒體報道好萊塢視覺大片的特效費用至少占總制作費的60%以上。即便在如此高的成本之下,效率也并不盡如人意,據說1秒的特效鏡頭,如果只用一臺高性能的機器渲染,可能需要50天之久。
考慮到抖音特效的用戶都是普通消費者,火山引擎在開發抖音特效相關技術時嚴格遵循了兩個原則:一是要用前沿的技術來實現好的特效效果,二是盡量降低特效創作和使用的門檻,讓每個人都能用特效更好地表達,做出具有想象力和表現力的內容。
具體到技術層面來說,抖音特效主要使用了計算機視覺(CV)和計算機圖形學(CG)技術。
其中,CV代表對現實世界、對真實畫面內容的理解,可以理解畫面里是一個全身人像、還是只是一只手做了某種手勢;也可以去理解畫面里面有沒有天空、地面或者建筑物等等等。
深度學習技術的發展對于CV技術有非常大的推動作用。深度學習是通過人工神經網絡去理解訓練樣本內在更深層次的規律,通過數據以及模型結構,進行結構化的表達。通過深度學習的技術,可以幫助CV在檢測、分割、智能生成以及SLAM(即時定位與地圖構建)等方面,都可以達到更好的精度、準確率以及適應面。
火山引擎特效技術專家在分享中也強調,CV技術中達到的“人臉貼合”,有別于日常所說的人臉識別技術,它本質上是通過對人臉的關鍵錨點進行檢測來實現,這些點位的信息,無法還原出人的相貌;而且這些點位數據,都只是在手機端上進行檢測,不會上傳到服務器。
除了CV之外,要完成演示中的特效,還需要把一些虛擬的素材,顯示或者疊加渲染到真實畫面上,這就是CG技術。
比如我們在很多抖音特效中會看到,畫面中人臉邊上一直有一個水果,右邊也有很多的水果隨機飛出,這些水果的動畫,還有最后人頭上戴著的3D菠蘿頭飾,都是通過CG技術疊加上去的。
這樣,有了CV與CG技術之后,可以簡單的生成很多特效。CV提供了對真實場景的理解,告訴你應該在哪里疊加虛擬素材;CG技術完成虛擬素材的疊加任務。比如把一頂假的帽子戴在頭上,或者做一個假的口紅涂在嘴唇上等等,都是如此。
但僅有CV和CG技術,還不能達到讓用戶以更低門檻使用特效的目標。在進一步發展特效技術的過程中,火山引擎又引入了模版或者劇本的概念,也就是說用戶可以作為主角帶入到故事情節當中,按照一定的規則最終形成比較高質量的視頻。
比如在某些特效中,畫面左邊的水果與右邊飛出來的水果進行碰撞,就會變成一個新的水果,變化多次之后,進入到下一個階段,就會讓用戶頭上戴了一個菠蘿的帽子——這就是在一定規則下,CV與CG之間的互動技術。
火山引擎特效技術專家表示,除了CV、CG、互動技術之外,抖音的特效功能還要通過反復的工程與產品化的迭代,最終才能夠在抖音當中集成、上線,面向所有的用戶。