4月27日,清華大學108周年校慶之際,清華大學大數據研究中心、清華-快手未來媒體數據聯合研究院共同主辦《清華大數據論壇——深度學習技術與應用》,清華大學師生、校友匯聚一堂,探討分享深度學習技術與應用的最新進展。
清華大學-快手未來媒體數據聯合研究院于2018年4月正式成立。作為清華大學校級科研機構,研究院充分利用清華大學的領先技術和快手多年的行業積累,面向多個領域開展基礎和應用研究、開發、集成和快速迭代,共同探討一系列未來媒體課題,讓技術更好賦能用戶,實現人與人之間更精準的連接。
軟件學院2001級的校友、清華-快手未來媒體數據聯合研究院副院長、快手AI技術副總裁鄭文博士作了題為《深度學習在短視頻領域的應用和展望》的分享。以下為演講的核心內容。
作為一個日活超過1.6億的短視頻APP,快手的使命是“用科技提升每一個人獨特的幸福感”。這里有兩個關鍵詞,一是“每一個人”,這說明快手的價值觀是非常普世的,但我們同時也強調每個人的幸福感是“獨特的”。光靠人工運營很難達到針對每個人的服務,需要通過人工智能技術,特別是近幾年有所突破的深度學習技術來實現。
目前快手是通過記錄來提升幸福感的,這可以從兩個方面來體現。首先,用戶希望能看到更廣闊的世界。第二,用戶也有分享自己,被更廣闊的世界看到的需求。
但是這里面臨一個挑戰,現在快手累計擁有超過 80 億條視頻與數億用戶,在這兩個海量的數字面前,如何有效分配注意力?過去,注意力一般會集中在所謂的“爆款視頻”里,但在爆款視頻之下,還有大量可能包含了非常豐富的信息、類別多樣化的內容,這種“長尾視頻”往往很難被別人注意到。如此,一些需求小眾,或者興趣比較細分的群體往往很難找到他們想要的內容。
這個挑戰決定了我們必須要依賴于深度學習為主的AI技術解決該問題,代替人工實現內容匹配的分發。快手很早開始就在AI相關技術方面做了很多積累,從視頻生產到分發每一個環節都有大量深度學習的應用。
內容生產
快手希望通過 AI 技術使得記錄更加豐富有趣,基于這個目標,我們開發了大量多媒體和 AI 技術,比如背景分割、天空分割、頭發分割,人體關鍵點、人臉關鍵點、手勢關鍵點檢測等等,并將它們應用在魔法表情中。
快手用戶跟中國互聯網用戶分布非常一致,中國互聯網用戶里面有很大一部分使用的手機都是中低端手機,算力有限。而先進的 AI 技術對設備的計算量的要求極高,為了讓先進的技術被最多的用戶體驗到,快手對底層平臺進行定制化開發,基于快手自研的 YCNN 深度學習推理引擎及媒體引擎,讓上述技術在大多數機型上都能高效運行,并針對不同機型、不同硬件進行了適配和優化。
快手也希望將內容質量變得更高,研發并應用了很多圖像增強技術。例如,用戶在光線很暗的環境下拍攝,產出的視頻往往會丟失信息和細節,通過暗光增強技術,可以將這些細節恢復。
接下來是快手近期在內容生產方面研發的一些具體的深度學習技術。三維人臉技術能夠針對單張人臉圖像恢復出人臉的三維信息,一方面可以實現對人臉的一些修改,比如打光、做一些表情、實現三維變臉特效;另一方面,通過三維人臉信息,我們可以提取出人的表情變化,然后把表情遷移到虛擬的卡通形象上,效果類似于 iPhoneX 推出的 Animoji 功能,但 iPhoneX 有結構光攝像頭,且運行 Animoji 需要很強大的算力,我們通過技術研發,在普通攝像頭、配置較低的手機上也能實現類似功能。
剛才也提到了語義分割技術,人像分割技術能把人像和背景區分開,分別對人像和背景做特效,或者進行背景替換,還可以做人像虛化;頭發分割,可以把頭發區域分割出來,做染發效果。天空分割技術則可以讓天空區域變得更加超現實、更加夢幻。
人體姿態估計則是預測人的關節點位置,利用這一技術,我們可以給人體肢體上加特效,或者修改人的體型,做美體瘦身功能。此外,我們還能重構出人體的三維信息,用于控制卡通形象。
手勢檢測是把各種特定的不同手形檢測出來,實現「控雨」等玩法。另外還有 AR 相機姿態估計,背后是快手自研的 3D 引擎,并在其基礎上添加編輯器模塊、渲染模塊、肢體模塊、聲音模塊等,來實現模型精致而自然的光感、材質。
在音視頻方面,我們應用了很多智能算法,比如需要視頻盡可能清晰,但同時也要求傳輸流暢,這就需要針對視頻復雜度做一些自適應優化。另外,我們也會對圖像進行分析,比如視頻里面人臉的區域往往對大家的觀感影響最大,我們會把人臉的區域檢測出來,將碼率做得更高,使得整體觀感獲得很大的提升。
我們也會檢測圖像質量,比如視頻生產過程中存在一些導致圖像質量較低的因素,如拍攝沒有對好焦,鏡頭長期沒有擦拭,或者視頻經過多次上傳和壓縮而產生塊狀瑕疵。我們會把這些問題通過 AI 算法檢測出來,一方面提醒用戶拍攝的時候注意這些問題,另一方面在做視頻推薦時也會對高質量視頻進行一些傾斜。
內容理解
內容生產環節完成后,視頻會被上傳到后端服務器,這里我們需要對視頻內容進行更深層次的理解。視頻的內容理解會用在很多方面,比如內容安全、原創保護、推薦、搜索、廣告等等,這里大概分為兩個階段。
首先是感知階段,機器會從人臉、圖像、音樂、語音四個維度對視頻信息進行理解。
人臉是一個很重要的維度,因為人臉往往包含了人所關心的最主要的部分,我們會對人臉區域進行檢測,識別年齡、性別、表情等。
另外一個維度是圖像層面,我們會對圖像進行分類,如圖像的場景是什么;此外也會檢測圖像中有哪些物體,還會進行圖像質量評估,以及利用 OCR 技術從圖像中提取文字。
音樂是影響視頻感染力很重要的一部分,我們可以從視頻里識別出音樂類型,甚至可以對音樂進行結構化分析,分離伴奏和歌唱部分。
語音也是視頻非常重要的維度,往往從圖像中可能并不能很好地得到視頻所傳達的信息,這時候語音就非常重要,我們會把語音識別出來轉化成文字,也會通過語音去識別人物的身份、年齡、性別等等。
第二個階段是推理階段,我們會把這些不同維度的信息進行多模態融合,推理出更高層次的語音信息,或者對視頻進行情感識別。我們也用到知識圖譜技術,把視頻里的知識存儲在知識圖譜里表達出來。通過知識圖譜的推理,能夠得到一些更高層、更深入的信息。
在內容理解方面我們也做了一些比較具體的技術,如快手開發了一套視頻標簽系統,可以對視頻里出現的大多數內容和場景進行分類。在快手語音識別功能模塊,我們采用深度學習算法,結合上下文語境模塊,使得識別精度得到很大提升。
一方面,我們需要理解視頻內容,另一方面,我們也需要對用戶進行理解,包含用戶公開的年齡、性別等信息以及用戶在實時使用快手時產生一些行為數據。這些數據都會傳送到后端的深度學習模型里,訓練出對用戶理解的向量。通過這些向量,我們可以預測用戶的興趣以及他與其他用戶之間的關系。
最后我們得到對用戶的描述以及對視頻的理解,用戶和視頻之間的匹配就會產生萬億級別特征的大數據,這個大數據會被用在實時在線的推薦系統里,預測用戶會對什么樣的視頻感興趣。另外我們也會對社區里的內容進行排序,比如前面提到如何分配注意力,我們希望注意力分配的差距不要太大,所以會根據基尼系數調整視頻內容的分配情況。此外,還會考慮到內容的安全性、多樣性以及原創保護等因素。
最后,我們也希望跟高校、學界的老師同學進一步加強深度合作,充分利用快手的海量數據和強大算力,共同推進深度學習技術,挖掘未來更多的可能性,提升大眾幸福感,這也是成立清華大學-快手未來媒體數據聯合研究院的愿景,謝謝大家。