日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

7月26日消息,在多媒體領域世界頂級學術會議ICME 2021的「壓縮UGC視頻質量評估」比賽中,字節跳動旗下火山引擎多媒體實驗室組成的“QA-FTE”隊伍,憑借自研的VQScore算法,拿下了該比賽「無參考視頻質量評價(NR-VQA)MOS賽道」的第一名。

除了火山引擎多媒體實驗室,另有11支來自全球知名院校和企業的隊伍參加該項競賽。整場競賽包含兩個賽道,分別對應VQA領域兩類主流的解決方法:

一、無參考視頻質量評價(NR-VQA)MOS賽道:在參考信息缺失的前提下對損傷視頻質量進行評價;

二、全參考視頻質量評價(FR-VQA)DMOS賽道:衡量參考視頻和損傷視頻之間的質量差異。

除了在無參考視頻質量評價(NR-VQA)MOS賽道中包攬全部最高分之外,在全參考視頻質量評價(FR-VQA)DMOS賽道,火山引擎多媒體實驗室同樣拿下了部分指標的最高分。

什么是「壓縮UGC視頻質量評估」

視頻質量評估,就是用算法模型來自動評判一段視頻的質量,比如清不清晰、有沒有噪點、畫質好不好,給出高低不同的分數。視頻質量的高低,直接影響到用戶看視頻的體驗。

有了自動評估視頻質量的算法模型,就可以在用戶生產視頻、系統處理視頻的過程中自動的用一些手段來更好的處理視頻。

比如評估發現一段視頻分辨率太低讓人看不清楚,就可以用超分辨率算法讓它清晰起來;或者評估發現一段視頻噪點太多,就可以用去噪算法減輕這些噪點。

比如發現視頻本身已經很模糊了,就把轉碼的碼率調低,節省系統帶寬,也幫觀看用戶省點流量。

比如用戶拍攝視頻的時候發現當前場景是逆光的,人物五官都看不清楚,就可以提示用戶:該調整下燈光和角度了。

可以理解為,視頻質量評估就是一場視頻們的「入學考試」,根據考試的分數,算法老師們因材施教,讓每一段視頻都看起來更美觀。

但和傳統的專業電視臺拍攝的視頻相比,給UGC的視頻打分是更困難的一件事——畢竟在做視頻這件事上,你沒有辦法低估網友們的腦洞。

比如UGC的視頻里,包含用戶拍攝的自然風景、食物、建筑、人像、動物等各種題材的內容,甚至有些不是自然拍攝,而是游戲錄屏,并且還會加上五花八門的字幕。

比如有的視頻本身并非豎屏視頻,為了在移動端播放,就在上下加上背景填充。填充的圖案其實是很清晰的色塊,但中間的視頻可不一定清晰,你不能因為兩側的填充圖案看起來很清晰,就判斷這個視頻很清晰。

再比如這種大頭特效,特效的部分很清晰,但特效之外的人物部分卻有些模糊,這到底是算清晰還是不清晰?

另外,因為UGC拍攝有各種情況,用戶手一抖,視頻就變模糊,噪點、過曝、抖動、失真,各種問題交織在一起,算法很難評價。

火山引擎多媒體實驗室研究出的算法VQScore就是專門做視頻質量評分的,訓練這個算法的數據集都是眾包用戶根據自己的審美和觀看感受來評分的,能夠保證算法的評分契合大部分普通觀眾的觀看體驗,此前已經有了2年多的積累。

目前,VQScore系列視頻質量評估算法不僅在抖音、西瓜視頻等產品落地,并且已經作為火山引擎視頻點播服務的一部分對外開放。

從用戶出發,巧「拆」數據集

回顧整個參賽過程,火山引擎多媒體實驗室也曾遇到過模型分數的瓶頸,無論怎么優化,都無法提升分數。

這里需要說明,整場比賽的數據集均來自一些視頻App中的真實視頻,包含:

訓練集:6400個訓練視頻片段

驗證集:800個驗證視頻片段

測試集:800個測試視頻片段,用于對參賽模型進行比較和評分,參賽者無法獲取。

每個視頻被H.264/AVC編碼器壓縮成損傷程度由弱到強的7個壓縮片段,主辦方通過主觀測試針對每一支視頻片段收集了超過50個主觀MOS評分。

參賽者訓練模型的數據必須來自比賽主辦方的官方數據,不可以用自己的數據。數據就是訓練模型的原材料,如果數據不足,那么算法工程師們常常會遇到巧婦難為無米之炊的難題,雖然不是「無米」,但「米」的數量并不夠用。

怎么才能提升「米」的數量呢?

火山引擎多媒體實驗室參賽同學決定直接挨個看數據集里的視頻,看了很多樣本之后發現了突破口:

原本的方法里,用到了很多時域信息——通俗來講,就是隨著視頻時間進度條的進展,視頻的每一幀之間都是有相關性的,視頻的主角完成一個動作、場景發生一點變化,前后幀之間都是有聯系的。

比賽數據集中的視頻,大多只在短短的10秒左右,時域信息相當穩定,畫質也沒有明顯變化。

因為對數據和用戶都有深刻的理解,根據多年處理數據的經驗,工程師們意識到一件事情:

用戶其實對時域并不敏感,更注重每一幀里的畫面信息——也就是空域信息

本著尊重用戶體驗的出發點,他們做出了一項更為務實的權衡:

把單個的視頻數據集,拆成分散的幀來用。

在看重時域信息的方法中,數據集中的每個視頻都被當做單獨一個數據用來訓練,總共6400個輸入數據。但如果放棄時域信息,把每個10秒鐘左右的訓練視頻拆成單獨的幀,就可以獲得300幀左右的數據,相當于訓練算法的數據集增大到原來的30倍,6400個輸入數據就可以變成192000個。

并且這種新的方法還獲得了一個額外的好處——避免了過擬合,也就是模型死記硬背了訓練集里的答案,在測試集里表現失靈的情況。“時域信息用太多會過擬合,相當于我們犧牲了一小塊,保留了更大的蛋糕。”

參賽模型的技術實現

火山引擎多媒體實驗室在比賽中不僅使用了較為傳統的CNN(卷積神經網絡),另外考慮到Transformer在NLP領域取得巨大成功,決定采用Transformer進行UGC視頻的質量評估,提出了一種CNN和Transformer相結合的框架,采用CNN提取局部特征,利用Transformer結構通過自注意機制預測主觀質量分數。

無參考模型框架如上圖所示。

火山引擎多媒體實驗室使用卷積神經網絡(CNN)作為特征提取器來計算輸入視頻塊的深度特征。提取ResNet不同層的特征,在空間維度上利用MaxPooling將這些特征降采樣到相同大小,并在特征維度上進行拼接。將該特征的空間維度展平并進行Linear projection,并添加embedding作為Transformer的輸入:

采用的Transformer架構遵循標準的Vision Transformer,包含L層多頭注意力模塊(MSA)和多層感知器模塊(MLP)。Transformer與MLP頭連接,用于回歸最終的主觀評分。

用于訓練的損失函數均方誤差l1-Loss和PLCC-Loss加權相加構成:

PLCC表示一個batch內預測值和groudturthlabel的相關性,其值歸一化至[-1,1],PLCC值越大性能越好,因此PLCC損失表示為:

全參考模型框架如下圖所示。reference patch和對應位置的distortion patch輸入共享權值的孿生神經網絡分別提取深度特征,并在特征空間的計算L1距離,拼接成新的特征輸入回歸模塊映射得到主觀DMOS分值。

如下圖所示,在訓練過程中,從壓縮視頻片段和相應的參考視頻片段中隨機裁剪出一個256×256的圖像塊patch(針對FR框架),然后將壓縮視頻的質量評分直接作為裁剪patch的訓練標簽。測試時,從每一幀的四個角和中心裁剪得到5個大小為256×256的patch分別計算分值(FR框架),所有patch的平均得分作為壓縮視頻的預測分。

在實驗中,用于特征提取的ResNet18網絡使用在ImageNet上預訓練的用于分類任務的網絡的權值進行初始化,并使用相同的學習率與框架的其他部分一起進行訓練;Transformer包含2層,MSA頭數為16。在加權w1=1.00, w2=0.02的條件下,利用L1損失和PLCC損失聯合優化框架。

通過對比競賽結果中的各隊伍在測試集上的性能指標(PLCC/SROCC/KROCC/RMSE)以及SOTA FR/NR算法預測質量分數散點圖,對提出模型的性能進行驗證,其中PLCC/SRCC/KROCC越接近1越好,RMSE越接近0越好。

A. MOS track:

Comparing with SOTA NR-VQA metrics:

B. DMOS track:

Comparing with SOTA FR-VQA metrics:

對于直接預測壓縮損傷視頻MOS分的NR方法,火山引擎多媒體實驗室提出的NR框架在所有評價指標中排名第一;對于預測參考視頻和損傷視頻質量差異DMOS分值的FR方法,火山引擎多媒體實驗室提出的FR框架在預測單調性(即SROCC和KROCC)方面排名第一,在預測精度(即PLCC和RMSE)方面排名第二。 同時通過散點圖可以看出,提出的方法與主觀評分具有較高的相關性,顯著超出了其他的SOTA FR/NR方法。

目前行業內,視頻畫質好壞直接影響實際業務QoE,包括用戶行為包括完播、留存、關注等,已經是不爭的事實。由于模仿人類主觀感受是一件非常困難的事,受到很多因素的干擾。而用戶真實感知和學術上那些行業已有衡量體系(PSNR、SSIM、VMAF等)仍有鴻溝包括他們彼此之間評價標準也不完全統一。

導致在視頻工業生產中的需求,如扶持高清原創、打擊視頻劣質內容、針對畫質精準匹配轉碼檔位節省成本等,都沒有很好的解決方案。基于以上原因,字節/火山引擎花大力氣研發出VQScore用于解決這一現狀,解決公司業務中的長期痛點,同時向工業界推出他們的無參考質量評價標準。

針對UGC內容的研究與實際應用場景更加貼近,UGC質量評價算法對監控視頻平臺整體畫質、監督畫質提升算法、指導壓縮效率提升等場景有重要作用。據悉,火山引擎多媒體實驗室提出的Transformer結構實現了算法性能的提升,對后續相關算法研究具有較強的指導意義。

分享到:
標簽:火山 算法 奪冠 競賽 評估 質量 引擎 成功
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定