視覺數據編碼頂級國際論壇之一的 PCS 2022 論文入選結果公布!
本次,騰訊多媒體實驗室共有5篇論文入選,內容含視頻壓縮、視頻數據集、神經網絡壓縮圖像/視頻壓縮、高維媒體壓縮等多個領域。
以下為入選論文簡介:
用于屏幕內容編碼的開放視頻數據集
An Open Video Dataset for Screen Content Coding
Y. Wang, X. Zhao, X. Xu, S. Liu, Z. Lei, M. Afonso, A. Norkin, T. Daede 2022 IEEE PCS, Dec. 2022
近年來,屏幕內容視頻在視頻錄制和視頻會議等幾大視頻應用中越來越受歡迎。不同于傳統由相機傳感器捕獲的圖像視頻內容,屏幕內容是由計算機通過程序及模型計算生成的。針對屏幕內容的統計特性,研究人員開發了專用的編碼工具以實現顯著的壓縮效率增益。鑒于屏幕內容應用的普及,本文提出了一個開放的屏幕內容視頻數據集,用于屏幕內容編碼技術的研究和發展。提出的視頻數據集包含12 個典型的公開可用的屏幕內容類型視頻剪輯。此外,為了更好地理解所提出的視頻數據集的特征,本文對 AOMedia Video 1 (AV1) 視頻編碼標準中的幾項核心的屏幕內容編碼工具進行了性能評估,并在本文中結合數據集的統計特性進行了分析。
通用視頻編碼中幀內和幀間預測的統一快速分割算法
Unified Fast Partitioning Algorithm for Intra and Inter Predictions in Versatile Video Coding
W. Kuang, X. Li, X. Zhao, S. Liu 2022 IEEE PCS, Dec. 2022
最新一代VVC視頻編碼標準采用了比上一代HEVC視頻編碼標準更加靈活的塊劃分技術框架。該技術框架所支持的四叉樹及多類型樹(QTMT)塊劃分結構顯著提高了編碼效率。然而,根據遞歸編碼單元(CU) 塊劃分方案進行全搜索尋找最優塊劃分結構會導致編碼器的計算復雜度大幅增加。在本文中,作者針對幀內和幀間預測提出了一種統一的塊劃分結構快速算法,該算法利用了編碼器在模式決策過程中評估各種候選塊劃分方案的各種歷史信息進行塊劃分模式的篩選,從而跳過不必要的塊劃分方案,達到編碼器計算復雜度的降低。本文所提出的算法在VVC 參考軟件VTM-14.0 之上已經實現并且驗證。實驗結果表明,所提出的算法在所有幀內(AI)、隨機訪問(RA)和低延遲(LDP)配置下能夠顯著地提升編碼速度,編碼時間節省達到40%。
用于動態網格編碼的邊界保留幾何視頻
Boundary-Preserved Geometry Video for Dynamic Mesh Coding
C. Huang, X. Zhang, J. Tian, X. Xu, S. Liu 2022 IEEE PCS, Dec. 2022
本文提出了一種用于具有時變幾何、連接性和屬性的動態網格編碼(DMC) 的邊界保留幾何視頻 (BPGV) 框架。幾何視頻是通過在采樣的 2D UV 圖表中插入 3D XYZ 坐標生成的,并且可以通過任何視頻編解碼器進行編碼以消除空間和時間冗余。然而,由于缺少 UV 圖表的邊界信息,幾何視頻本身的重建可能會嚴重失真。因此,建議通過有效的預測和殘差編碼在單獨的子比特流中編碼 UV 圖的邊界信息。連接信息可以從解碼的幾何圖像和邊界信息中推斷出來,通過三角測量在解碼器端具有線性復雜度。通過利用建議的編碼工具(包括自適應圖表采樣和原始圖表編碼模式)在比特率和質量之間進行權衡,可以實現更好的編碼性能。提議的 BPGV 框架是作為對 MPEG CfP on DMC 的回應而提交的,結果證明其與最先進的網狀編解碼器相比具有卓越的性能。
通過迭代訓練優化基于神經網絡的環路濾波器
Optimize neural network based in-loop filters through iterative training
L. Wang, X. Xu, S. Liu 2022 IEEE PCS, Dec. 2022
通用視頻編碼(VVC)的最新視頻編碼標準已于 2020 年最終確定。在研究人員之前的工作中,提出了幾種基于神經網絡的環路濾波器來提高 VVC 以外的壓縮性能。但是,沒有考慮幀間引用機制的影響,導致訓練過程和最終測試過程不一致。為了解決這個問題,本文提出了一種迭代訓練方法來進一步優化基于神經網絡的環路濾波器?;谒岢龅姆椒?,可以實現高達 1.74% 的額外YUV BD 碼率節省。與VVC相比,實驗表明,22個模型的過濾器平均節省了14.00%的YUV BD-rate,而單個模型的過濾器平均節省了11.21%的YUV BD-rate。此外,主觀評價已經證實單模型濾波器的性能明顯優于 VVC。
替代神經圖像壓縮
Substitutional Neural Image Compression
X. Wang, D. Ding, W. Jiang, W. Wang, X. Xu, S. Liu, B. Kulis, P. Chin 2022 IEEE PCS, Dec. 2022
本文描述了替代神經圖像壓縮(SNIC),這是一種增強任何神經圖像壓縮模型的通用方法,不需要數據或對訓練模型進行額外調整。它將壓縮性能提高到靈活的失真度量,并使用單個模型實例實現比特率控制。關鍵思想是將要壓縮的圖像替換為以所需方式優于原始圖像的替代圖像。找到這樣的替代品對于傳統的編解碼器來說本來就很困難,但由于其完全可微分的結構,對于神經壓縮模型來說卻出人意料地有利。通過將特定損失的梯度反向傳播到輸入,可以高效地迭代制作所需的替代品。研究人員展示了SNIC 在與各種神經壓縮模型和目標指標相結合時在提高壓縮質量和執行通過率失真曲線測量的比特率控制方面的有效性。
騰訊多媒體實驗室專注于多媒體技術領域的前沿技術探索、研發、應用和落地,音視頻編解碼、網絡傳輸、實時通信、多媒體內容質量評估和沉浸式媒體的端到端解決方案,同時負責國際國內行業標準制定,包含多媒體數據壓縮、網絡傳輸協議、多媒體系統和開源平臺等。