機器之心報道
編輯:蛋醬
不知不覺間,內容電商似乎已經成為人們生活中不可或缺的存在:在閑暇時間,我們已經習慣于拿出手機,從電商平臺的直播間隨手下單自己心儀的商品。
盡管優質的貨品、實惠的價格、精致的場景布置、有趣的內容輸出都是非常關鍵的影響因素,這些也必須基于兩個前提:畫質要高清、播放要流暢。曾經,有不少商家和主播因為直播間畫質較差的問題而苦惱,不了解如何實現高畫質開播。
在一系列前沿音視頻技術的加持下,淘寶內容技術團隊解決了這個問題。
下圖是一個直播間畫質體驗極致打磨案例,主播通過團隊自研的一系列音視頻技術,包括視頻編碼、視頻增強處理、視頻質量評價等,實現了超低碼率的 1080p 高清直播:
左:720p 直播;右:超低碼率 1080p 直播。
同樣還有短視頻畫質體驗極致打磨案例,通過團隊自研的上述音視頻技術,實現了視頻清晰度和紋理細節的大幅提升:
左:增強前;右:增強后。
不難發現,在上述案例中,改造后的畫面質感變得更好,從「標清」飛躍到了「超清」,人像膚色也變得更自然,連商品色彩都更加準確了。這種肉眼可識別的提升,都來自團隊提供的音視頻技術能力加持。
上述提到的一系列自研音視頻技術,包括視頻編碼器(淘寶自研的 S265)、視頻增強方案(STaoVideo)、無參考視頻質量評價模型(MD-VQA)以及媒體處理系統(TMPS),并通過接入低延時傳輸網絡 GRTN,為淘寶的直播和短視頻提供底層核心技術,打造業界領先的音視頻體驗,尤其是視頻畫質和流暢度。
近年來,圖像和視頻處理的一系列技術也經歷了巨大的變革,包括超分處理、噪聲去除等等。這些技術都是為了實現更好的畫質服務,同時也希望盡量降低內容生產、處理和分發過程的總體成本。
但從技術層面上說,如何分析、定位視頻內容存在的問題并找到有針對性的改造方法,仍然是一個復雜的過程。而所有的視頻內容處理方法,都基于一個非常重要的前置環節:視頻質量評價。
一場聚焦「視頻質量評價」的頂級比拼
在視頻內容行業規模不斷增長的背景下,全球范圍內的眾多機構開始圍繞視頻處理的一系列前沿命題開展競賽,希望以領先技術推動行業進步。近年來,「視頻質量評價」這一命題受到的關注度也不斷攀升。
CVPR NTIRE(New Trends in Image Restoration and Enhancement)是計算機視覺和視頻領域最具影響力的全球性賽事,今年的賽事由蘇黎世聯邦理工學院計算機視覺實驗室主辦。往年賽事覆蓋許多圖像和視頻處理的經典任務,比如圖片和視頻超分、圖片抖動去除、噪聲去除等,吸引了全球眾多技術團隊的踴躍參與。
今年的 CVPR NTIRE 比賽增設了一個全新的方向:視頻質量評價,且只設置了單個賽道,即「無參考視頻質量評價」。
主辦方構建了包含 1,211 個真實應用場景的視頻的數據集,對其進行包括色彩、亮度、和對比度增強、去抖動、去模糊等增強處理,并對處理后的視頻進行打分作為 GT(ground truth,真實的有效值)。參賽團隊通過各自技術方案對上述視頻打分,與 GT 越接近名次越高。
本場比賽云集了國內外頂級的幾十只參賽隊伍,包括字節、快手、網易、小米、Shopee 在內的知名科技企業,以及北京航空航天大學、新加坡南洋理工大學等高校。來自淘寶音視頻技術團隊的同學組成「TB-VQA」隊伍,經過激烈的角逐,從 37 支隊伍中脫穎而出。團隊所提交的質量評價方法 TB-VQA 在主得分(MAIn Score)、SRCC(Spearman Rank Order Correlation Coefficient)及 PLCC(Pearson Linear Correlation Coefficient,SRCC 和 PLCC 越高表明與 GT 越接近)三項指標均位居第一。
CVPR NTIRE 2023 視頻質量評價比賽排行榜。
此次冠軍是團隊繼 MSU 2020 和 2021 世界編碼器比賽、CVPR NTIRE 2022 視頻超分與增強比賽奪魁后,再次在音視頻核心技術的權威比賽中折桂。
眾所周知,從參考視頻可用性的維度出發,視頻質量評價一般可以分成三類:全參考視頻質量評價、部分參考視頻質量評價、和無參考視頻質量評價。為什么本場比賽要將「無參考視頻質量評價」設置為唯一的賽道?想必這一點令許多人感到好奇。
這與近年來互聯網內容視頻化的趨勢密不可分,從生活、娛樂到學習,視頻都已經成為了很多人獲取信息的第一介質。相比于文字,視頻的理解門檻更低,人腦對于視覺信息的處理速度也比文字更快。其中,UGC 視頻內容幾乎占據了整個互聯網視頻流量中的 70% 到 80%。人們既消費這些 UGC 視頻內容,也在創造著自己的「作品」。任何人都可以使用一臺手機拍攝、上傳短視頻,也可以開通自己的直播賬號,分享自己的生活。
但 UGC 視頻的質量往往是參差不齊的。首先是因為其質量受制于拍攝設備、拍攝環境、拍攝技巧等因素,即使視頻內容的制作方極具經驗且原始視頻質量非常高,一旦經過平臺的各種處理、分發環節或是其他用戶的二創,消費者在另一端看到的視頻效果都有可能打折扣。
在缺乏理想的視頻參考源的質量評價場景逐漸成為主流的趨勢下,無參考視頻質量評價作為質量評價的主要的技術手段,在過去的幾年里越來越受到廣泛關注。這也是 CVPR NTIRE 設置「無參考視頻質量評價」賽道的出發點之一。
那么,為什么淘寶內容技術團隊能夠一舉拿下這場比賽的冠軍?接下來,讓我們深入了解一番冠軍方案。
奪冠背后的 VQA 技術
目前,無參考視頻質量評價的主流方法包括:基于圖像識別或者圖像質量評價任務的預訓練模型來提取視頻的幀級特征、考慮時序上的相關性回歸特征或者進一步結合時域特征、以及針對視頻失真進行端到端的特征表征學習等。
在本次比賽中,TB-VQA 團隊提出的方法基于端到端的特征表征學習,并且考慮到近年來 Swin Transformer 在 CV 領域取得巨大成功,使用 Swin Transformer V2 替換較為傳統的卷積神經網絡(CNN)骨干網絡 Re.NET 提取空域特征。同時,為了更好地融合時空域特征,在時空特征融合模塊中,TB-VQA 團隊引入了一個 1×1 卷積層,它加深了從預訓練網絡的中間階段提取的空間特征,以彌補淺層和深層特征之間的差距。此外,為了解決常見的質量評價數據集規模過小、大模型容易過擬合的問題,TB-VQA 團隊同時在空域和時域兩個維度進行數據增強,提高模型性能。
模型設計
如圖 1 所示,TB-VQA 團隊所提出的無參考視頻質量評價模型的框架,包括空域特征提取模塊、時域特征提取模塊和時空特征融合回歸模塊。其中,空域特征模塊提取空間失真相關特征,時域特征提取模塊提取運動相關信息,此外,考慮到運動信息對失真感知的影響,團隊進一步融合時空域特征,然后通過特征回歸映射到最終的質量分數。
TB-VQA 模型的網絡架構示例。
具體而言,這一框架的設計基于以下思考:
- 語義特征作為重要的空域特征經常用于質量評價,其描述圖像中物體的物理特性、物體之間的時空關系、以及物體的內容信息等,屬于圖像的高維特征。對于不同的圖像內容,語義特征會影響人眼的視覺感知:人眼通常無法容忍紋理豐富的內容(例如草坪、地毯)的模糊,而對紋理簡單的內容(例如天空、墻面)的模糊相對不敏感。綜上考慮,該架構利用從預訓練的 Swin Transformer V2 網絡倒數第二層 Transformer 模塊輸出的特征作為幀級的空間域特征。
- 手機拍攝時的抖動會導致視頻發生時域失真,并且,其無法被視頻空域特征有效地描述。因此,為了提高模型的準確度,該架構利用預訓練的 SlowFast 網絡獲取視頻片段級的運動特征,作為時域特征表征。
- 由于不同層空域特征之間存在較大的差異,對其進行直接拼接不利于時空特征融合,因此該架構先對倒數第二層輸出特征進行卷積處理,然后再與最后一層輸出的空間特征融合以及空域特征進行融合,并通過兩層全連接層回歸得到視頻片段級質量分數,如圖 2 所示。
時空域特征融合與回歸。
數據增強
由于本次比賽官方提供的訓練數據集共包括 839 個視頻,不足以訓練基于 Transformer 的模型。因此,TB-VQA 團隊從數據集增強策略和大型數據集預訓練兩個方面入手,進一步提高模型的性能。
視頻質量評價方法常采用在圖像中隨機 crop 固定大小 patch 的方式進行空間數據增強。作為對比,TB-VQA 團隊同時考慮考慮空間和時間數據增強,如圖 3 所示。
時空域數據增強示例。
其中,整個視頻會被分成 T 個視頻片段(每秒一個片段)。提取空域特征時,每個視頻片段隨機抽取 1 幀。同時,為保留幀間的時間關聯性,抽樣幀之間的時間間隔保持不變。
此外,考慮到 LSVQ 視頻質量評價數據集有 38,811 個視頻樣本,是目前最大的開源質量評價數據集。因此,TB-VQA 團隊先在 LSVQ 數據集上對模型進行預訓練,之后基于特定的任務以相對小型的數據集微調模型。
「特別重要的是,不管是面向比賽的數據集,還是面向日常業務的海量內容,視頻質量評價的模型都需要強大的泛化能力,以識別不同的視頻質量以及各種各樣的視頻場景。」淘寶音視頻技術的參賽同學總結本次參賽的經驗時表示。
值得注意的是,這次比賽的冠軍方案 —— 視頻語義、失真、運動多維信息融合方案,是 TB-VQA 團隊同學在日常業務研發中探索出的新方法。基于日常業務的經驗積累,盡管本場比賽從賽題發布到最后提交結果大概只有一個月的時間,TB-VQA 團隊還是交出了一份滿意的答卷。
此前,團隊自研了無參考視頻質量評價模型 —— MD-VQA(Multi-Dimensional Video Quality Assessment),綜合視頻的語義、失真、運動等多維度信息衡量視頻絕對質量的高低。目前,MD-VQA 已經全面應用于包括淘寶直播、淘寶信息流、淘寶逛逛等淘寶內容業務,「量化」并監控視頻業務的大盤畫質變化,快速、精準地篩選出不同畫質水位的直播間和短視頻,幫助提升平臺內容畫質。
以淘寶直播為例,MD-VQA 可提供分鐘級的在線質量監控能力,能夠快速、精準地篩選不同畫質水位的直播間,協助線上低畫質 bad case 的挖掘分析,實時提醒主播畫質問題方面的瓶頸問題。
淘寶音視頻技術團隊負責人總結道:「無論是短視頻還是直播,都存在一個問題 —— 源頭的畫質并不一定是最好的,比如用戶可能使用一款低端手機設備去拍攝、開播。面向這種應用場景,我們希望為淘寶甚至業界提供的無參考視頻質量評價方案,能夠發揮類似 VMAF 在有參考質量評價方法的影響力。」
從質量評價到編碼、增強處理,淘系音視頻技術的演進之路
視頻質量評價之后,視頻編碼、增強處理等環節的技術水平同樣對用戶的最終視頻體驗起到決定作用。
這些也是團隊始終在思考的方向:「在包括視頻內容的供給和分發等環節的整個視頻業務生命周期中,視頻處理技術對于整體視頻的畫質影響最為重要。」而消費者對于視頻畫質的需求是越來越高的,比如要兼顧較高的清晰度和播放的流暢度,也要控制從生產到下發的整體成本。這意味著平臺的視頻處理技術演講必須面對千變萬化的市場需求和業務體量爆炸式增長所帶來的各種挑戰。
為此,團隊支持短視頻、直播等內容的整體解決方案保持著持續、高速的迭代。
淘寶音視頻技術團隊主要承載著其中的視頻處理技術,尤其是保障視頻高畫質和流暢度。通過視頻編碼器 S265、視頻增強方案 STaoVideo、無參考視頻質量評價模型 MD-VQA、媒體處理系統 TMPS 以及低延時傳輸網絡 GRTN 的接入,打造業界領先的音視頻體驗。通過持續的技術打磨和算法創新力求高質量、低成本賦能淘寶內容業務,助力淘寶內容化戰略,所沉淀的平臺技術和產品能力亦可被集團其它業務復用。這些多年來沉淀的技術能力,也曾經在多個音視頻核心技術的國際權威比賽中折桂。
在視頻編碼方面,團隊自研的奇點編碼器 S265 和 S266,在 MSU 視頻編碼器大賽中連續兩屆取得佳績。
MSU(莫斯科國立大學)世界視頻編碼器大賽是視頻編碼領域最權威的全球性頂級賽事,迄今已由 MSU 的 Graphics & Media Lab 連續舉辦了十七屆,其評測報告被業界廣泛認可,吸引了包括 google、Netflix、Intel、Nvidia、騰訊、字節、華為等國內外知名科技企業參與,代表了行業發展的風向標。
S265 和 S266 相比業界流行的開源編碼器 X265、VVEnC 等,在編碼速度、編碼質量和編碼延時等多方面均有明顯突破,聯合內部團隊參加了 MSU 2020 和 2021 連續兩屆世界視頻編碼器大賽,取得多個賽道第一(如表 2 和表 3 所示)。
MSU 2020 Main FullHD 1 fps YUV-PSNR 排名。
MSU 2021 Main FullHD 1 fps YUV-PSNR 排名。
具體而言,團隊研發的 H.265 編碼器 S265 在碼率控制、快速算法、編碼工具實現、工程加速幾個方面進行了創新,實現了對 X265 編碼器的超越,在 1fps 速度檔位下 YUV-PSNR 指標領先 35%;團隊自研的 H.266 編碼器 S266 在 S265 編碼器的基礎上,進一步在符合 VVC 標準(VVC 是近年來頒布的、繼 H.265/HEVC 之后的最新國際視頻標準)的范疇下進行優化,實現了對比 H.265 開源軟件 X265 very slow 檔 50% 的編碼效率提升(同等畫質下,碼率減少 50%)。
S265 編碼器經過多年的產品化打磨,已全面應用于包括淘寶直播、淘寶信息流、淘寶逛逛在內的淘寶內容業務,并以較低的帶寬和資源消耗實現高清畫質編碼。經過 S265 編碼器壓縮后,普通手機在 3G 網絡也可順滑觀看 1080p 高畫質,最新發布的手機亦可支持 4k 30FPS 超高清直播。S266 編碼器也已在規劃落地中,用戶不久將可在淘寶 App 中更流暢地觀看高清的 VVC 視頻。
在視頻增強處理方面,團隊自研的視頻超分方法 TaoMC2 曾在 CVPR NTIRE 2022 視頻超分與增強比賽的三個賽道獲得兩冠一亞的成績(如表 4 所示)。
CVPR NTIRE 視頻超分與增強比賽自 2020 年起已舉辦三屆,在工業界和學術界均產生了重大的影響。CVPR NTIRE 2022 視頻超分與增強比賽吸引了騰訊、字節、華為等知名科技企業,中科院、北大、港中文、ETH 等科研機構參賽,其中很多參賽者都有多年的參賽經驗,競爭激烈。
CVPR NTIRE 2022 視頻超分與增強比賽包含三個賽道,其中一個賽道的任務保持分辨率不變的視頻增強,另外兩個賽道疊加超分問題。
CVPR NTIRE 2022 視頻超分與增強比賽排行榜。TaoMC2 在賽道 1 上超第二名 0.01dB、第三名 0.13dB,且在 15 個測試集中的 9 個視頻上表現最佳,說明方法具有較好的泛化性。同時,TaoMC2 在賽道 2 上超出其他隊伍 0.1dB 以上,在賽道 3 上僅次于第一名 0.01dB。
在實際業務應用方面,團隊打造了視頻增強方案 STaoVideo,服務于淘寶直播和短視頻,分別幫助在直播生產端和短視頻轉碼服務端提升畫質。作為媒體處理系統 TMPS(Taobao Media Processing System)中最主要模塊之一,STaoVideo 包含差異化的普惠高清和智美高清視頻增強算子,通過傳統算法和深度學習結合,在考慮計算成本的前提下,給用戶最好的畫質體驗。在播放端,STaoVideo 的超分增強方案廣泛用于諸如弱網等場景下的低分辨率視頻傳輸、保障低傳輸帶寬下用戶播放的高清畫質體驗。
全面內容化戰略下,淘寶內容技術的探索實踐
音視頻技術之外,淘寶也擁有全面的內容領域基層技術布局,包含內容理解、內容搜索和內容推薦等領域,覆蓋計算機視覺、自然語言處理、多模態和 AIGC 等。這些都是淘寶內容化戰略的核心技術,團隊長期在這些方向有深度的打磨,沉淀出一定的技術領先性。
在淘寶全面內容化的戰略背景下,短視頻與直播等富媒體內容,在興趣種草、內容消費、商品展示、視頻買家秀等各個維度展現出巨大的優勢,從而也在淘寶的流量場里扮演著愈發重要的角色。與商品不同,內容存在制作成本高、時效性強、生命周期短、用戶行為稀疏等特點,這給內容生產與分發均帶來了較大的挑戰。
面對這些挑戰,淘寶內容技術團隊在內容理解與內容分發上深耕細作,在解決實際業務難題的同時,也將其中一些創新的工作總結沉淀,在 CVPR、AAAI 等國際頂級學術會議發表了多篇論文,包括在內容理解方面關于「商品定位」的工作。
團隊設計了雙分支跨模態定位架構,能夠同時處理全局視覺以及語音文本兩路信息,并進行充分交互來完成商品坐標的準確定位;同時,還首次提出了利用遷移學習的無監督域自適應商品定位。該方案已經在直播智能切片、短視頻掛品等業務場景中上線使用,也在通用數據集與淘寶數據集都達到了業界最優水平,該工作《DATE: Domain Adaptive Product Seeker for E-commerce》發表在 CVPR 2023。
團隊也針對開放詞表檢測問題展開了深入研究,針對以往方法在知識提取與遷移過程中的信息損失和低效性問題,提出了基于目標感知注意力掩碼的知識提取模塊(OAKE)和全局 - 區塊 - 目標多層蒸餾金字塔結構(DP),在多個公開數據集上超過了 SOTA(State-Of-The-Art)方案,論文《Object-Aware Distillation Pyramid for Open-Vocabulary Object Detection》發表在 CVPR 2023。
DATE 網絡結構示意圖。
在以上領域之外,內容技術團隊還擁有前端、客戶端、服務端和數據科學團隊,負責面向億級消費者提供服務的淘寶首頁、淘寶信息流、淘寶逛逛等核心業務場域,通過規模化內容供給和高效率內容運營,提高消費的豐富度,輔助消費決策;面向千萬級商家、品牌、機構、達人,提供內容創作工具、內容運營平臺和內容商業化解決方案,打開流量新增量的更大空間,助力商家觸達更廣泛的消費人群。團隊同時也支撐阿里巴巴電商板塊各業務線的內容管理,提供高效、低成本、靈活的業務架構,協助各業務線實現內容創新和運營的轉型升級。
內容化是當前淘寶的五大戰役之一。淘寶內容業務包含多樣化的真實場景,具備足夠的技術挑戰。淘寶內容化的大環境為技術同學提供了持續迭代技術、實時賦能業務和創造價值的舞臺。依托當前技術儲備,適當投入高水平的國際賽事,對技術同學來說是一個很好的面向業界前沿學習交流和練兵的機會。團隊亦可籍此沉淀技術領先性,不斷打磨技術,在這場內容化戰役中更好地為用戶體驗保駕護航。