后疫情時代,隨著技術的不斷發展,機器已經轉化為人們生活中的第三只“眼”,如工業質檢,無人駕駛,智慧城市等應用愈加依賴與視頻信息分析與理解,而使得視頻能夠更利于機器分析的同時能夠進一步節省帶寬成的壓縮技術成為了這一系列行業應用的剛需,面向機器的視頻編碼VCM(video coding for machine)應運而生。
2019年運動圖像專家組(Moving Picture Experts Group, MPEG)第127次會議宣布成立AHG VCM(Ad Hoc Group on Video Coding for Machines)機器視覺編碼工作組,工作組研究面向機器視覺或者人機混合視覺的下一代視頻編碼標準,為機器視覺應用場景提供高壓縮率、高任務精度的視頻/特征壓縮技術。Nokia, Ericsson, Intel, Sumsung, Interdigital, 騰訊, 阿里巴巴, 中國電信, oppo, vivo, 中科院等公司和組織參與該工作組。
騰訊在VCM的工作中擔任了重要的角色,擔任AHG聯合主席,為工作組提供了包含標注的視頻數據集(Tencent Video Dataset, TVD) [1][2], 并被工作組采納成為檢測、分割和跟蹤任務的通用測試數據集。另外,騰訊牽頭制定了通用測試條件(Common test conditions, CTC)和評測框架,為相關技術的驗證提供規范化的流程。同時,騰訊也一直積極參與技術路線的推進,成功響應了工作組的多次證據征集(Call for Evidence, CfE)和提案征集(Call for Proposals, CfP),并在后續標準化進程中擔任核心實驗(Core experiments, CE)召集人等角色來推動技術方案的發展。
過去幾年中,工作組進行了大量的基礎調研,證明了在機器視覺任務場景下傳統視頻編碼技術存在著較大的提升空間,同時針對目標檢測、分割、跟蹤等典型機器視覺任務建立了規范的測試數據集和通用測試條件。基于這些前期工作,工作組于2022年4月正式發布提案征集(Call for Proposal, CfP),獲得了來自工業界和學術界的積極參與響應,展示了機器視覺編碼的巨大應用潛力。目前,標準化仍在持續進行中。
去年,制定了H.266/VVC標準的工作組JVET(Joint Video Experts Team)也成立了新的 AHG 專題組(AHG15),該工作組將針對H.266/VVC與H.265/HEVC這一系列標準進行進一步優化,幫助其在面向機器場景下可以更大程度的提升機器識別精度和進一步節省帶寬。目前最新一代編碼標準H.266/VVC相較上一代編碼標準H.265/HEVC,在相同質量下可以節省約50%帶寬,而該工作組預期可在H.266/VVC的基礎上更近一步節省50%帶寬。隨著這一技術的逐漸成熟,可以預見未來面向機器的編碼器將有更廣闊的應用前景。
[1] An Open Dataset for Video Coding for Machines Standardization | IEEE Conference Publication | IEEE Xplore
[2] A Video Dataset for Learning-based Visual Data Compression and Analysis | IEEE Conference Publication | IEEE Xplore