2017年12月28日,由騰訊社交網絡事業群(SNG)主辦TSAIC學術&工業交流盛會在騰訊濱海大廈舉行,150余位來自麻省理工、斯坦福、卡耐基梅隆、清華、中科院計算機所、微軟研究院等海內外知名高校、研究所的學者和研究員受邀出席。
騰訊音視頻實驗室杰出科學家劉杉作為主講嘉賓出席此次大會。在會上,她分享了視頻編解碼領域的核心技術和編解碼標準的變遷。她說目前我們所處的階段應該視為下一代視頻編解碼標準制定的一個起點,而非終點。在視頻編解碼方面,我們會持續進行技術研究和標準布局,為用戶帶來更好的體驗。
以下是劉杉演講全文。
非常高興也非常榮幸來到這里跟大家做一個分享。我今天分享的主題是“視頻編解碼和標準化”。
在分享之前,我簡單介紹一下我自己。跟剛才兩位嘉賓的背景稍稍不一樣,我是來自工業界的博士,之前在一些公司工作過,做過研究、也做過產品。如果在座有同學想了解博士在工業界的心路歷程,歡迎大家找我分享。
這些年工作的內容主要在視頻編解碼和傳輸,也包括前處理,后處理和一些比較寬泛的多媒體相關項目。近幾年我們聚焦在視頻編解碼的標準制定,也是今天我要跟大家分享的一個內容。我是剛剛加入騰訊的音視頻實驗室。
言歸正傳,今天分享的主題主要包括兩個部分,一個部分是視頻編解碼,另外一部分是其標準化。最后我想花一點時間介紹一下音視頻實驗室現有的一些研究成果和場景。
我認為知道為什么要做一件事對任何一個項目來說都是至關重要的。之所以要做視頻壓縮這件事,因為視頻的數據量是非常非常大的,大到什么程度呢?舉個簡單的例子,有一部兩個小時的電影,HD 格式,每秒60幀, 現場有沒有視頻編解碼背景的同學可以告訴大家,這個電影如果不壓縮文件會是多大?
(某位現場嘉賓:“50G。”)
我們大家一起來做一個快速算術,1980×1080像素每幀,60幀每秒, 2小時就是120分鐘,如果不壓縮是大約2.7TB。那就是說你花大概一百美金買一個移動硬盤可以裝這樣一部HD電影。那如果我們說價格低要求用SD 格式, 30fps,如果不壓縮也需要大約224GB。 你的手提電腦大概可以裝兩部這樣不壓縮的電影。同樣,如果不壓縮,我們需要傳輸的帶寬是很大的,HD 60fps的視頻內容如果不壓縮需要大約3Gbps的帶寬傳輸。SD 30fps的視頻內容也需要大約250Mbps的帶寬。
我花了一分鐘的時間來做這個數學,是要說明,視頻壓縮這件事情不是重要的,而是必要的。一件事情如果是必要的,我們就要去做。
什么是視頻?
為了做視頻壓縮,我們首先要了解什么是視頻。簡單講,視頻是一組圖片,但是它不是一組隨機的圖片,而是有運動關系的圖片,我們做視頻就要抓住兩個點:運動關系和圖片。
基于這兩個基本點,視頻壓縮技術可以大體分為兩類:一類是針對圖片壓縮的,比如chroma sub-sampling、 transform、quantization、 熵編碼等;另外一類是針對運動關系的,比如運動估計、運動補償和一些相關技術。
下面我們一起對這些基本技術做一個快速簡單回顧。第一個是chroma sub-sampling。我們把圖片從RGB轉換到 YUV然后對色度做一個sub-sampling,從YUV444 到 YUV420. 這件事對博士來說完全沒有什么技術含量,但是我們立刻可以節省一半的數據帶寬。
下面這個有一點技術含量了,是transform。Transform是把信息從空域轉移到頻域,以達到decorrelation, energy compaction的目的。我們在視頻編解碼里面最常用的是DCT,最近的標準里面也開始引入了DST。還有其他的一些還在探討之中。
Transform 之后是quantization。(PPT)右上角是一個舉例的quantization matrix,左下角是一個舉例的 coefficient matrix,我們用coefficients 除以 quantization系數就得到右下角這個 quantized coefficient matrix。我們做壓縮的看到這個會很興奮,因為我們看到很多很多的0,然后我們會用一個遍歷,比如 zig-zag, 來調整這些數字的順序。看到調整后的數據我們會更加高興了,因為有更多連續的0,這是為下一步做準備。下一步是Entropy Coding,是一種無損壓縮方式,可以把文件壓縮的更小。
剛才快速分享了幾種針對圖像壓縮的技術。
我們再回到剛才講的什么是視頻,視頻就是運動關系和圖片。圖片方面我們已經講了,下面我們要看一下運動關系這部分。這里有一個簡單的例子。這是一個視頻里面的三幀,我們可以看到它們之間有很明顯的相關性。視頻時域壓縮技術就是要找到相鄰或相近圖片的相關性從而去除時域上的冗余度。為了更好的利用圖片之間的時域相關性,我們引入運動補償。而我們真正在做視頻編解碼的時候,不像很多領域那樣做的會去做object detection、segmentation等等,在主流的視頻編解碼解決方案或標準里面我們還是用塊狀的方式,所以對于運動補償方面有很多相關技術,比如說預測單元的劃分,運動矢量本身的預測和編解碼等等。我們真正在標準制定的時候,關于運動補償的這一大塊,通常都是劃分成很多個技術分組來具體討論它相關的各個技術子級和細節。
有了這些主要的圖片壓縮和處理運動關系的技術模塊,我們就可以得到一個簡單的視頻編碼器示意圖和一個簡單的視頻解碼器的示意圖。
剛才給大家看的是最簡單的video codec block diagram,大概是MPEG-2之前的編解碼器狀態。經過這二三十年的演變和進化,現在video codec已經變得復雜了很多,有更多模塊,也有更多技術細節。這是近期HEVC/H.265的Video Encoder,待會兒我會再詳細講這個標準。
花了幾分鐘時間,在座各位已經是視頻編解碼的專家了,我們可以進入下一個內容,視頻壓縮標準。
視頻壓縮標準
在討論視頻壓縮標準的一開始,我們仍然要問Why? 為什么要做這件事。道理也很簡單,壓縮過的視頻是不可讀的binarized bitstream, 從某種角度講,壓縮如同加密,如果沒有一個大家都公認的協議或者密碼本這樣的東西,Apple壓縮的視頻內容就沒有辦法被Orange解壓縮。所以為了讓世界上任何以某個廠家、產品或App壓縮的視頻內容可以被任何其他人解壓縮和播放,我們就需要全世界人民都接受的標準。
標準,尤其是國際標準,就不是一個人、兩個人都說了算的東西,它需要有標準組織根據嚴格的流程來制定。有兩個歷史比較悠久的國際標準組織,其中第一個是ITU,在它下面有一個工作組是VCEG,負責研究視頻編解碼的技術和制定標準;第二個標準組織是ISO/IEC JTC 1, 在他下面有一個工作組是MPEG,負責是在ISO/IEC下面研發視頻編解碼的技術和制定相關標準。
大約兩年前一些公司聯合發起了一個新的標準組織AOM,致力于制定不收費的視頻編解碼標準。還有一個標準組織,我覺得也是非常重要的:AVS,是我們國內的標準組織。近些年AVS做得越來越好、越來越強大,現在是完全不可忽視的一個力量。
我們來梳理一下時間線。早在1984年ITU已經制定了第一個標準H.120,因為比較早,可能現在周圍熟悉它的人不多;到1990年推出了H.261,這個已經是被大家廣泛使用的;1993年ISO/IEC推出了MPEG-1 Part2, VCD用的就是這個格式;1995年出了H.262/MPEG-2 Part 2,這個標準是ISO/IEC和ITU兩個組織共同制定的。
我不知道在座多少同學用過DVD?DVD這個格式我們小時候用了很久,DVD這個格式就是用了MPEG-2,數字電視廣播在很長時間里也是用的MPEG-2 Part2,直到今天很多數字電視廣播還在用MPEG-2。到2003年有了H.264/AVC,像Blu-ray、HD-DVD這些格式都是用這個標準,很多新的電視節目也都是開使用H.264,還有OTT。又過了大概十來年,我們推出了H.265/HEVC標準。
無論是從MPGE-2到H.264還是從H.264到H.265,我們通常認為的每兩代重要標準都做到了壓縮率翻倍。
HEVC,怎么在前一代標準的基礎上做到加倍壓縮?
下面花一點時間講一下HEVC。HEVC在2007年左右開始預研,到2010年初CfP, 之后經歷了兩三年全世界的公司、大學、研究機構一起努力,在2013年出臺了Version1,包括 main、main10、main still picture profiles。2014年出版了Version2, 包括RExt, SHVC, Multiview。2015年出版了Version,加入3D。2016年出了Version4,也是HEVC的最后一個版本,包括之前的所有內容并加入Screen Content Coding。
制定標準是一個蠻艱苦的過程,不過努力的工作一般來說回報都是不錯的,HEVC今年獲得了第69屆的艾美工程獎,我也非常榮幸受邀參加了這個盛會。必須指出的是,雖然參加艾美獎活動的人只有十幾個,但是這套標準的制定積累了上千個工程師和科學家、研發人員的努力。
那我們一起來看一下HEVC是怎么在前一代標準的基礎上做到加倍壓縮的。這里是一個H.264的 Block Diagram,H.265在此基礎上對每個模塊都做了很多改進,引入了新的技術甚至是新的模塊。由于今天時間有限不太會講的很具體,因為每一個技術又是一個新的講座。
首先關于編碼和預測單元的劃分。做過264的同學都知道,H.264里面用的是 macroblock的單元結構。在265里面我們用了更大、更多種、更靈活的單元劃分方式,并且它是遞歸的。 在Inter Prediction 方面,我們也做了不少新技術,包括更多形狀和大小的預測單元、Merge mode、AMVP, 新的DCT based 插值濾波器,等等。在幀內預測方面,對比264里面9個luma intra modes, 4個chroma intra modes, 265用了35個預測模式對luma, 其中包含33個方向性預測模式和 DC mode、 Planar mode。為了更有效的壓縮,35個預測模式的壓縮方法也比264做了更新。在transform 方面,除了變換模塊可以更大,變換模式也在 DCT之上引入DST,并且是根據預測模式進行切換。同時掃描方式也更靈活, 引入水平掃描、垂直掃描, 并根據預測模式進行切換。在環路濾波器方面,除了對deblocking filter進行改進還引入了一個新的環路濾波器SAO。還有很多技術,今天因為時間關系只能浮光掠影地講一下。有興趣的同學歡迎線下找我討論技術細節。
我們來做一個265和264 壓縮效率的比較。我們可以看到在所有的測試序列和測試條件下,平均來說265比264的壓縮效率提升了35-40%, BD-rate。如果單單把HD 測試序列拿出來看,265比264的壓縮效率提升可以到40-45%。我們做視頻、視覺或者圖像的同學都知道,數據是一回事,主觀感受也是非常重要的。我們也請了專門的人做主觀測試,結果是對于HD 測試序列265比264可以提升67%,對于 SD 測試序列265比264 仍然可以提升49%。這些數據都顯示265對比264達到了一個壓縮翻倍的目標。
做標準的人是永遠不會停下來的,標準這個事情是一代一代可以一直做下去的。對于下一代標準(還沒有正式名字,暫時稱“266“)的預研大概在2013年、2014年很多公司就開始了,2015年10月的時候,ISO/IEC、ITU這兩個相愛相殺這么多年的組織決定一起來做下一代標準,成立了JVET。又經過了兩年時間的共同研究,在今年十月標準組織發了正式的CfP,明年初全球的公司、學校、科研人員又會帶著他們的解決方案來一起討論,在未來兩三年時間里面我們又會很努力的工作,爭取在2020年底完成下一代標準的制定。
剛才講我們對”H.266”已經做了很多預言,這張圖展示的是現在已經公開的一些編解碼工具,把這些工具放在一起,我們看到對于4K和2K的情況,我們已經有35%的 coding gain。這給了我們一定的信心可以努力去做出下一個壓縮翻倍的標準。需要指出的是,這是一個起點,不是一個終點,在未來兩三年里面,我們會進一步把coding gain的數值增大,把編解碼復雜度降低,帶給大家更好的體驗。
這大概就是我今天分享的關于視頻編解碼和國際標準的浮光掠影的簡單介紹。
騰訊音視頻實驗室現有成果和場景
下面我用簡單一兩分鐘時間介紹一下我們音視頻實驗室的一些其他成果和場景,也讓大家感受一下我們實驗室除了做充滿數據的編解碼之外還有一些可能更有趣的工作。
比如降噪,比如低照度處理,比如視頻超分,等等。因為我們要落地產品,所以我們的算法實質性要求很高。比如說這個任意目標跟蹤組件,它可以跟蹤一個移動很快的物體,當物體旋轉、顏色有改變,或者是被部分遮擋住的時候也不會丟失。在iPhone 7+ 上測試是每秒一百幀的速度。我們的TPG組件提供了一套完整的圖像壓縮解決方案,被用于QQ空間,QQ瀏覽器,騰訊手機管家,騰訊新聞,騰訊體育,天天快報等多款公司產品。
另外我們實驗室在語音方面也有很強的技術積累,一些成果比如語回聲抵消、降噪、變聲、3D音效等等,歡迎同學們下午到我們音視頻實驗室分論壇進行深度技術交流和體驗 demo.
我們也在探索跟AI相關的課題,AI語音降噪和分離,包括AI的語音美化。我們不僅只美化樣子,還要美化聲音,這是全方位的美化。還有AI輔助的音視頻的質量評估,流控,DL輔助視頻編解碼等等。
以上是今天一個簡單的分享,非常感謝大家。
劉杉個人簡介:
劉杉本科畢業于清華大學電子工程系,碩士和博士畢業于美國南加州大學電機工程系,現任音視頻實驗室杰出科學家。劉杉加入騰訊之前,曾任華為美國多媒體實驗室主任兼視頻標準首席科學家和全球項目負責人;在此之前擔任聯發科美國視頻和視覺技術開發部主任。
在聯發科任職期間,組建聯發科美國多媒體標準團隊并幫助公司實現了在視頻編解碼和系統等標準領域從零到一的突破。作為主要發明人和聯合發明人的50余篇技術提案被ITU-T H.265 | ISO / IEC HEVC, MPEG-DASH, OMAF, MMT 等國際標準采納。于2013年榮獲聯發科最高榮譽研發金獎以表彰在標準領域對公司的貢獻。
在此之前還曾擔任MERL主任研究員、IBM客座研究員、索尼資深算法工程師等職。她曾多次擔任標準組織技術分組與專家小組的主席和聯席主席,并多次在國際頂級學術會議擔任領域主席、論文評審委員或做邀請報告。發表了超過 30 篇專業期刊和會議論文,是超過 200 個美國和全球專利申請的發明人,其中許多發明已被授權并成為標準基本專利或被內置于多款通信和多媒體產品中。是ITU-T H.265 | ISO / IEC HEVC V4(定稿版本)七位主編之一。