2017年12月28日,由騰訊社交網(wǎng)絡(luò)事業(yè)群(SNG)主辦TSAIC學(xué)術(shù)&工業(yè)交流盛會在騰訊濱海大廈舉行,150余位來自麻省理工、斯坦福、卡耐基梅隆、清華、中科院計(jì)算機(jī)所、微軟研究院等海內(nèi)外知名高校、研究所的學(xué)者和研究員受邀出席。
騰訊音視頻實(shí)驗(yàn)室杰出科學(xué)家劉杉作為主講嘉賓出席此次大會。在會上,她分享了視頻編解碼領(lǐng)域技術(shù)介紹和編碼標(biāo)準(zhǔn)變遷。她說近些年中國的數(shù)字音視頻編解碼技術(shù)標(biāo)準(zhǔn)工作組(AVS)做得越來越好、越來越強(qiáng)大,現(xiàn)在是完全不可忽視的一個力量。
以下是劉杉演講全文。
非常高興也非常榮幸來到這里跟大家做一個分享。我今天分享的主題是“視頻編解碼和標(biāo)準(zhǔn)化”。
在分享之前,我簡單介紹一下我自己。跟剛才兩位嘉賓的背景稍稍不一樣,我是來自工業(yè)界的博士,之前在一家公司工作過,做過研究、也做過產(chǎn)品。如果在座有同學(xué)想了解一下博士在工業(yè)界的心路歷程,歡迎大家找我分享。
我們有視頻編解碼的傳輸,也包括前處理和后處理等等比較寬泛的項(xiàng)目,近幾年我們聚焦在視頻編解碼的制定標(biāo)準(zhǔn),也是今天我跟大家分析的內(nèi)容。我大概在上個月加入騰訊的音視頻實(shí)驗(yàn)室。
言歸正傳,今天分享的主題包括兩個部分,一個部分是標(biāo)準(zhǔn),另外一部分是編解碼。
我先講一下視頻編解碼的國際標(biāo)準(zhǔn),后面花一點(diǎn)時間講一下音視頻實(shí)驗(yàn)室的成果和場景。
我覺得知道為什么要做一件事對任何一個項(xiàng)目來說都是至關(guān)重要的。之所以要做視頻這件事,因?yàn)橐曨l的數(shù)據(jù)量是非常非常大的,大到什么程度呢?舉個簡單的例子,有一部電影,這個電影是兩個小時的電影,視頻編解碼背景的同學(xué)可不可以告訴大家,這個視頻如果不壓縮是多大?
我們大家一起來做一個快速算術(shù),1980×1080,2小時20分鐘,如果不壓縮是3BT。如果我們買一個移動硬盤。你的手提電腦,如果不壓縮,大概可以裝兩部這樣不壓縮的電影。如果不壓縮,我們需要傳輸?shù)膸捠呛艽蟮摹N一艘环昼姷臅r間來做這個數(shù)學(xué),這件事情不是重要的,而是必要的。一件事情如果是必要的,我們就要去做。
我們要了解什么是視頻。簡單講,視頻就是一組圖片,但是它不是一組單獨(dú)的圖片,而是有運(yùn)動關(guān)系的圖片,我們要抓住兩個點(diǎn),運(yùn)動關(guān)系和圖片。
基本上基于這兩個基本點(diǎn)可以分兩類,一類是針對圖片壓縮的,另外一類是運(yùn)動路徑、運(yùn)動補(bǔ)償和一些相關(guān)技術(shù)。
我們對色度做一個處理,這件事對博士來說完全沒有什么技術(shù)含量,下面有技術(shù)含量的是transform,我們在這里面最常用的是DCT,最近的標(biāo)準(zhǔn)里面也開始引入了DST。還有其他的一些還在探討之中。
右上角是Example quantization matrix,我們做壓縮的看到這個會很興奮,因?yàn)槲覀兛吹胶芏嗪芏嗟?,看到后面的數(shù)據(jù)我們會更加興奮,因?yàn)闀懈噙B續(xù)的0,這是為下一步做準(zhǔn)備。下一步是Entropy Coding,是一種無損壓縮方式,可以把這個壓縮的更小。
剛才分享了幾種針對圖像壓縮的技術(shù),我們可以有一個最簡單的架構(gòu)圖,這張圖是就是最簡單的架構(gòu)圖。
我們又回到剛才講的什么是視頻,視頻就是運(yùn)動關(guān)系和圖片。圖片方面我們已經(jīng)講了,下面我們要看一下運(yùn)動關(guān)系這部分。
我們真正在做編解碼的時候,不像很多領(lǐng)域那樣做的,在主流的里面我們還是用塊狀的方式,所以對于運(yùn)動補(bǔ)償方面有很多相關(guān)技術(shù),比如說預(yù)測單元的劃分,運(yùn)動矢量圖本身的劃分,我們真正在標(biāo)準(zhǔn)制定的時候,關(guān)于運(yùn)動補(bǔ)償?shù)倪@一大塊,通常都是劃分成很多個小的技術(shù)分組來具體討論它相關(guān)的各個運(yùn)動子級、技術(shù)子級和細(xì)節(jié)。
通過剛才圖片壓縮和運(yùn)動關(guān)系的分析,我們可以得到一個簡單的示意圖,我們可以看到它包括了壓縮模塊、運(yùn)動補(bǔ)償模塊。
剛才給大家看的是最簡單的,是我們之前的,經(jīng)過這二三十年的努力和變化,現(xiàn)在就變得好了很多,有更多模塊,也有更多技術(shù)細(xì)節(jié)。這是近期HEVC和H.265的Video Encoder,待會兒我會再詳細(xì)講這個標(biāo)準(zhǔn)。
花了幾分鐘時間,在座各位已經(jīng)是視頻編解碼的專家了,我們可以討論下一步了。
我們討論Video Coding Standards,如果沒有一個出入口或者大家都接受的密碼本這樣的東西,Apple、Orange就沒有辦法進(jìn)一步的分級出來,這就是我們需要全世界人民都接受的標(biāo)準(zhǔn)。
接受標(biāo)準(zhǔn)不是一個人、兩個人都說了算的東西,它是有一套標(biāo)準(zhǔn)組織和嚴(yán)格的流程。有兩個歷史比較久的標(biāo)準(zhǔn)阻止,其中第一個是ITU,在它下面有一個工作小組是在ITU下面負(fù)責(zé)研究視頻編解碼的技術(shù)和制定它的標(biāo)準(zhǔn)。第二個標(biāo)準(zhǔn)組織是ISO/IEC MIPEG。他們有一個MPEG,是在ISO、IEC下面研發(fā)視頻編解碼的技術(shù),制定它的標(biāo)準(zhǔn)。還有一個公司是AOM,制定視頻編解碼標(biāo)準(zhǔn)。還有一個標(biāo)準(zhǔn)組織我沒有寫,但是我覺得也是非常重要的,AVS,是我們國內(nèi)的標(biāo)準(zhǔn)阻止。近些年AVS做得越來越好、越來越強(qiáng)大,現(xiàn)在是完全不可忽視的一個力量。
觀察從過去到現(xiàn)在的標(biāo)準(zhǔn),我們可以看到,1984年ITU已經(jīng)出來了第一個標(biāo)準(zhǔn),H.120,具體長什么樣子我也沒有見過,因?yàn)樯晕⒂幸稽c(diǎn)早。到1990年推出了H.261,這個已經(jīng)是被大家廣泛使用的。1993年ISO、IEC交替的出了MPEG-1 Part2。在1995年出了H.262,這個標(biāo)準(zhǔn)是ISO、IEC兩個組織共同制定的。我不知道在座多少同學(xué)用過DVD,DVD這個格式我們小時候用了很久,DVD這個格式就是用了MPEG-2 Part2,很多電視節(jié)目也是用的MPEG-2 Part2。2003年有了H.264,像HD、DVD這些格式都是用這個,很多新的節(jié)目也都是開使用H.264。又過了大概十來年,出了一個H.265/HEVC,它也是我們認(rèn)為比較好的。無論是從MPGE Part2恩到H.264還是H.265,它都是翻倍了的。
下面花一點(diǎn)時間講一下HEVC。HEVC在2007年左右開始預(yù)言,各個公司怎么有新的視頻編解碼的技術(shù),到2010年1月份,這個標(biāo)準(zhǔn)組織覺得我們有希望,所以就做了一個標(biāo)準(zhǔn)。2014年全世界各個公司、學(xué)校和研究機(jī)構(gòu),全世界的工程師、科學(xué)家坐在一起做評估,出臺了一個標(biāo)準(zhǔn),又過了艱苦的努力,在2013年出臺了Version1。2014年出版了Version2。2015年出版了Version3和3D。2016年又出了Version4。制定標(biāo)準(zhǔn)是一個蠻艱苦的過程,努力的工作一般來說回報都是不錯的,HEVC的標(biāo)準(zhǔn)獲得了第69屆的艾美獎,工程師們也可以參加一下這種頒獎,蠻有意思的。參加這種活動的人只有十幾個,但是這套標(biāo)準(zhǔn)積累了上千個工程師和科學(xué)家、研發(fā)人員的努力。
這個地方是HEVC Block Diagram,H.265比之前做了很多改進(jìn),由于今天時間有限不太會講的很具體,因?yàn)槊恳粋€技術(shù)又是一個新的講座。
做過264的同學(xué)都知道,另外一個重要的模塊是運(yùn)動關(guān)系,我們做了更多技術(shù),包括更多預(yù)測單元和Coding,很多都有新的更新。265比264的時代有更多Modes以后,做了很快技術(shù)的提升。
Deblockin Filter,之前像263這種都是后處理的模式,264做了一個稍微革新性的,265也做了改進(jìn),我們在266會有更新的改進(jìn)。
我們標(biāo)準(zhǔn)有一系列的數(shù)據(jù),大家不能拿來自己比較,這個是426×240的,但是現(xiàn)在很少人看這樣的,如果單單把HD拿出來,這個HD sequences,我們264可以到40-45。我們做視頻、視覺或者圖像的同學(xué)都知道,數(shù)據(jù)是一回事,有時候科學(xué)是另外一回事。Subjective是67% class B sequences,49%for class C sequences。
做標(biāo)準(zhǔn)的人是永遠(yuǎn)不會停下來的,標(biāo)準(zhǔn)這個事情是一代一代可以永遠(yuǎn)做下去的。我們進(jìn)行266的預(yù)言,266的預(yù)言大概在2013年、2014年很多公司就開始了,2015年10月的時候,ISO、IEC、ITU這幾個相愛相殺的組織說要一起做,就一起進(jìn)行預(yù)言,大概又過了兩年時間的共同研究,他們說又有信心可以做一個標(biāo)準(zhǔn),所以標(biāo)準(zhǔn)組織又發(fā)了一個通知,明年公司、學(xué)校、科研人員又要坐在一起討論,在未來兩三年時間里面我們又要努力工作,做下一代的新的標(biāo)準(zhǔn)。
剛才講我們做了很多預(yù)言,我們有這么多編解碼的工具。我們看到4K和2K的情況,我們已經(jīng)有35%的Coding game,我們有一定的信心可以做下去。這是一個起點(diǎn),不是一個終點(diǎn),在未來兩三年里面,我們會進(jìn)一步把coding game的數(shù)據(jù)做大,把另外那個數(shù)據(jù)降低,帶給大家更好的體驗(yàn)。
這大概就是我今天分享的關(guān)于視頻編解碼和國際標(biāo)準(zhǔn)的浮光掠影的簡單介紹。
下面我用簡單一兩分鐘時間介紹一下我們音視頻實(shí)驗(yàn)室的場景,讓大家看一下我們的工具和比較有意思的事情。
因?yàn)槲覀円涞貓鼍埃詫?shí)質(zhì)性要求很高,這是在工業(yè)中進(jìn)行的測試,比如說降噪,一個物體可移動的很快,它可以轉(zhuǎn)、顏色有改變,或者它是不是會掉下來,都有預(yù)測的。我們的TPG會進(jìn)行圖像壓縮和解決方案。
還有語音的前處理,我個人不是語音專家,但是我們實(shí)驗(yàn)室有很多語音方面的專家,我們音視頻實(shí)驗(yàn)室分論壇,語音背景的同學(xué)可以過來跟語音專家進(jìn)行深度交流。我們還有一些比較有意思的語音方面的demo,因?yàn)檫@邊效果不太好,demo效果在分論壇會有演示,歡迎大家來看我們的音效。
我們還在探索跟AI相關(guān)的課題,AI的語音降噪和分離,包括AI的語音美化。我們不僅只美化樣子,還要美化聲音,這是全方位的美化。還有AI輔助的音視頻的質(zhì)量評估等等。
這些是音視頻實(shí)驗(yàn)室近期的成果和應(yīng)用場景。這就是今天的分享,非常感謝大家。