前言:
大家晚上好,今天給大家分享一些關于音視頻里面一些基礎的知識點,基礎知識點非常重要!
一、I、B、P幀:
視頻的播放過程可以簡單理解為一幀一幀的畫面按照時間順序呈現出來的過程,就像在一個本子的每一頁畫上畫,然后快速翻動的感覺。
但是在實際應用中,并不是每一幀都是完整的畫面,因為如果每一幀畫面都是完整的圖片,那么一個視頻的體積就會很大,這樣對于網絡傳輸或者視頻數據存儲來說成本太高,所以通常會對視頻流中的一部分畫面進行壓縮(編碼)處理。由于壓縮處理的方式不同,視頻中的畫面幀就分為了不同的類別,其中包括:I 幀、P 幀、B 幀。
下面是關于I 幀、P 幀、B 幀的區別:
- I 幀(Intra coded frames):I 幀圖像采用幀內編碼方式,即只利用了單幀圖像內的空間相關性,而沒有利用時間相關性。I 幀使用幀內壓縮,不使用運動補償,由于 I 幀不依賴其它幀,所以是隨機存取的入點,同時是解碼的基準幀。I 幀主要用于接收機的初始化和信道的獲取,以及節目的切換和插入,I 幀圖像的壓縮倍數相對較低。I 幀圖像是周期性出現在圖像序列中的,出現頻率可由編碼器選擇。
- P 幀(Predicted frames):P 幀和 B 幀圖像采用幀間編碼方式,即同時利用了空間和時間上的相關性。P 幀圖像只采用前向時間預測,可以提高壓縮效率和圖像質量。P 幀圖像中可以包含幀內編碼的部分,即 P 幀中的每一個宏塊可以是前向預測,也可以是幀內編碼。
- B 幀(Bi-directional predicted frames):B 幀圖像采用雙向時間預測,可以大大提高壓縮倍數。值得注意的是,由于 B 幀圖像采用了未來幀作為參考,因此 MPEG-2 編碼碼流中圖像幀的傳輸順序和顯示順序是不同的。
也就是說,一個 I 幀可以不依賴其他幀就解碼出一幅完整的圖像,而 P 幀、B 幀不行。P 幀需要依賴視頻流中排在它前面的幀才能解碼出圖像。B 幀則需要依賴視頻流中排在它前面或后面的幀才能解碼出圖像。
這就帶來一個問題:在視頻流中,先到來的 B 幀無法立即解碼,需要等待它依賴的后面的 I、P 幀先解碼完成,這樣一來播放時間與解碼時間不一致了,順序打亂了,那這些幀該如何播放呢?這時就需要我們來了解另外兩個概念:DTS 和 PTS(詳見下邊說明)。
兩個I frame之間形成一個GOP,在x264中同時可以通過參數來設定bf的大小,即:I 和p或者兩個P之間B的數量。
通過上述基本可以說明如果有B frame 存在的情況下一個GOP的最后一個frame一定是P.
看x264代碼,感覺GOP 就是IDR幀到另一個IDR幀之間 就是一個GOP.在視頻編碼序列中,GOP即Group of picture(圖像組),指兩個I幀之間的距離,Reference(參考周期)指兩個P幀之間的距離。一個I幀所占用的字節數大于一個P幀,一個P幀所占用的字節數大于一個B幀。
所以在碼率不變的前提下,GOP值越大,P、B幀的數量會越多,平均每個I、P、B幀所占用的字節數就越多,也就更容易獲取較好的圖像質量;Reference越大,B幀的數量越多,同理也更容易獲得較好的圖像質量。
需要說明的是,通過提高GOP值來提高圖像質量是有限度的,在遇到場景切換的情況時,H.264編碼器會自動強制插入一個I幀,此時實際的GOP值被縮短了。另一方面,在一個GOP中,P、B幀是由I幀預測得到的,當I幀的圖像質量比較差時,會影響到一個GOP中后續P、B幀的圖像質量,直到下一個GOP開始才有可能得以恢復,所以GOP值也不宜設置過大。
同時,由于P、B幀的復雜度大于I幀,所以過多的P、B幀會影響編碼效率,使編碼效率降低。另外,過長的GOP還會影響Seek操作的響應速度,由于P、B幀是由前面的I或P幀預測得到的,所以Seek操作需要直接定位,解碼某一個P或B幀時,需要先解碼得到本GOP內的I幀及之前的N個預測幀才可以,GOP值越長,需要解碼的預測幀就越多,seek響應的時間也越長。
二、DTS、PTS 的概念:
- DTS(Decoding Time Stamp):即解碼時間戳,這個時間戳的意義在于告訴播放器該在什么時候解碼這一幀的數據。
- PTS(Presentation Time Stamp):即顯示時間戳,這個時間戳用來告訴播放器該在什么時候顯示這一幀的數據。
需要注意的是:雖然 DTS、PTS 是用于指導播放端的行為,但它們是在編碼的時候由編碼器生成的。
當視頻流中沒有 B 幀時,通常 DTS 和 PTS 的順序是一致的。但如果有 B 幀時,就回到了我們前面說的問題:解碼順序和播放順序不一致了。
比如一個視頻中,幀的顯示順序是:I B B P,現在我們需要在解碼 B 幀時知道 P 幀中信息,因此這幾幀在視頻流中的順序可能是:I P B B,這時候就體現出每幀都有 DTS 和 PTS 的作用了。DTS 告訴我們該按什么順序解碼這幾幀圖像,PTS 告訴我們該按什么順序顯示這幾幀圖像。順序大概如下:
PTS: 480 640 560 520 600 800 720 680 760 960 ...
DTS: 400 440 480 520 560 600 640 680 720 760 ...
Stream: I P B B B P B B B P ...
播放序: 1 5 3 2 4 9 7 6 8 10 ...
PTS >= DTS
三、音視頻的同步:
上面說了視頻幀、DTS、PTS 相關的概念。我們都知道在一個媒體流中,除了視頻以外,通常還包括音頻。音頻的播放,也有 DTS、PTS 的概念,但是音頻沒有類似視頻中 B 幀,不需要雙向預測,所以音頻幀的 DTS、PTS 順序是一致的。
音頻視頻混合在一起播放,就呈現了我們常??吹降膹V義的視頻。在音視頻一起播放的時候,我們通常需要面臨一個問題:怎么去同步它們,以免出現畫不對聲的情況。
要實現音視頻同步,通常需要選擇一個參考時鐘,參考時鐘上的時間是線性遞增的,編碼音視頻流時依據參考時鐘上的時間給每幀數據打上時間戳。在播放時,讀取數據幀上的時間戳,同時參考當前參考時鐘上的時間來安排播放。這里的說的時間戳就是我們前面說的 PTS。實踐中,我們可以選擇:同步視頻到音頻、同步音頻到視頻、同步音頻和視頻到外部時鐘。
四、PTS和DTS的時間基:
首先我們思考一下:PST和DTS的單位是什么?
為了回答這個問題,先引入FFmpeg中時間基的概念,也就是time_base。它也是用來度量時間的。
如果把1秒分為25等份,你可以理解就是一把尺,那么每一格表示的就是1/25秒。此時的time_base={1,25} 如果你是把1秒分成90000份,每一個刻度就是1/90000秒,此時的time_base={1,90000}。
所謂時間基表示的就是每個刻度是多少秒 。
pts的值就是占多少個時間刻度(占多少個格子)。它的單位不是秒,而是時間刻度。只有pts加上time_base兩者同時在一起,才能表達出時間是多少。
好比我只告訴你,某物體的長度占某一把尺上的20個刻度。但是我不告訴你,這把尺總共是多少厘米的,你就沒辦法計算每個刻度是多少厘米,你也就無法知道物體的長度。
- pts=20個刻度
- time_base={1,10} 每一個刻度是1/10厘米
所以物體的長度=ptstime_base=201/10 厘米
在ffmpeg中。av_q2d(time_base)=每個刻度是多少秒
此時你應該不難理解 pts*av_q2d(time_base)才是幀的顯示時間戳。
下面理解時間基的轉換,為什么要有時間基轉換。
首先,不同的封裝格式,timebase是不一樣的。另外,整個轉碼過程,不同的數據狀態對應的時間基也不一致。拿mpegts封裝格式25fps來說(只說視頻,音頻大致一樣,但也略有不同)。非壓縮時候的數據(即YUV或者其它),在ffmpeg中對應的結構體為AVFrame,它的時間基為AVCodecContext 的time_base ,AVRational{1,25}。
壓縮后的數據(對應的結構體為AVPacket)對應的時間基為AVStream的time_base,AVRational{1,90000}。
因為數據狀態不同,時間基不一樣,所以我們必須轉換,在1/25時間刻度下占10格,在1/90000下是占多少格。這就是pts的轉換。
根據pts來計算一楨在整個視頻中的時間位置:
timestamp(秒) = pts * av_q2d(st->time_base)
duration和pts單位一樣,duration表示當前幀的持續時間占多少格?;蛘呃斫馐莾蓭拈g隔時間是占多少格。一定要理解單位。
pts:格子數
av_q2d(st->time_base): 秒/格
- 計算視頻長度:
time(秒) = st->duration * av_q2d(st->time_base)
ffmpeg內部的時間與標準的時間轉換方法: ffmpeg內部的時間戳 = AV_TIME_BASE * time(秒) AV_TIME_BASE_Q=1/AV_TIME_BASE
av_rescale_q(int64_t a, AVRational bq, AVRational cq)函數
這個函數的作用是計算a*bq / cq來把時間戳從一個時間基調整到另外一個時間基。在進行時間基轉換的時候,應該首先這個函數,因為它可以避免溢出的情況發生。 函數表示在bq下的占a個格子,在cq下是多少。
- 關于音頻pts的計算:
音頻sample_rate:samples per second,即采樣率,表示每秒采集多少采樣點。
比如44100HZ,就是一秒采集44100個sample. 即每個sample的時間是1/44100秒
一個音頻幀的AVFrame有nb_samples個sample,所以一個AVFrame耗時是nb_samples*(1/44100)秒 即標準時間下duration_s=nb_samples*(1/44100)秒,
轉換成AVStream時間基下 duration=duration_s / av_q2d(st->time_base)
基于st->time_base的num值一般等于采樣率,所以duration=nb_samples. pts=nduration=nnb_samples
視頻花屏和卡頓原因:
這個原因只能作為參考,具體實際應用開發遇到的問題,視情況而定:
- 視頻花屏原因:如果GOP分組中有B幀、P幀丟失,會造成解碼端的圖像發生錯誤,這會出現馬賽克(也就是花屏的現象出現?。?/li>
- 視頻卡頓的原因:為了避免花屏的問題發生,當出現有幀丟失時,就丟棄GOP內所有的幀,直到下一個IDR正重新刷新圖像;I幀是按照幀周期來的,需要一個比較長的時間周期,如果在下一個I幀來之前,不顯示后來的圖像,那么視頻就靜止不動了,這就是出現了所謂的卡頓現象
補充:
- 什么是GOP:(group of picture),它是一組幀,也就是一組圖片。
- IDR幀:(Instantanous Decoder Resfresh)解碼器立即刷新,每當遇到IDR幀時,解碼器就會清空解碼器參考buffer中的內容。每個GOP中的第一個幀就是IDR幀,它是一種特殊的I幀,他在解碼過程中,防止解碼錯誤傳播
五、總結:
好了,今天的分享就到這里了,我是txp,我們下期見!