




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、第二講 音視頻編解碼技術(shù)1音視頻編解碼技術(shù)第1頁 掌握數(shù)據(jù)壓縮主要意義 掌握數(shù)據(jù)冗余概念、分類及信息熵 計算公式 了解數(shù)據(jù)壓縮三個關(guān)鍵指標(biāo),即壓縮 比、圖像質(zhì)量、壓縮和解壓縮速度 掌握Huffman編碼原理、方法及特點 了解預(yù)測編碼和變換編碼原理 熟知音頻壓縮標(biāo)準(zhǔn) 掌握圖像壓縮標(biāo)準(zhǔn)JPEG和MPEG教學(xué)目標(biāo)2音視頻編解碼技術(shù)第2頁2.1 多媒體數(shù)據(jù)壓縮基本原理2.2 數(shù)據(jù)壓縮與解壓縮慣用算法2.3 多媒體數(shù)據(jù)慣用壓縮標(biāo)準(zhǔn)內(nèi)容導(dǎo)航3音視頻編解碼技術(shù)第3頁2.1 多媒體數(shù)據(jù)壓縮基本原理2.1.1 多媒體數(shù)據(jù)壓縮必要性和可能性2.1.2 數(shù)據(jù)冗余基本概念與種類2.1.3 圖像壓縮預(yù)處理技術(shù)2.1.4
2、 量化及其質(zhì)量2.1.5 數(shù)據(jù)壓縮算法綜合評價指標(biāo)4音視頻編解碼技術(shù)第4頁一幅640480中等分辨率真彩色位圖圖像數(shù)據(jù)量為 64048024/8= 0.92MB,若以25幅/s幀頻播放,數(shù)據(jù)率為23MB/s,用容量為650MBCD-ROM光盤只能存29sPAL制式數(shù)據(jù)。2 多媒體信息數(shù)據(jù)巨大是多媒體計算機系統(tǒng)所面臨最大難題之一。在各種媒體信息中,視頻信息數(shù)據(jù)量最大,其次是音頻信號,所以,為了處理和傳輸多媒體信息不但需要很大存放容量,而且要有很高傳輸速度. 激光唱盤CD采樣頻率為44.1kHz,量化位數(shù)為16位,雙通道立體聲,則1秒音頻數(shù)據(jù)量為176.4KB,一個650MB光盤僅能存放不足60分
3、鐘音頻數(shù)據(jù)。12.1.1 多媒體數(shù)據(jù)壓縮必要性和可能性數(shù)據(jù)壓縮必要性數(shù)據(jù)量大5音視頻編解碼技術(shù)第5頁信息冗余度 如空間冗余、時間冗余、信息熵冗余、結(jié)構(gòu)冗余、知識冗余等。1 音頻信號和視頻圖像數(shù)字化數(shù)據(jù)能夠進行數(shù)據(jù)壓縮是基于以下兩種事實:數(shù)據(jù)壓縮可能性 所以,完全能夠利用這些特征去除一些多出及不敏感信息,從而實現(xiàn)對數(shù)據(jù)壓縮。 人視覺、聽覺特征 2 人聽覺特征表現(xiàn)出對部分音頻信號不敏感,如人聽覺含有一個強音能抑制一個同時存在弱音現(xiàn)象,而且,人耳對低頻端比較敏感,而對高頻端不太敏感。 人視覺特征表現(xiàn)為對亮度信息很敏感而對邊緣急劇改變不敏感;6音視頻編解碼技術(shù)第6頁2.1.2 數(shù)據(jù)冗余基本概念與種類數(shù)
4、據(jù)冗余基本概念 數(shù)據(jù)冗余 信息存在各種多出度 假如用I、D、du分別表示信息量、數(shù)據(jù)量和冗余量,則它們之間關(guān)系可由下式給出 I=D - du7音視頻編解碼技術(shù)第7頁信息量 指從N個相等可能事件中選出一個事件所需要信息度量和含量。I(x)= log2N= - log2 = - log2p(x)1N信息熵 信源全部可能事件信息量平均值H(x) = H(p(x1),(p(x2), ,p(xn)= - p(xi) log2p(xi)i=1n 式中,n為數(shù)據(jù)或碼元個數(shù),p(x i )為碼元x i 發(fā)生概率。8音視頻編解碼技術(shù)第8頁為使單位數(shù)據(jù)量D靠近或等于H,應(yīng)設(shè)其中b(x i)為分配給碼元x i 比特
5、數(shù)。理論情況下,應(yīng)取 但實際上極難確定各碼元概率,所以,普通總?cè)?b(x1)= b(x2)= .= b(x n),即分配給每個碼元比特數(shù)相等(等長碼),這么所得D必定大于H,從而形成了信息冗余。9音視頻編解碼技術(shù)第9頁數(shù)據(jù)冗余類別 這是圖像數(shù)據(jù)中經(jīng)常存在一個冗余。在同一幅圖像中,規(guī)則物體和規(guī)則背景表面物理特征含有相關(guān)性,這些相關(guān)光成像結(jié)構(gòu)在數(shù)字化圖像中就表現(xiàn)為數(shù)據(jù)冗余。1空間冗余10音視頻編解碼技術(shù)第10頁 這是序列圖像和語音數(shù)據(jù)中所經(jīng)常包含冗余。序列圖像普通是位于一時間軸區(qū)間一組連續(xù)畫面,前后幀之間含有很強相關(guān)性。當(dāng)播放該圖象序列時,伴隨時間推移,若干幀畫面一些地方發(fā)生了改變,但有部位卻沒有
6、改變,這就形成了時間冗余。2時間冗余11音視頻編解碼技術(shù)第11頁3結(jié)構(gòu)冗余 有些圖像紋理區(qū),圖像像素值存在著顯著分布模式,如方格狀地板圖案等,我們稱之為結(jié)構(gòu)冗余 。12音視頻編解碼技術(shù)第12頁信息熵冗余是指數(shù)據(jù)所攜帶信息量少于數(shù)據(jù)本身所反應(yīng)出來數(shù)據(jù)冗余。比如 若信號a1,a2概率分別為 P(a1)=0.9, P(a2)=0.1, 則信號平均信息量為H(x)=(0.9log20.9+0.1log20.1)=0.467(bit) 用二進制數(shù)據(jù)表示這兩個信號時需用1bit 顯然出現(xiàn)了數(shù)據(jù)冗余。4信息熵冗余13音視頻編解碼技術(shù)第13頁5視覺冗余 人類視覺系統(tǒng)因為受生理特征限制,對于圖像場任何改變并不是
7、都能感知。比如,對圖像壓縮或量化而引入噪聲能使圖像發(fā)生一些改變,假如這些改變并不能被視覺所感知,則忽略這些改變后,仍認(rèn)為圖像是完好。實際上,人視覺系統(tǒng)普通分辨能力約為26灰度等級,而圖像量化普通采取28灰度等級,這么冗余就稱為視覺冗余。14音視頻編解碼技術(shù)第14頁6知識冗余又如 建筑物門和窗形狀、位置、大小百分比等,這些規(guī)律結(jié)構(gòu)可由先驗知識和背景知識得到。 由圖像統(tǒng)計方式與人對圖像知識之間差異所產(chǎn)生冗余稱為知識冗余。 我們能夠結(jié)構(gòu)其基本模型,并創(chuàng)建對應(yīng)各種特征圖像庫,進而圖像存放只需要保留一些特征參數(shù),就能夠大大降低數(shù)據(jù)量。比如 人臉圖像就有固定結(jié)構(gòu),鼻子位于臉中線上,上方是眼睛,下方是嘴等1
8、5音視頻編解碼技術(shù)第15頁7其它冗余 如圖像空間非定常特征所帶來冗余。 另外,空間冗余和時間冗余是將信號看作概率信號時所反應(yīng)出統(tǒng)計特征,所以有時也稱這兩種冗余為統(tǒng)計冗余。16音視頻編解碼技術(shù)第16頁2.1.3 圖像壓縮預(yù)處理技術(shù) 圖像數(shù)據(jù)壓縮任務(wù)是在不影響或少影響圖像質(zhì)量前提下,盡可能設(shè)法降低圖像數(shù)據(jù)中數(shù)據(jù)量。 圖像數(shù)據(jù)中存在各種冗余,數(shù)據(jù)壓縮首要任務(wù)就是去除各種冗余數(shù)據(jù)。當(dāng)然刪除冗余數(shù)據(jù)必定會給圖像質(zhì)量帶來一定損失,這就需要進行對應(yīng)預(yù)處理,來確保將這種損失降至最低程度。 17音視頻編解碼技術(shù)第17頁圖像預(yù)處理技術(shù)主要有以下幾個: 二次抽樣 濾波器 量化 預(yù)測編碼 運動賠償 變長碼 圖像內(nèi)插法
9、 18音視頻編解碼技術(shù)第18頁2.1.4 量化及其質(zhì)量 量化概念與原理 量化是將含有連續(xù)幅度值輸入信號轉(zhuǎn)換為只含有有限個幅度值輸出信號過程。 就普通而言,量化是模擬信號到數(shù)字信號映射。模擬信號是連續(xù)量,而數(shù)字信號是離散量,所以量化過程實際上就是用有限離散量代替無限連續(xù)量多對一映射過程。 19音視頻編解碼技術(shù)第19頁 普通量化過程是預(yù)先設(shè)置一組判決電平和與其對應(yīng)一組碼字,再將整個有效值區(qū)間劃分成若干個子區(qū)間(也即量化級),每個子區(qū)間對應(yīng)一個判決電平。量化時將模擬量采樣值與這些判決電平比較,若采樣值幅度落在某一子區(qū)間上,則將它量化為該量化級對應(yīng)碼字。20音視頻編解碼技術(shù)第20頁量化方法 在量化器中
10、從輸入信號x到輸出信號y過程能夠表示為y = Q(x) = yi (xA)Ai: xix xi+1 (i=1,2,N) 式中,xi為判決電平,yi為輸出電平,N為量化器量化級數(shù)。21音視頻編解碼技術(shù)第21頁 量化器輸出幅度與輸入幅度之差,稱為量化誤差,其均方誤差值為e=ExQ(x)2=2 xixi+1(xyi)2p(x)dxNi=1 式中,p(x) 為量化器輸入信號x概率分布密度。22音視頻編解碼技術(shù)第22頁量化方法通常有標(biāo)量量化和矢量量化 1標(biāo)量量化 標(biāo)量量化是對經(jīng)過映射變換后數(shù)據(jù)或PCM數(shù)據(jù)逐一進行量化,在這種量化中,全部采樣使用同一個量化器進行量化,每個采樣量化都與其它采樣無關(guān),故也稱為
11、零記憶量化。 標(biāo)量量化又有均勻量化、非均勻量化和自適應(yīng)量化之分. 23音視頻編解碼技術(shù)第23頁W3(c)(a) (b)灰度差W1W2W3W4W5W6W7W8W1W2W4W5W6W7W8點數(shù)(255255)圖2.1 量化過程示意圖24音視頻編解碼技術(shù)第24頁 其中,(a)圖是待量化函數(shù),是一幅圖像灰度差值直方圖。其灰度范圍為0255,灰度差范圍為255255,需要log2512=9位表示一個輸入。當(dāng)限定輸出量化級為8時,量化輸出用log28=3位即可25音視頻編解碼技術(shù)第25頁 (b)圖給出了均勻量化處理示意,W1 W8為8個等寬量化箱,其寬度總和等于輸入動態(tài)范圍255255也對應(yīng)地劃分成8個相
12、同區(qū)間,每個區(qū)間對應(yīng)一個量化箱。第k個區(qū)間內(nèi)中心函數(shù)值對應(yīng)第k個量化箱量化值,其量化級定義為“k”級,該區(qū)間內(nèi)全部輸入均被定義為“k”級。26音視頻編解碼技術(shù)第26頁 (c) 圖給出了非均勻量化處理示意,這時量化箱不等寬,中間大約率處箱窄,兩邊小概率處箱寬。一樣量化為8級,但非均勻量化誤差小于均勻量化誤差。27音視頻編解碼技術(shù)第27頁 標(biāo)量量化量化特征采取階梯形函數(shù)形式。圖2.2給出了幾個均勻量化器量化特征圖2.2 均勻量化特征xiyiyi+1yxxi+1yxyx死區(qū)(a)中平型(b)中升型(c)含有死區(qū)中平型28音視頻編解碼技術(shù)第28頁圖中量化器特征都是對稱,且式中稱為量化臺階。 不難看出,
13、均勻量化器適合于輸入信號統(tǒng)計特征(概率分布密度函數(shù)P(x)均勻分布情況。29音視頻編解碼技術(shù)第29頁y圖2.3 非均勻量化特征x 當(dāng)輸入信號概率分布密度函數(shù)分布不均勻時,最正確量化器應(yīng)是一個非均勻量化器。 圖2.3給出了一個非均勻量化特征例子。 30音視頻編解碼技術(shù)第30頁2矢量量化 這是近年來發(fā)展起來一個新編碼方法,是一個有損編碼方案,其主要思想是先將輸入語音信號按一定方式分組,再把這些分組數(shù)據(jù)看成一個矢量,對它進行量化。每組形成矢量看成一個元素,又叫碼字,這些碼字排列起來,就組成了一個表(碼表),這么在接收端放置一樣碼表,當(dāng)接收到碼字下標(biāo)信息后,就能夠經(jīng)過查表到碼字信息。31音視頻編解碼技
14、術(shù)第31頁輸入矢量搜索器碼本Y傳送矢量下標(biāo)i查表碼本Y編碼解碼i輸入矢量圖2.5 矢量量化編碼解碼框圖 輸入量是一個待編碼矢量xi(i=1, 2, , m),即先將圖像分割成m個方塊,其中任一方塊i大小為k(k=n2),以行(或列)便可堆疊成k維矢量xi:(xi1, xi2, , xik)。碼本Y:(y1, y2, , yN)是一個碼字集合,它實際上是一個長度為N表,表中任一分量yi是一個k維矢量,稱為碼字。 32音視頻編解碼技術(shù)第32頁 矢量量化編碼過程就是從碼字集合中選出最緊密適配于輸入矢量xi一個碼字yi過程。在碼本中找到與輸入矢量xi完全一致碼字yi概率很小,但只要二者之間誤差最小時,
15、便可用該碼字yi來代表輸入矢量xi。傳輸時并不傳送碼字yi本身,而只傳送其下標(biāo)號“i”。當(dāng)碼本長度為N時,傳送下標(biāo)所需比特數(shù)為log2N。于是傳送一個像素所需平均比特數(shù)為(1/k)log2N。33音視頻編解碼技術(shù)第33頁 此方法以輸入矢量與選出碼字之間失真最小為依據(jù),與標(biāo)量量化相比,它有更大數(shù)據(jù)壓縮比。但其關(guān)鍵問題是設(shè)計一個良好碼本。34音視頻編解碼技術(shù)第34頁2.1.5 數(shù)據(jù)壓縮算法綜合評價指標(biāo) 數(shù)據(jù)壓縮方法優(yōu)劣主要由所能到達(dá)壓縮倍數(shù)、從壓縮后數(shù)據(jù)所能恢復(fù)(或稱重建)圖像(或聲音)質(zhì)量、以及壓縮和解壓縮速度等幾方面來評價。另外,算法復(fù)雜性和延時等也是應(yīng)該考慮原因。35音視頻編解碼技術(shù)第35頁
16、壓縮倍數(shù) 壓縮倍數(shù)也稱壓縮率,通常有兩種衡量方法:1由壓縮前與壓縮后總數(shù)據(jù)量之比來表示 比如,一幅1024768像素點組成黑白圖像,每像素含有8bit,經(jīng)過使其分辨率降低為512384,又經(jīng)數(shù)據(jù)壓縮使每個像素平均僅用0.5bit,則壓縮倍數(shù)為64倍,或稱其壓縮率為1:64。36音視頻編解碼技術(shù)第36頁2 將任何非壓縮算法產(chǎn)生效果(如降低分辨率、幀率等)排除在外,用壓縮后比特流中每個顯示像素平均比特數(shù)bpdp(bit per displayed pixel)來表示 比如,以15000字節(jié)存放一幅256240圖像,則壓縮率為(150008)/(256240)=2比特/像素37音視頻編解碼技術(shù)第37
17、頁圖像質(zhì)量 圖像質(zhì)量評定法常采取主觀評定和客觀評定兩種方法。 主觀評定 是經(jīng)過一個詳細(xì)算法來統(tǒng)計多媒體數(shù)據(jù)壓縮結(jié)果評定方法1 詳細(xì)做法是:由若干人對所觀察重建圖像質(zhì)量按很好、好、尚可、不好、壞五個等級評分,然后計算出平均分?jǐn)?shù)MOS38音視頻編解碼技術(shù)第38頁2 客觀評定 是經(jīng)過一個詳細(xì)算法來統(tǒng)計多媒體數(shù)據(jù)壓縮結(jié)果評定方法通常使用信噪比SNR來評價,其計算方法是 和 分別是輸入圖像均方差與輸出圖像均方差。39音視頻編解碼技術(shù)第39頁 壓縮和解壓縮速度是壓縮系統(tǒng)兩項主要性能指標(biāo)。壓縮和解壓縮速度 1 對稱壓縮:在有些應(yīng)用中,壓縮和解壓縮都需要實時進行,這稱為對稱壓縮,如電視會議圖像傳輸。 2 非對
18、稱壓縮。在有些應(yīng)用中只要求解壓縮是實時,而壓縮能夠非實時,這稱為非對稱壓縮,如多媒體CD-ROM節(jié)目標(biāo)制作就采取非對稱壓縮。 40音視頻編解碼技術(shù)第40頁3 壓縮計算量:數(shù)據(jù)壓縮和解壓縮都需大量計算。 通常壓縮計算量比解壓縮計算量大。如MPEG壓縮編碼計算量約為解碼4倍。在MPEG中要求水平方向像素768,垂直方向像素576。對于352240圖像,就有1320個88圖像塊,計算這么一幅圖像DCT變換需126720次乘法運算和638880次加法運算。實時計算30幀/秒黑白圖像,僅DCT變換就需要數(shù)倍于一幀圖計算量。若是處理彩色數(shù)字電視時,運算次數(shù)還要多。41音視頻編解碼技術(shù)第41頁2.2 數(shù)據(jù)壓
19、縮與解壓縮慣用算法 2.2.1 數(shù)據(jù)壓縮方法分類2.2.2 哈夫曼編碼2.2.3 預(yù)測編碼2.2.4 變換編碼42音視頻編解碼技術(shù)第42頁2.2.1 數(shù)據(jù)壓縮方法分類 數(shù)據(jù)壓縮實際上是一個編碼過程,即將原始數(shù)據(jù)進行編碼壓縮。數(shù)據(jù)解壓縮是數(shù)據(jù)壓縮逆過程,即將壓縮編碼還原為原始數(shù)據(jù)。所以,數(shù)據(jù)壓縮方法也稱編碼方法。自從1948年Oliver提出脈沖編碼調(diào)制(PCM)編碼理論以來,編碼方法研究取得了極大發(fā)展,數(shù)據(jù)壓縮技術(shù)已日臻成熟,適合各種應(yīng)用場所編碼方法不停產(chǎn)生。當(dāng)前采取數(shù)據(jù)壓縮方法按出發(fā)點不一樣會有幾個不一樣分類結(jié)果。43音視頻編解碼技術(shù)第43頁按照壓縮方法是否產(chǎn)生失真分類無損壓縮 是指壓縮后數(shù)
20、據(jù)經(jīng)解壓縮還原后,得到數(shù)據(jù)與原始數(shù)據(jù)完全相同。有損壓縮 是指壓縮后數(shù)據(jù)經(jīng)解壓縮還原后,得到數(shù)據(jù)與原數(shù)據(jù)不完全相同。44音視頻編解碼技術(shù)第44頁按照壓縮方法原理分類1預(yù)測編碼 它是針對空間冗余和時間冗余壓縮方法。其基本思想是利用已被編碼點數(shù)據(jù)值來預(yù)測鄰近一像素點數(shù)據(jù)值。預(yù)測是依據(jù)某一模型進行,假如模型選取得足夠好話,則只需存放和傳輸起始像素和模型參數(shù)就能夠代替整幅圖像了。按照模型不一樣,預(yù)測編碼又分為線性預(yù)測、幀內(nèi)預(yù)測和幀間預(yù)測。 45音視頻編解碼技術(shù)第45頁2變換編碼 它也是針對空間冗余和時間冗余壓縮方法。其基本思想是將圖像光強矩陣(時域信號)變換到系數(shù)空間(頻域信號)上,然后對系數(shù)進行編碼壓
21、縮。在空間上含有強相關(guān)信號,反應(yīng)在頻域上是一些特定區(qū)域內(nèi)能量經(jīng)常被集中在一起,或者是系數(shù)矩陣分布含有一些規(guī)律。能夠利用這些規(guī)律來分配頻域上量化比特數(shù),從而到達(dá)壓縮目標(biāo)。 46音視頻編解碼技術(shù)第46頁3子帶編碼 又稱分頻帶編碼。其基本思想是將圖像數(shù)據(jù)變換到頻域后,按頻率分帶,然后用不一樣量化器進行量化,到達(dá)最優(yōu)組合。語言和圖像信息都有較寬頻帶,信息能量集中在低頻區(qū)域,細(xì)節(jié)和邊緣則集中在高頻區(qū)域。子帶編碼采取保留低頻系數(shù)舍去高頻系數(shù)方法進行編碼,操作時對低頻區(qū)域取較多比特數(shù)來編碼,以犧牲邊緣細(xì)節(jié)來換取比特數(shù)下降,恢復(fù)后圖像比原圖含糊。其特點是有較高壓縮比和信噪比。47音視頻編解碼技術(shù)第47頁4信息
22、熵編碼 依據(jù)信息熵原理,對出現(xiàn)概率大符號用短碼字表示,反之用長碼字表示。其目標(biāo)是降低符號序列中冗余度,提升符號平均信息量。它依據(jù)符號序列統(tǒng)計特征,尋找某種方法把符號序列變換為最短碼字序列,使各碼元負(fù)擔(dān)信息量到達(dá)最大,同時確保無失真地恢復(fù)原來符號序列。實現(xiàn)這種編碼方法有行程編碼方法、哈夫曼編碼方法和自適應(yīng)二進制算術(shù)編碼方法。48音視頻編解碼技術(shù)第48頁5統(tǒng)計編碼 依據(jù)一幅圖像像素值統(tǒng)計情況進行編碼壓縮,也可先將圖像按前述方法壓縮,對所得值加以統(tǒng)計,再做壓縮。由此可知,統(tǒng)計編碼既可單獨使用,又可用在某個算法之后做深入壓縮。最慣用統(tǒng)計編碼方法是哈夫曼編碼方法。 除了上述編碼方法外,還有結(jié)構(gòu)編碼方法、
23、統(tǒng)計編碼方法、基于知識編碼方法等。 49音視頻編解碼技術(shù)第49頁2.2.2 哈夫曼編碼 哈夫曼最正確變字長編碼定理 定理:在變字長編碼中,對于出現(xiàn)概率大信息符號編以短字長碼,對于概率小符號編以長字長碼。假如碼字長度嚴(yán)格按所對應(yīng)符號出現(xiàn)概率大小逆次序排列,則平均碼字長度一定小于其它任何符號次序排列方式得到碼字長度。50音視頻編解碼技術(shù)第50頁哈夫曼編碼方法 結(jié)合一個詳細(xì)例子說明哈夫曼編碼方法步驟 設(shè)有信源符號集a1,a2,a3,a4,a5,a6,a7,各符號對應(yīng)出現(xiàn)頻率分別為0.23,0.21,0.18,0.15,0.13,0.07,0.03其哈夫曼編碼過程以下:51音視頻編解碼技術(shù)第51頁0.
24、440.330.560.230.10a1a2a3a4a5a6a70.230.210.180.150.130.070.03111001101000100010000信源符號概率Huffman碼編碼過程101010101010按照上面編“1”,下面編“0”52音視頻編解碼技術(shù)第52頁 下面分別計算碼字平均長度N和信源符號熵值H53音視頻編解碼技術(shù)第53頁哈夫曼編碼特點 即使哈夫曼碼是變長,編碼后碼串中又沒有分隔碼字標(biāo)識符,但因為它無歧義性,完全能夠正確地恢復(fù)出原信源所輸出符號序列來。1 哈夫曼編碼方法結(jié)構(gòu)出來碼不是惟一 2 哈夫曼編碼碼字字長不統(tǒng)一,給硬件實現(xiàn)帶來一定困難 354音視頻編解碼技術(shù)第
25、54頁 對不一樣信源,哈夫曼編碼效率也是不一樣 4 對信源進行哈夫曼編碼后形成了一個哈夫曼編碼表,若要正確解碼必須依照此表。于是在信源存放與傳輸過程中,必須首先考慮此表存放與傳輸,故此表也占有一定比特數(shù)。最好處理方法是使用默認(rèn)哈夫曼編碼表。555音視頻編解碼技術(shù)第55頁2.2.3 預(yù)測編碼 預(yù)測編碼方法是一個專門用于壓縮統(tǒng)計冗余數(shù)據(jù)技術(shù),主要是降低數(shù)據(jù)在空間和時間上相關(guān)性。它依據(jù)某一模型利用以往樣本值對新樣本值進行預(yù)測,然后將樣本實際值與其預(yù)測值相減得到一個誤差值,進而對這一誤差值進行編碼。假如模型足夠好,且樣本序列在時間上相關(guān)性較強,則誤差值遠(yuǎn)遠(yuǎn)小于實際值,從而到達(dá)了壓縮目標(biāo)。56音視頻編解
26、碼技術(shù)第56頁 預(yù)測編碼方法中經(jīng)典有DPCM和ADPCM方法。差分脈沖調(diào)制(DPCM)預(yù)測 差分脈沖調(diào)制(Differential Pulse Code Modulation,簡稱DPCM)是降低每個像素所需平均比特數(shù)最實用方法。對于絕大多數(shù)圖像來說,在局部空間和時間上是高度相關(guān),因而能夠在已得到像素基礎(chǔ)上經(jīng)過對當(dāng)前像素預(yù)測來降低圖像數(shù)據(jù)量。 57音視頻編解碼技術(shù)第57頁 當(dāng)輸入信號 進入時, 先與 相減得到預(yù)測誤差值 ,量化器對差值 進行量化得到 ,由編碼器編成二進制碼經(jīng)過信道發(fā)送。接收端解碼得到 ,與接收端本身形成預(yù)測值 相加,得到恢復(fù)后 。1DPCM原理58音視頻編解碼技術(shù)第58頁 假設(shè)
27、用給出樣本值序列x1,x2,x3,,x n-1來預(yù)測x n,令預(yù)測值 為: 預(yù)測器設(shè)計是預(yù)測編碼系統(tǒng)關(guān)鍵,預(yù)測器復(fù)雜程度與線性預(yù)測中使用以前樣本數(shù)相關(guān),樣本數(shù)越多,預(yù)測器越復(fù)雜。2DPCM編碼預(yù)測器設(shè)計59音視頻編解碼技術(shù)第59頁 xn最優(yōu)預(yù)計值是使誤差dn期望值最小 之值,由均方差定義: 要使 最小,應(yīng)對 a i求偏導(dǎo)數(shù),并令其為零,就可建立關(guān)于a1,a2,an-1線性方程組即:60音視頻編解碼技術(shù)第60頁上式中可見, 全部n-1個a i都可由上述方程組解出整理可得 式中Ex i x j為x i和x j協(xié)方差,可由統(tǒng)計學(xué)方法確定61音視頻編解碼技術(shù)第61頁 在預(yù)測編碼系統(tǒng)中,預(yù)測誤差量化是造
28、成圖像質(zhì)量下降主要原因,其表現(xiàn)形式有: 斜率過載 顆粒噪聲 邊緣忙亂 偽輪廓 62音視頻編解碼技術(shù)第62頁 在預(yù)測編碼系統(tǒng)中,造成圖像質(zhì)量下降另一個主要原因是由圖像傳輸過程中誤碼在接收端預(yù)測器中引發(fā)誤碼傳輸。因為接收端當(dāng)前像素是由前面已經(jīng)收到像素預(yù)測而來,因而一旦某個像素編碼產(chǎn)生誤碼,必定引發(fā)誤碼向后面像素傳輸,造成局部圖像損傷。幸而這種圖像損傷將伴隨與誤碼像素距離加大而逐步減弱。63音視頻編解碼技術(shù)第63頁自適應(yīng)差分脈沖調(diào)制(ADPCM)預(yù)測 DPCM系統(tǒng)基礎(chǔ)是輸入數(shù)據(jù)為平穩(wěn)隨機過程,這么就能夠用固定參數(shù)來設(shè)計預(yù)測器。然而,當(dāng)輸入數(shù)據(jù)并非是所要求平穩(wěn)隨機過程時,或總體上平穩(wěn),但局部不平穩(wěn)時,
29、使用固定參數(shù)來設(shè)計預(yù)測器將是不合理。這時可采取自適應(yīng)預(yù)測編碼方法,即定時地重新計算協(xié)方差矩陣和對應(yīng)加權(quán)因子,充分利用其統(tǒng)計特征重新調(diào)整預(yù)測參數(shù),使預(yù)測器伴隨輸入數(shù)據(jù)改變而改變,從而得到較為理想輸出。 自適應(yīng)預(yù)測又可分為線性自適應(yīng)預(yù)測和非線性自適應(yīng)預(yù)測兩種。64音視頻編解碼技術(shù)第64頁2.2.4 變換編碼 變換編碼不是直接對時域圖像信號編碼,而是首先在數(shù)據(jù)壓縮前對原始輸入數(shù)據(jù)作某種正交變換,把圖像信號映射變換到另外一個正交相量空間,產(chǎn)生一批變換系數(shù),然后再對這些變換系數(shù)進行編碼處理。65音視頻編解碼技術(shù)第65頁 采取變換編碼,能夠大大降低數(shù)據(jù)冗余。比如,假如有一個正弦波,我們用采樣、量化方法把它
30、變換時域上,則隨時間增加數(shù)據(jù)量會海量增加。但換個思緒一個正弦波只要統(tǒng)計頻域上幅度值以及它頻率,就完全能夠表示正弦波了。66音視頻編解碼技術(shù)第66頁 又如,設(shè)有兩個相鄰數(shù)據(jù)樣本x1和x2,每個樣本 采取3比特編碼,則各有8個幅度等級,兩個樣本聯(lián)合事件共有64種可能用下列圖二維平面坐標(biāo)表示。 考慮到相鄰樣值相關(guān)性,x1和x2同時出現(xiàn)相近幅度可能性最大。 所以,合成可能性往往落在陰影區(qū)內(nèi)。67音視頻編解碼技術(shù)第67頁 假如對數(shù)據(jù)進行正交變換,從幾何上相當(dāng)于坐標(biāo)系旋轉(zhuǎn) 450,變成y1、y2坐標(biāo)系,則在新坐標(biāo)系下,任憑y1在較大范圍變化,而y2一直只在相當(dāng)小范圍內(nèi)改變,所以經(jīng)過這么改變就能得到一組去除
31、大部分,甚至是全部統(tǒng)計相關(guān)性另一個輸出樣本。 慣用變換編碼有離散傅立葉變換(DFT)、卡亨南-洛甫變換(KL) 、離散余弦變換(DCT)等。68音視頻編解碼技術(shù)第68頁2.3 多媒體數(shù)據(jù)慣用壓縮標(biāo)準(zhǔn)2.3.1 音頻壓縮標(biāo)準(zhǔn)2.3.2 靜態(tài)圖像壓縮編碼標(biāo)準(zhǔn)JPEG2.3.3 數(shù)字圖像壓縮編碼標(biāo)準(zhǔn)MPEG-12.3.4 通用視頻圖像壓縮編碼標(biāo)準(zhǔn)MPEG-22.3.5 低比特率音/視頻壓縮編碼標(biāo)準(zhǔn)MPEG-469音視頻編解碼技術(shù)第69頁2.3.1 音頻壓縮標(biāo)準(zhǔn)音頻壓縮方法概述 無損壓縮有損壓縮哈夫曼編碼算術(shù)編碼游程編碼波形編碼參數(shù)編碼混合編碼(熵編碼)(熵壓縮)PCM(A)DPCMADPCMSB-A
32、DPCMCELPCVSELPPRE-LTPMPEGAC-3用于公共網(wǎng)ISDN配音用于保密電話用于移動通信 用于語音郵件 用于CD 用于音響用于ISDN LPC70音視頻編解碼技術(shù)第70頁音頻壓縮技術(shù)標(biāo)準(zhǔn) 1電話質(zhì)量音頻壓縮編碼技術(shù)標(biāo)準(zhǔn) G.711 :采取非線性量化PCM 編碼,數(shù)據(jù)速率為64kbit/sG.721 :采取ADPCM編碼,速率為32 kbit/s ,G.728 :采取基于短時延碼本激勵線性預(yù)測編碼LD-CELP ,速率為16kbit/s G.729 :采取基于共軛結(jié)構(gòu)代數(shù)碼本激勵線性預(yù)測編碼CS-ACELP ,速率為8kbit/sGSM :采取長時延線性預(yù)測規(guī)則碼本激勵RPE-L
33、TP 編碼,速率為13kbit/s CTIA:采取矢量和激勵線性預(yù)測技術(shù)VSELP ,速率為8kbit/s 71音視頻編解碼技術(shù)第71頁2調(diào)幅廣播質(zhì)量音頻壓縮編碼技術(shù)標(biāo)準(zhǔn) G.722:采取子帶編碼 ,數(shù)據(jù)速率為224kbit/s 3高保真度立體聲音頻壓縮編碼技術(shù)標(biāo)準(zhǔn) MPEG音頻: 采取MPEG-Audio算法,數(shù)據(jù)速率每聲道達(dá)705kbits。它利用了人聽覺生理機能對輸入信號進行快速付里葉變換,將時間域采樣信號變換到頻率域,然后計算功率譜,對于低于聽力閾值采樣值不予編碼,這么大幅度壓縮數(shù)據(jù)量。AC-3:采取子帶編碼,數(shù)據(jù)率為320kbit/s 。AC-3標(biāo)準(zhǔn)通常適合用于數(shù)字電視廣播和HDTV
34、系統(tǒng)音頻數(shù)據(jù)壓縮。 72音視頻編解碼技術(shù)第72頁2.3.2 靜態(tài)圖像壓縮編碼標(biāo)準(zhǔn)JPEG 靜止圖像壓縮編碼標(biāo)準(zhǔn)JPEG是由ISO聯(lián)合圖像教授組(Joint Photographic Expert Group)為單幀彩色圖像壓縮編碼而制訂標(biāo)準(zhǔn),圖像尺寸能夠在165535行/幀,165535像素/行范圍內(nèi)。采取此標(biāo)準(zhǔn)可將每像素24比特彩色圖像壓縮至每像素12比特仍保持很好質(zhì)量。 73音視頻編解碼技術(shù)第73頁JPEG確定圖像壓縮標(biāo)準(zhǔn)目標(biāo)是: 編碼器應(yīng)該可由用戶設(shè)置參數(shù),方便用戶在壓縮比和圖像質(zhì)量之間權(quán)衡折衷 標(biāo)準(zhǔn)可適用任意類連續(xù)色調(diào)數(shù)字靜止圖像,不限制圖像景像內(nèi)容 計算復(fù)雜度適中,只需一定能力CPU
35、就可實現(xiàn),而不要求很高檔計算機,復(fù)雜軟件本身要易于操作 定義了兩種基本壓縮編碼算法和4種編碼模式74音視頻編解碼技術(shù)第74頁JPEG標(biāo)準(zhǔn)主要內(nèi)容標(biāo)準(zhǔn)名稱: 彩色多灰度連續(xù)色調(diào)靜態(tài)圖像壓縮編碼 標(biāo)準(zhǔn)。1采取算法: JPEG采取了混合編碼方法,定義了兩種 基本壓縮算法: 基于DCT并應(yīng)用行程編碼和熵編碼有 失真壓縮算法。 基于空間線性預(yù)測技術(shù)(即DPCM)無 失真壓縮方法。275音視頻編解碼技術(shù)第75頁 其中,有失真壓縮算法又分 基本系統(tǒng) 是一個基于DCT簡化編碼方 法,該系統(tǒng)確保必須功效,可滿足大多 數(shù)應(yīng)用要求。全部JPEG編解碼器都必須 支持基本系統(tǒng)。輸入圖像精度為 8bits/像素/色,支持
36、次序模式,采取Huffman 編碼 擴展系統(tǒng) 是為了滿足更為遼闊應(yīng)用要 求而設(shè)置。增強了數(shù)據(jù)壓縮能力,輸入 圖像精度可達(dá)12bits/像素/色,支持漸進模式, 可采取哈夫曼編碼和算術(shù)編碼。 76音視頻編解碼技術(shù)第76頁JPEG算法編碼模式: JPEG定義了四種編碼模式: DCT次序模式 其基本算法是將圖像分成8 8 塊,然后進行DCT變換、量化和熵編碼(哈 夫曼編碼)。這種模式每個圖像分量編碼一 次掃描完成。 DCT漸進模式 所采取算法與DCT次序模式 相類似,不一樣是需要對圖像進行屢次掃描, 先 傳送部分DCT系數(shù)信息(如低頻帶系數(shù)或全部 系數(shù)近似值),使接收端盡快取得一個“初略” 圖像,然
37、后再將剩下頻帶系數(shù)漸次傳送,最 終形成清楚圖像。377音視頻編解碼技術(shù)第77頁下面是次序模式和漸進模式示意圖次序模式漸進模式78音視頻編解碼技術(shù)第78頁 無失真編碼模式 采取一維或二維空間域 DPCM和熵編碼。因為輸入圖像已經(jīng)是數(shù)字化 ,經(jīng)過空間域DPCM之后,預(yù)測誤差值也 是一個離散量,所以能夠不再量化而實現(xiàn)無失 真編碼。 分層編碼模式 這是對一幅原始圖像空間 分辨率,分成多個分辨率進行“錐形”編碼方 法,水平(垂直)方向分辨率下降 以2倍數(shù)因子改變,先對分辨率最 低一層圖像進行編碼,然后將經(jīng) 過內(nèi)插該層圖像作為下一層圖像 預(yù)測值,再對預(yù)測誤差進行編碼, 以次類推,直到底層。 79音視頻編解
38、碼技術(shù)第79頁JPEG標(biāo)準(zhǔn)壓縮算法 JPEG用基于DPCM壓縮算法來滿足無失真壓縮圖像數(shù)據(jù)特殊應(yīng)用場所,它選擇了簡單線性預(yù)測編碼方法,含有實現(xiàn)輕易,重建圖像質(zhì)量好特點。但壓縮比太低, 大約為 2:11基于DPCM(差分脈沖編碼調(diào)制)無失真編碼:80音視頻編解碼技術(shù)第80頁編碼器簡單原理框圖如圖所表示預(yù)測器熵編碼器表說明無失真編碼器源圖像數(shù)據(jù)壓縮圖像數(shù)據(jù)81音視頻編解碼技術(shù)第81頁 無失真編碼器采取三鄰域采樣值法,由a、b、c預(yù)測x,如圖2.17所表示。用x表示x預(yù)測值,x可由表2.2中任選一個公式,并依據(jù)a、b、c值得到。從x中減去x得到一個差值,再對差值進行無失真熵編碼(可采取哈夫曼或算術(shù)編
39、碼)cbax圖2.17 三鄰域預(yù)測(a+b)/27c3b+(a-c)/2)6b2a+(b-c)/2)5a1a+b-c4非預(yù)測0預(yù)測值x序號 預(yù)測值x序號表2.2 三鄰域預(yù)測公式82音視頻編解碼技術(shù)第82頁基于DCT有失真壓縮編碼 基于DCT編碼過程為:先進行DCT正變換,然后再對DCT系數(shù)進行量化,并對量化后直流(DC)系數(shù)和交流(AC)系數(shù)分別進行差分編碼和行程編碼,最終再進行熵編碼。編碼過程簡化框圖以下:2 DCT 正變換熵編碼器碼表說明無失真編碼器源圖像數(shù)據(jù)壓縮圖像數(shù)據(jù)量化器碼表說明88塊83音視頻編解碼技術(shù)第83頁DCT變換 這是正交變換中傅立葉變換中一個特殊情況,叫作離散余弦變換(
40、Discrete Cosine Transform)。在傅立葉級數(shù)展開式中,假如被展開函數(shù)是實偶函數(shù),那么,其傅立葉級數(shù)中只包含余弦項, 將其離散化就可導(dǎo)出余弦變換。 離散余弦變換原理是:將信號從空間域變換到頻率域,在頻率域中,大部分能量集中在少數(shù)幾個低頻率系數(shù)上,而且代表不一樣空間頻率分量系數(shù)間相關(guān)性大大減弱,只利用幾個能量較大低頻系數(shù)就能夠很好地恢復(fù)原始圖像。84音視頻編解碼技術(shù)第84頁 DCT壓縮編碼分成6個步驟: 切割分塊 首先把原始圖像中單獨彩色圖像 分量(如亮度信號分量、色度信號分量)次序分 割成88 子塊,即輸入分量樣本被組成88 大小數(shù)據(jù)塊。 重采樣并進行正交變換 離散余弦正變
41、換FDCT 可看作一個諧波分析儀,每個88 二維原圖像 采樣數(shù)據(jù)塊,實際上是64點離散信號,它們是空 間二維坐標(biāo)函數(shù),F(xiàn)DCT把它作為輸入,然后 把它分解成64個正交基信號,每個正交基信號對 應(yīng)于64個獨立二維空間頻率中一個。FDCT 輸出是64個基信號幅值,稱作DCT系數(shù), 這64 個DCT系數(shù)中,有一個是直流系數(shù)(DC),其 余63個是交流系數(shù)(AC)。85音視頻編解碼技術(shù)第85頁 量化 量化處理是一個多到一映射,在JPEG 標(biāo)準(zhǔn)中采取線性均勻量化器,量化定義為,對 64個DCT變換系數(shù),除以量化步長,四舍五入 取整得到。這里,量化器步長是量化表元素, 它隨DCT變換系數(shù)位置和每種顏色分量
42、色 調(diào)值不一樣而不一樣。因為人眼對亮度信號比對色 差信號更敏感,所以使用了兩種量化表,即亮 度量步長小于對應(yīng)色度量化步長;另外考慮 到人眼對低頻分量圖像比對高頻分量圖像 更敏感,所以量化表中左上角量化步長比右下 角量化步長小。86音視頻編解碼技術(shù)第86頁JPEG標(biāo)準(zhǔn)中亮度量化參考表 16 11 10 16 24 40 51 61 12 12 14 19 26 58 60 55 14 13 16 24 40 57 69 56 14 17 22 29 51 87 80 62 18 22 37 56 68 109 103 77 24 35 55 64 81 104 113 92 49 64 78 8
43、7 103 121 120 101 72 92 95 98 112 100 103 99 87音視頻編解碼技術(shù)第87頁JPEG標(biāo)準(zhǔn)中色度量化參考表 17 18 24 47 99 99 99 99 18 21 26 66 99 99 99 99 24 26 56 99 99 99 99 99 47 66 99 99 99 99 99 99 99 99 99 99 99 99 99 99 99 99 99 99 99 99 99 99 99 99 99 99 99 99 99 99 99 99 99 99 99 99 99 99 88音視頻編解碼技術(shù)第88頁 量化后處理 量化后DCT系數(shù)要重新 編
44、排,這么做能夠增加連續(xù)“0”系 數(shù)個數(shù),也就是說盡可能增加“0”行 程長度,最好 方法是采取 “Z字蛇行” 矩陣,如右圖, 這么就把88 矩陣變成一 個164矢 量。89音視頻編解碼技術(shù)第89頁 編碼 因為變換后“直流系數(shù)”數(shù)值 較大,且相鄰圖像塊系數(shù)數(shù)值變換不大, 所以使用差分脈沖編碼調(diào)制對直流系數(shù) 進行編碼。而量化AC“交流系數(shù)特 點是164矢量中包含有許多0,且0是連 續(xù),所以使用行程編碼對交流系數(shù)進 行編碼。接著依據(jù)數(shù)據(jù)符號出現(xiàn)概率 高低進行熵編碼,使DPCM編碼后直 流DC系數(shù)和交流系數(shù)深入壓縮。90音視頻編解碼技術(shù)第90頁 組成位數(shù)據(jù)流 這是JPEG編碼最終一 個步驟,即把各種標(biāo)識
45、代碼和圖像編碼 后圖像數(shù)據(jù)組成一幀一幀數(shù)據(jù),以 便于傳輸、存放和譯碼器譯碼。 解碼過程是編碼過程逆過程,解碼過程框圖以下:熵解碼器 DCT逆變換碼表說明解碼器逆量化器碼表說明88塊恢復(fù)圖像數(shù)據(jù)壓縮圖像數(shù)據(jù)91音視頻編解碼技術(shù)第91頁2.3.3 數(shù)字圖像壓縮編碼標(biāo)準(zhǔn)MPEG-1 MPEG-1標(biāo)準(zhǔn)概述 MPEG(Motion Picture Experts Group)標(biāo)準(zhǔn)是ISO/IEC委員會針對全活動視頻壓縮標(biāo)準(zhǔn)系列,包含MPEG-1、MPEG-2、MPEG-4、MPEG-7、MPEG-21等。92音視頻編解碼技術(shù)第92頁MPEG-1:適合用于傳輸速率為1.5Mbps數(shù)字電視標(biāo) 準(zhǔn),91年提出
46、草案,93年8月公布MPEG-2:適合用于傳輸速率為10Mbps 數(shù)字電視標(biāo) 準(zhǔn),93年提出草案,94年11月公布MPEG-3:適合用于傳輸速率為40Mbps 數(shù) 字電視標(biāo) 準(zhǔn),已被MPEG-2取代MPEG-4:1999年12月公布多媒體應(yīng)用標(biāo)準(zhǔn)MPEG-7:多媒體內(nèi)容描述接口標(biāo)準(zhǔn),98年提出, 年完成并公布MPEG-21:正式名稱是Multimedia ramework(多媒體 框架),是為大范圍網(wǎng)絡(luò)上實現(xiàn)透明傳輸 和對多媒體資源充分利用而制訂標(biāo)準(zhǔn)93音視頻編解碼技術(shù)第93頁 MPEG應(yīng)用數(shù)字存放媒體包含:CD-ROM,DAT(數(shù)字錄音帶),Disk(磁盤),CD-R(可寫光盤),通信網(wǎng)絡(luò)如
47、ISDN(綜合業(yè)務(wù)數(shù)字網(wǎng))和LAN(局域網(wǎng))等。視頻壓縮算法必須有與存放相適應(yīng)特征,即能夠隨機訪問、快進/快退、檢索、倒放、音像同時、容錯能力、延時控制小于150ms、可編輯性以及靈活視頻窗口格式等,這些特征就組成了MPEG視頻編碼壓縮算法要求和特點。94音視頻編解碼技術(shù)第94頁MPEG-1標(biāo)準(zhǔn)主要內(nèi)容 MPEG音頻標(biāo)準(zhǔn) 該標(biāo)準(zhǔn)定義了音頻數(shù) 據(jù)編碼和解碼。標(biāo)準(zhǔn)名稱: 用于數(shù)字存放媒體運動圖像及其伴音速率為1.5MBps壓縮編碼,簡稱MPEG-1.1標(biāo)準(zhǔn)組成: MPEG教授組下設(shè)3個委員會:MPEG系統(tǒng)委員會、MPEG視頻委員會和MPEG音頻委員會。這三個委員會分別制訂了三個標(biāo)準(zhǔn),即MPEG系統(tǒng)
48、標(biāo)準(zhǔn)、MPEG視頻標(biāo)準(zhǔn)、MPEG 音頻標(biāo)準(zhǔn)。2 MPEG視頻標(biāo)準(zhǔn) 該標(biāo)準(zhǔn)定義了視頻數(shù) 據(jù)編碼和重建圖像所需解碼過程。 MPEG系統(tǒng)標(biāo)準(zhǔn) 該標(biāo)準(zhǔn)定義了多道壓縮 音頻、視頻碼流同時和合成。95音視頻編解碼技術(shù)第95頁標(biāo)準(zhǔn)支持特征: MPEG算法允許用許多方法去觀看數(shù)字存放體上電視圖像。有許多觀看方法與家庭用錄像機相同 ,但與錄像機相比,MPEG算法支持功效卻強大得多。MPEG電視圖像能夠正向次序播放、慢放和快放,反向順序播放時一樣能夠用正常速度播放、慢放和快放。MPEG支持特征主要有:隨機存取 快速搜索 逆向播放 編輯功效396音視頻編解碼技術(shù)第96頁MPEG-1標(biāo)準(zhǔn)算法基本思想 在設(shè)計動態(tài)圖像編
49、碼算法時,主要矛盾是:一方面僅僅靠幀內(nèi)編碼方法是無法保證在有良好畫面質(zhì)量前提下高壓縮比,其次用單一靜止幀內(nèi)編碼方法又能最好地滿足隨機存取要求,為了同時滿足高壓縮比和隨機存取要求,MPEG推薦標(biāo)準(zhǔn)化算法,必須使用幀間和幀內(nèi)編碼技術(shù)。97音視頻編解碼技術(shù)第97頁 MPEG-1標(biāo)準(zhǔn)推薦算法是以兩個基本技術(shù)為基礎(chǔ),一個是基于1616子塊運動賠償技術(shù),用以降低幀序列時域冗余度;另一個是基于DCT壓縮技術(shù),用以降低空域冗余度,在MPEG-1中,不但幀內(nèi)使用DCT,而且對幀間預(yù)測也使用DCT,以深入降低數(shù)據(jù)量。98音視頻編解碼技術(shù)第98頁MPEG-1視頻壓縮技術(shù) 為了實現(xiàn)隨機存取,最好要用幀內(nèi)編碼。為了把編
50、碼電視圖像位速率限制在1.2Mbps,既要有較高壓縮率,又要取得高質(zhì)量圖像,就要求在幀內(nèi)和幀間編碼之間進行折中。因此,MPEG定義了3種圖像:I圖像(Intra Picture幀內(nèi)圖像)、P圖像(Predicted Picture預(yù)測圖像)和B圖像(Bidirectional Picture雙向預(yù)測圖像。99音視頻編解碼技術(shù)第99頁 經(jīng)典排列如圖下所表示。這三種圖像將采取三種不一樣算法進行壓縮。 圖像組普通由一個I-圖像幀、幾個P-圖像幀和若干個B-圖像幀組成。IBBPBBPBBPBI I-圖像幀(Intra-coded picture):幀內(nèi)編碼圖像幀,簡稱內(nèi)幀。這類圖像幀不參考其它圖像幀而
51、只利用自己圖像信息進行編碼。 P-圖像幀(Predictive-coded picture):預(yù)測編碼圖像幀,簡稱預(yù)測幀。這類圖像幀利用最近前一個I幀或P幀作為參考,采取帶運動賠償幀間預(yù)測進行編碼,此過程稱為前向預(yù)測 B-圖像幀(Bidirectionally predictive-coded picture):雙向預(yù)測編碼圖像幀。這類圖像幀既利用過去圖像幀(I幀或P幀),也利用以后圖像幀(P幀)進行帶運動賠償雙向預(yù)測編碼,此過程稱為雙向預(yù)測 100音視頻編解碼技術(shù)第100頁1幀內(nèi)圖像I壓縮編碼算法 幀內(nèi)圖像I不參考任何過去或者未來其它圖像幀,壓縮編碼采取類似JPEG壓縮算法。 假如電視圖像是
52、用RGB空間表示,則首先把它轉(zhuǎn)換成YUV空間表示圖像。每個圖像平面分成88圖塊,對每個圖塊進行離散余弦變換DCT,DCT變換后經(jīng)過量化交流分量系數(shù)按照“Z字蛇行”形狀排序,然后再用無損壓縮技術(shù)進行編碼。DCT變換后經(jīng)過量化直流分量系數(shù)用差分脈沖編碼DPCM,交流分量系數(shù)用行程編碼RLE,然后再用霍夫曼編碼或者用算術(shù)編碼。 101音視頻編解碼技術(shù)第101頁2預(yù)測圖像P壓縮編碼算法 P圖像是用前面最近一個I圖像(或P圖像)預(yù)測編碼得到(前向預(yù)測),為了降低動態(tài)圖像時間冗余,這里采取了運動賠償預(yù)測編碼。 基于塊運動賠償技術(shù),就是在其參考幀中尋找符合一定條件,與當(dāng)前被預(yù)測塊匹配最正確塊。找到匹配塊后,
53、對預(yù)測誤差采取ADCT技術(shù)編碼,在恢復(fù)被預(yù)測塊時,用匹配塊加上預(yù)測誤差即可。 預(yù)測圖像編碼是以圖像宏塊(macroblock)為基本編碼單元 , 一個宏塊普通定義為1616像素圖像塊。 預(yù)測圖像P使用兩種類型參數(shù)來表示:一個參數(shù)是當(dāng)前要編碼圖像宏塊與參考圖像宏塊之間差值,另一個參數(shù)是宏塊移動矢量。102音視頻編解碼技術(shù)第102頁 最正確匹配塊及移動矢量概念可借助下列圖說明時刻1時刻2最正確匹配塊移動矢量103音視頻編解碼技術(shù)第103頁預(yù)測圖像P壓縮編碼算法框圖參考圖像編碼圖像MPIMRJ移動矢量d(dx,dy)求差值YUVDCT+量化+RLE霍夫曼編碼編碼104音視頻編解碼技術(shù)第104頁 假設(shè)
54、編碼圖像宏塊MPI是參考圖像宏塊MRJ最正確匹配塊,它們差值就是這兩個宏塊中對應(yīng)像素值之差。對所求得差值進行彩色空間轉(zhuǎn)換,并作4:2:0子采樣得到Y(jié)、U和V分量值,然后仿照J(rèn)PEG壓縮算法對差值進行編碼,計算出移動矢量也要進行霍夫曼編碼。 可見,預(yù)測圖像P編碼實際上就是尋找最正確匹配圖像宏塊,找到最正確宏塊之后就找到了最正確移動矢量d(dx,dy),在整個MPEG圖像壓縮過程中,尋找最正確匹配宏塊要占據(jù)相當(dāng)多計算時間匹配得越好,重構(gòu)圖像質(zhì)量越高。105音視頻編解碼技術(shù)第105頁3雙向預(yù)測圖像B壓縮編碼算法 雙向預(yù)測圖像B壓縮編碼框圖如右圖所表示。詳細(xì)計算方法與預(yù)測圖像P算法類似,這里不再重復(fù)。
55、 雙向預(yù)測圖像B在預(yù)測時,既可使用了前一個圖像作參考,也可使用下一個圖像做參考或同時使用前后兩個圖像作為參考圖像(雙向預(yù)測)。106音視頻編解碼技術(shù)第106頁 MPEG編碼器算法允許選擇I圖像頻率和位置。I圖像頻率是指每秒鐘出現(xiàn)I圖像次數(shù),位置是指時間方向上幀所在位置。普通情況下,I圖像頻率為2。MPEG編碼器也允許在一對I圖像或者P圖像之間選擇B圖像數(shù)目。I圖像、P圖像和B圖像數(shù)目標(biāo)選擇依據(jù)主要是節(jié)目標(biāo)內(nèi)容。比如,對于快速運動圖像,I圖像頻率能夠選擇高一些,B圖像數(shù)目能夠選擇少一點;對于慢速運動圖像I圖像頻率能夠低一點,而B圖像數(shù)目能夠選擇多一點。另外,在實際應(yīng)用中還要考慮媒體速率。 107
56、音視頻編解碼技術(shù)第107頁 經(jīng)典I、P、B幀次序安排如圖 MPEG編碼器需對上述圖像重新排序, 方便解碼器高效工作, 因為參考圖像必須先于B圖像恢復(fù)之前恢復(fù)。上述17幀圖像重排后圖像組次序為:4213756IPBBPBB108音視頻編解碼技術(shù)第108頁圖像壓縮編碼與解碼過程1編碼過程 幀改組動作預(yù)測DCTQ量化器VLCQ1IDCT多路混合緩沖器調(diào)整器幀存放器編碼模式動態(tài)向量預(yù)估畫面塊原理畫面塊視頻輸入編碼輸出比較運算圖2.30 MPEG-1視頻編碼器結(jié)構(gòu)示意圖109音視頻編解碼技術(shù)第109頁 當(dāng)一系列視頻圖像輸入時,其中場景相同幾幅畫面前后相接組成了圖像組。當(dāng)一圖像組第一幀輸入到編碼器時,編碼
57、器即對其進行幀改組:首先將其分割成許多圖像條,圖像條高度為16像素;再將圖像條分割成16像素寬段,從而組成1616宏塊;每個宏塊又分成4個88塊,這些88塊即是壓縮處理最小單位。 110音視頻編解碼技術(shù)第110頁 對于塊處理過程就是前面所描述過程,即DCT、量化、Z形掃描和VLC編碼(可變長編碼,如游程碼、哈夫曼編碼) 。當(dāng)?shù)谝粔K處理完后,以一樣過程處理第二塊、第三塊和第四塊,這么就完成了第一宏塊處理。接下來依次處理其它宏塊,直至一幀乃至一個圖像組。111音視頻編解碼技術(shù)第111頁 當(dāng)?shù)谝粠幋a完成后,編碼器將其數(shù)據(jù)進行存放和傳送,這就是I幀。緊接著第二幀輸入,并以一樣過程和方法對其進行處理,
58、但編碼器并非將第二幀完整數(shù)據(jù)進行存放和傳送,而是將它與第一幀進行比較運算。 若比較結(jié)果差異很小,表明第二幀相對第一幀改變不大,則只需將差值部分存放,從而舍棄了大部分?jǐn)?shù)據(jù)。按此方法對其后幀進行處理,直到找到某一幀與第一幀差異超出要求值,則將此幀與第一幀差異(包含位移量和差值)存放起來,并將此幀排列在第一幀后傳送出去,這就是P幀。112音視頻編解碼技術(shù)第112頁 在傳送了I、P幀后,再將第二、三幀差異傳送出去,這些處于I、P之間改變不大幀就是B幀。以這類推,不停選出P和B幀。每隔13或15幀后或者是當(dāng)場景變更,形成一幅與前不一樣新畫面時,再設(shè)置一個I幀。兩個I幀間播放時間為0.5秒。113音視頻編
59、解碼技術(shù)第113頁 塊經(jīng)比較運算器送入DCT單元,若為第一幀第一塊,則無反饋信號,經(jīng)DCT形成64個系數(shù)數(shù)據(jù),經(jīng)量化器并參考存于編碼器中64位量化表,得到64個量化數(shù)據(jù),經(jīng)VLC送入混合器,再經(jīng)緩沖輸出。 緩沖器是圖像數(shù)據(jù)經(jīng)壓縮后編碼暫存處。在控制指令指揮下,將圖像編碼數(shù)據(jù)按I,P,B次序輸出。調(diào)整器不停檢測緩沖器充盈度,依據(jù)緩沖器滿或空情況,調(diào)整量化器量化步長,從而調(diào)整碼率,進而完成防溢防空反饋控制。114音視頻編解碼技術(shù)第114頁 反饋回路是用作預(yù)測圖像產(chǎn)生和圖像分類處理參考比較信號通路。反饋數(shù)據(jù)經(jīng)Q1和IDCT還原成壓縮前圖像信息,存入幀存放器,作為以后各幀處理時比較數(shù)據(jù)。當(dāng)下一幀輸入時
60、,從幀存放器中取出上一幀數(shù)據(jù),并送到比較器,與當(dāng)前幀進行比較,以區(qū)分I、P、B各種圖像幀類型。 動作預(yù)測器設(shè)有圖像存放功效,它不停將前后兩圖像幀進行差值檢測,形成運動向量,并依據(jù)兩幀差異大小輸出I、P、B各類編碼模式控制信號。115音視頻編解碼技術(shù)第115頁 運動向量和編碼模式一方面送入幀存儲器,與存儲信息共同產(chǎn)生預(yù)測畫面信息,用于與當(dāng)前畫面比較。若預(yù)測畫面與當(dāng)前畫面一致,則比較器無輸出,DCT則無變換任務(wù),所以無數(shù)據(jù)進入緩沖器,這樣便提高了編碼率,加大了壓縮比。其次,它直接送到多路混合器,與壓縮數(shù)據(jù)一起送入緩沖器,作為運動賠償向量數(shù)據(jù)編碼輸出,供解碼時參考合成運動預(yù)測圖像,同時也經(jīng)過編碼模式
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 藥劑師證考試試題及答案
- 高速執(zhí)法隊面試題及答案
- 換熱器檢驗試題及答案
- 消費技能考試題及答案
- 鋼筋知識考試題及答案
- 橋梁坍塌面試題及答案
- 《數(shù)與形②》學(xué)習(xí)與鞏固
- 全國2009年10月自考《教育學(xué)原理00469》試題及答案
- 2025年空中金融面試題目及答案
- 2025年商業(yè)技能考試題庫
- 農(nóng)村窯洞買賣合同范例
- 硬筆書法田字格米字格19種打印版
- 2024-2025學(xué)年廣東省佛山一中高二(上)第一次質(zhì)檢數(shù)學(xué)試卷(10月份)(含答案)
- 腦出血課件完整版本
- 教育部高中化學(xué)教學(xué)儀器設(shè)備配備標(biāo)準(zhǔn)
- 倉庫貨物存儲標(biāo)準(zhǔn)規(guī)范
- 北京四中新高一分班考試數(shù)學(xué)試卷及答案
- 安全生產(chǎn)責(zé)任保險事故預(yù)防技術(shù)服務(wù)規(guī)范
- 水泵拆除及安裝施工方案
- 員工勞務(wù)合同書
- 蘇教版(譯林版)八年級英語單詞表(上冊)
評論
0/150
提交評論