




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
2第4章信源編碼原理了解人耳的聽覺感知特性,理解聽覺閾值、臨界頻帶、聽覺掩蔽效應(yīng)的概念。掌握感知音頻編碼的基本原理,透徹理解子帶編碼的基本思想。了解圖像和視頻編碼技術(shù)的發(fā)展歷程,熟悉視頻編碼的各種方法。重點掌握Huffman編碼、算術(shù)編碼、預(yù)測編碼和DCT變換編碼的基本原理。掌握運動估計和運動補償預(yù)測編碼的基本原理。本章學(xué)習(xí)目標(biāo)4.1數(shù)字音頻編碼的基本原理4.2數(shù)字視頻編碼概述4.3熵編碼4.4預(yù)測編碼4.5變換編碼第4章信源編碼原理
例:計算1分鐘雙聲道、16bit量化精度、44.1kHz采樣頻率聲音的不壓縮的數(shù)據(jù)量是多少?1秒鐘聲音文件的數(shù)據(jù)量(不壓縮):4.1.1數(shù)字音頻壓縮的必要性和可能性4.1數(shù)字音頻編碼的基本原理從信息保持的角度講,只有當(dāng)信源本身具有冗余度,才能對其進(jìn)行壓縮。信號一部分可由另一部分重建或可用另外表達(dá)形式簡單說明,稱為信號有冗余。音頻信號存在著多種形式的冗余。時域冗余頻域冗余聽覺冗余去除冗余實現(xiàn)壓縮編碼。4.1數(shù)字音頻編碼的基本原理音頻信號的時域冗余幅度分布的非均勻性小幅度樣本出現(xiàn)的頻率高樣值之間的相關(guān)性當(dāng)采樣頻率為8kHz時,相鄰樣本間的相關(guān)系數(shù)大于0.85;周期之間的相關(guān)性在特定瞬間,某段聲音往往只是總頻帶300~3400Hz的少數(shù)幾個頻率分量在起作用象某些振蕩波一樣,在周期與周期之間存在一定的相關(guān)性基音之間的相關(guān)性男聲基音周期為5~20ms,而典型的濁音持續(xù)100ms靜止系數(shù)(話音間隙)全雙工話路的典型效率約為40%(靜止系數(shù)為0.6)長時自相關(guān)性如幾十秒內(nèi)的相關(guān)性‘1’‘2’例:語音信號的時域冗余基音周期(音調(diào)周期)一個單音‘1’例:語音信號的時域冗余從頻域考察音頻信號的功率譜密度:非均勻的長時間功率譜密度長時間功率譜呈現(xiàn)強烈的非平坦性,高頻能量較低時域上相鄰樣本相關(guān)。語音特有的短時功率譜密度語音的短時功率譜,在某些頻率出現(xiàn)峰值(該頻率稱為共振峰頻率),在另外一些頻率上出現(xiàn)谷值。出現(xiàn)共振峰的頻率不止一個,最主要的是前兩個,決定了不同的語音特征。整個譜也隨頻率增加而遞減。功率譜的細(xì)節(jié)以基音頻率為基礎(chǔ),形成高次諧波結(jié)構(gòu)。音頻信號的頻域冗余音頻信號的短時功率譜濁音清音音頻信號的頻域冗余人耳的聽覺感知機理人耳的聽覺具有掩蔽效應(yīng)(MaskingEffect),利用掩蔽效應(yīng)來掩蓋量化失真人耳對音頻信號的幅度、頻率的分辨能力是有限的人耳對不同頻段聲音的敏感程度不同,通常對低頻比對高頻更敏感人耳對語音信號的相位不敏感凡是人耳感覺不到的成分,即對人耳辨別聲音的強度、音調(diào)、方位沒有貢獻(xiàn)的成分,稱為與聽覺無關(guān)的“不相關(guān)”
(Irrelevance)部分,都可視為是冗余的,可以將它們壓縮掉。音頻信號的聽覺冗余數(shù)字音頻壓縮編碼的目的
數(shù)字音頻壓縮編碼的目的,是在保證重構(gòu)聲音質(zhì)量一定的前提下,以盡量少的比特數(shù)來表征音頻信息,或者是在給定的數(shù)碼率下,使得解碼恢復(fù)出的重構(gòu)聲音的質(zhì)量盡可能高。4.1數(shù)字音頻編碼的基本原理4.1.2人耳的聽覺感知特性人耳對不同強度、不同頻率聲音的聽覺范圍稱為可聽域。在人耳的可聽域范圍內(nèi),聲音聽覺心理的主觀感受主要有響度、音調(diào)、音色等特征和掩蔽效應(yīng)、高頻定位等特性。響度:與聲波振動的幅度有關(guān)音調(diào):取決于聲波的基音頻率音色:由聲波的的頻譜成分決定人耳的掩蔽效應(yīng)是心理聲學(xué)的基礎(chǔ),是感知音頻編碼的理論依據(jù)。4.1數(shù)字音頻編碼的基本原理對于空氣介質(zhì),當(dāng)沒有聲波時,空氣處在平衡狀態(tài),其靜壓強一般等于大氣壓。當(dāng)有聲波傳播時,介質(zhì)各部分能產(chǎn)生壓縮和膨脹的周期性變化。壓縮時壓強增加,大于靜壓強,這時壓強差為正;膨脹時壓強減小,小于靜壓強,這時壓強差為負(fù)。聲壓4.1.2人耳的聽覺感知特性聲壓是指聲波傳播時介質(zhì)中心的壓強與無聲波傳播時的靜壓強之差。一般用P表示,單位是帕(Pa)。聲壓的大小反映了聲音振動的強弱,同時也決定了聲波的幅度大小。聲壓與大氣壓相比是極其微弱的,正常人能聽到的最弱聲音約為2×10-5Pa,稱為參考聲壓。聲壓4.1.2人耳的聽覺感知特性聲壓4.1.2人耳的聽覺感知特性人耳主觀感受的響度并不是正比于聲壓的絕對值,而是大體上正比于聲壓的對數(shù)值。在聲學(xué)中還用聲壓級(或聲強)來描述聲波的強弱。聲壓級用符號SPL表示,單位為dB(分貝),定義如下:
式中,P為聲壓有效值;Pref為參考聲壓,一般取Pa,這個數(shù)值是人耳所能聽到的1kHz聲音的最低聲壓值,低于這一聲壓,人耳就無法覺察出聲波的存在了。聲壓級
4.1.2人耳的聽覺感知特性響度:是人耳對聲音強弱的主觀感覺程度。在客觀的度量中,聲音的強弱是由聲波的振幅(聲壓)決定的。但響度與聲波的振幅并不完全一致。響度不僅取決于振幅的大小,還取決于頻率的高低。響度用符號N表示,單位是宋(sone)。國際上規(guī)定,頻率為1kHz的純音在聲壓級為40dB時的響度為1宋(sone)。大量統(tǒng)計表明,一般人耳對聲壓的變化感覺是,聲壓級每增加10dB,響度增加1倍,所以,響度與聲壓級有如下關(guān)系:4.1.2人耳的聽覺感知特性響度級:人耳對聲音強弱的主觀感覺還可以用響度級來表示。響度級的單位為方(phon)。響度/sone1248163264128256聲壓級/dB405060708090100110120響度級/phon405060708090100110120聲壓級與響度、響度級的關(guān)系規(guī)定1kHz純音聲壓級的分貝數(shù)定義為響度級的數(shù)值。響度級為40方時,響度為1宋,響度級每增加10方,響度增加1倍。4.1.2人耳的聽覺感知特性由于響度是指人耳對聲音強弱的一種主觀感覺,因此,當(dāng)聽到其他任何頻率的純音同聲壓級為40dB的1kHz的純音一樣響時,雖然其他頻率的聲壓級不是40dB,但也定義為40phon。
等響度曲線4.1.2人耳的聽覺感知特性聽閾與痛閾聽閾:當(dāng)聲音減弱到人耳剛剛可以聽見時,此時的聲音強度稱為最小可聽閾值,簡稱為“聽閾”或“聞閾”。一般以1kHz純音為準(zhǔn)進(jìn)行測量,人耳剛能聽到的聲壓級為0dB(通常大于0.3dB即有感受)。痛閾:當(dāng)聲音增強到使人耳感到疼痛時,這個聽覺閾值稱為“痛閾”。仍以1kHz純音為準(zhǔn)來進(jìn)行測量,使人耳感到疼痛時的聲壓級約達(dá)到130~140dB左右。4.1.2人耳的聽覺感知特性人耳的可聽域4.1.2人耳的聽覺感知特性一個較強聲音(掩蔽音)的存在掩蔽了另一個較弱聲音(被掩蔽音)的現(xiàn)象。掩蔽程度與兩個聲音的相關(guān)性有密切聯(lián)系。分為頻域掩蔽效應(yīng)和時域掩蔽效應(yīng)。較弱的聽不見的聲音可以舍棄!而不必進(jìn)行編碼,這是數(shù)字音頻壓縮編碼的生理基礎(chǔ)之一。4.1.2人耳的聽覺感知特性聽覺掩蔽效應(yīng)
被掩蔽音單獨存在時的聽閾分貝值,或者說在安靜環(huán)境中能被人耳聽到的純音的最小值稱為絕對聽閾。在掩蔽情況下,提高被掩蔽音的強度,使人耳能夠聽見時的聽閾稱為掩蔽閾值(或稱掩蔽門限),被掩蔽音必須提高的分貝值稱為掩蔽量(或稱閾移)。
4.1.2人耳的聽覺感知特性聽覺掩蔽效應(yīng)
同時發(fā)出的兩個聲音,一個較弱的信號被另一個相近頻率的較強信號的聲音所掩蔽。又稱同時掩蔽。兩個聲音頻率相同時,掩蔽效應(yīng)最明顯在高頻端,隨著兩者頻率偏離,掩蔽效果緩慢減弱在低頻端,隨著兩者頻率偏離,掩蔽效應(yīng)急劇減小4.1.2人耳的聽覺感知特性頻域掩蔽頻域掩蔽示意圖
4.1.2人耳的聽覺感知特性在時間上相鄰的聲音之間存在的掩蔽現(xiàn)象。也稱異時掩蔽。前掩蔽:掩蔽效應(yīng)發(fā)生在掩蔽音開始之前的某段時間后掩蔽:掩蔽效應(yīng)發(fā)生在掩蔽音結(jié)束之后的某段時間4.1.2人耳的聽覺感知特性時域掩蔽感知編碼(PerceptualCoding)是利用人耳聽覺的心理聲學(xué)特性(包括頻域掩蔽和時域掩蔽),人耳對音頻信號的幅度、頻率和時間的分辨能力是有限的,凡是人耳感覺不到的成分都不進(jìn)行編碼和傳送;對感覺到的部分進(jìn)行編碼時,也允許有較大的量化失真,只要這個失真是在人耳感覺不到的聽域以下即可。感知編碼是建立在人類聽覺系統(tǒng)的心理聲學(xué)基礎(chǔ)上的,只記錄那些能夠被人耳感覺到的聲音,從而達(dá)到壓縮數(shù)據(jù)量的目的。感知編碼的理論基礎(chǔ)是基于人耳的可聽域、臨界頻帶和掩蔽效應(yīng)。
4.1.3音頻感知編碼原理音頻感知編碼器的基本結(jié)構(gòu)
4.1.3音頻感知編碼原理PCM,DPCM都是不對輸入信號頻帶做任何分割的前提下,在時域中進(jìn)行的處理,這類編碼方式稱為整帶時域編碼。子帶編碼首先使用帶通濾波器組將輸入信號分割成幾個不同的子帶信號,再對這些子帶信號分別進(jìn)行頻譜平移,然后分別對每個子帶中的音頻信號采用單獨的量化、編碼方案(可用PCM、APCM和ADPCM等)。這類編碼方式稱為頻域編碼。4.1.3音頻感知編碼原理子帶編碼(SBC)子帶編碼原理4.1.3音頻感知編碼原理4.1.3音頻感知編碼原理子帶編碼原理如果對不同的子帶合理分配比特數(shù),就可能分別控制各子帶的量化電平數(shù)目以及相應(yīng)的重建信號的量化誤差,使誤差譜的形狀適應(yīng)人耳聽覺特性,得到更好的主觀聽覺質(zhì)量。由于語音的基音和共振峰主要集中在低頻段,所以對低頻段采用較多的比特數(shù)來表示樣值,而高頻段則采用較少的比特數(shù)。各個子帶內(nèi)的量化噪聲相互獨立,可以避免輸入電平較低的子帶信號被其他子帶的量化噪聲所淹沒。4.1.3音頻感知編碼原理子帶編碼的主要優(yōu)點
1976年子帶編碼技術(shù)首次被美國貝爾實驗室的R.E.Crochiere等人應(yīng)用于話音編碼。
MUSICAM(MaskingpatternadaptedUniversalSubbandIntegratedCodingAndMultiplexing,掩蔽型自適應(yīng)通用子帶綜合編碼和復(fù)用)編碼方案,已被MPEG采納作為寬帶、高質(zhì)量的音頻壓縮編碼標(biāo)準(zhǔn)。4.1.3音頻感知編碼原理4.1數(shù)字音頻編碼的基本原理4.2數(shù)字視頻編碼概述4.3熵編碼4.4預(yù)測編碼4.5變換編碼第4章信源編碼原理4.2.1數(shù)字視頻壓縮的必要性和可能性數(shù)據(jù)壓縮的理論基礎(chǔ)是信息論。從信息論的角度來看,壓縮就是去掉數(shù)據(jù)中的冗余,即保留不確定的信息,去掉確定的信息(可推知的),也就是用一種更接近信息本質(zhì)的描述來代替原有冗余的描述。在一般的圖像和視頻數(shù)據(jù)中,主要存在以下幾種形式的冗余??臻g冗余:也稱為空域冗余,是一種與像素間相關(guān)性直接聯(lián)系的數(shù)據(jù)冗余。
例:圖像中包含許多規(guī)則物體,它們的亮度、飽和度及顏色可能都一樣,因此,圖像在空間上具有很強的相關(guān)性。例如Lenna圖像的臉部和肩部。4.2.1數(shù)字視頻壓縮的必要性和可能性時間冗余:也稱為時域冗余,它是針對視頻序列圖像而言的。
視頻序列每秒有25~30幀圖像,相鄰幀之間的時間間隔很小;同時實際生活中的運動物體具有運動一致性,使得視頻序列圖像之間有很強的相關(guān)性。
4.2.1數(shù)字視頻壓縮的必要性和可能性t+1t時間冗余空間冗余4.2.1數(shù)字視頻壓縮的必要性和可能性統(tǒng)計冗余
信源熵:如果將信源所有可能事件的信息量進(jìn)行平均,就得到了信源熵(entropy)。熵就是平均信息量。
當(dāng)xj等概率時,H(X)最大。當(dāng)xj
非等概率時,H(X)不是最大,就存在冗余。
采用可變長編碼技術(shù),對出現(xiàn)概率大的符號用短碼字表示,對出現(xiàn)概率小的符號用長碼字表示,則可去除符號冗余,從而節(jié)約碼字,這就是熵編碼的思想。4.2.1數(shù)字視頻壓縮的必要性和可能性結(jié)構(gòu)冗余:在有些圖像的部分區(qū)域內(nèi)有著很相似的紋理結(jié)構(gòu),或是圖像的各個部分之間存在著某種關(guān)系,例如自相似性等,這些都是結(jié)構(gòu)冗余的表現(xiàn)。
分形圖像編碼的基本思想就是利用了結(jié)構(gòu)的自相似性。4.2.1數(shù)字視頻壓縮的必要性和可能性分形圖像4.2.1數(shù)字視頻壓縮的必要性和可能性知識冗余:在某些特定的應(yīng)用場合,編碼對象中包含的信息與某些先驗的基本知識有關(guān)。例如:人臉的圖像有同樣的結(jié)構(gòu):嘴的上方有鼻子,鼻子上方有眼睛,鼻子在中線上……
可以利用這些先驗知識為編碼對象建立模型。通過提取模型參數(shù),對參數(shù)進(jìn)行編碼而不是對圖像像素值直接進(jìn)行編碼,可以達(dá)到非常高的壓縮比。這是模型基編碼(或稱知識基編碼、語義基編碼)的基本思想。4.2.1數(shù)字視頻壓縮的必要性和可能性人眼的視覺冗余
視覺冗余度是相對于人眼的視覺特性而言的。壓縮視覺冗余的核心思想是去掉那些相對人眼而言是看不到的或可有可無的圖像數(shù)據(jù)。對視覺冗余的壓縮通常反映在各種具體的壓縮編碼過程中。4.2.1數(shù)字視頻壓縮的必要性和可能性1948年提出電視信號的數(shù)字化,人們開始了對圖像壓縮編碼的研究工作。1952年哈夫曼給出最優(yōu)變長碼的構(gòu)造方法。4.2.2數(shù)字視頻編碼技術(shù)的進(jìn)展預(yù)測編碼1952年,貝爾實驗室的奧利弗等人開始研究線性預(yù)測編碼理論1958年,格雷哈姆用計算機模擬法研究圖像的DPCM方法1966年,奧尼爾通過理論分析和計算模擬比較了PCM和DPCM對電視信號進(jìn)行編碼傳輸?shù)男阅?0世紀(jì)70年代開始進(jìn)行了幀間預(yù)測編碼的研究20世紀(jì)80年代初開始對作運動補償預(yù)測所用的運動估值進(jìn)行研究4.2.2數(shù)字視頻編碼技術(shù)的進(jìn)展變換編碼首先討論了包括K-L(Karhunen-Loeve)變換、傅立葉變換等正交變換1968年安德魯斯等人采用二維離散傅立葉變換(2D-DFT)提出了變換編碼此后相繼出現(xiàn)了沃爾什-哈達(dá)瑪(Walsh-Hadamard)變換、斜(Slant)變換、K-L變換、離散余弦變換(DCT)等4.2.2數(shù)字視頻編碼技術(shù)的進(jìn)展子帶編碼1976年美國貝爾系統(tǒng)的克勞切等人提出了話音的子帶編碼。1985年奧尼爾將子帶編碼引入到圖像編碼。4.2.2數(shù)字視頻編碼技術(shù)的進(jìn)展算術(shù)編碼1960年,P.Elias提出了算術(shù)編碼的概念。1976年,R.Pasco和J.Rissanen分別用定長的寄存器實現(xiàn)了有限精度的算術(shù)編碼。1979年Rissanen和G.G.Langdon一起將算術(shù)編碼系統(tǒng)化,并于1981年實現(xiàn)了二進(jìn)制編碼。1987年Witten等人發(fā)表了一個實用的算術(shù)編碼程序,即CACM87(后被ITU-T的H.263視頻壓縮標(biāo)準(zhǔn)采用)。同期,IBM公司發(fā)表了著名的Q-編碼器(后被JPEG建議的擴展系統(tǒng)和JBIG二值圖像壓縮標(biāo)準(zhǔn)采用)。4.2.2數(shù)字視頻編碼技術(shù)的進(jìn)展基于模型編碼1983年瑞典的Forchheimer和Fahlander提出了基于模型編碼(Model-BasedCoding)的思想。4.2.2數(shù)字視頻編碼技術(shù)的進(jìn)展小波變換編碼1986年,Meyer在理論上證明了一維小波函數(shù)的存在。1987年Mallat提出了多尺度分析的思想及多分辨率分析的概念,提出了相應(yīng)的快速小波算法——Mallat算法,并把它有效地應(yīng)用于圖像分解和重構(gòu)。1989年,小波變換開始用于多分辨率圖像描述。4.2.2數(shù)字視頻編碼技術(shù)的進(jìn)展分層可分級編碼20世紀(jì)90年代中后期,Internet迅猛發(fā)展,移動通信也迅速在全球普及,因此人們開始有了在網(wǎng)絡(luò)上傳輸視頻和圖像的愿望。在網(wǎng)絡(luò)上傳輸視頻和圖像等多媒體信息除了要解決誤碼問題之外,最大的挑戰(zhàn)在于用戶可以獲得的帶寬在不停地變化。為了適應(yīng)網(wǎng)絡(luò)帶寬的變化,提出了分層(layered)、可分級(scalable)編碼的思想。4.2.2數(shù)字視頻編碼技術(shù)的進(jìn)展1950差分預(yù)測編碼調(diào)制隔行編碼B幀P幀場景自適應(yīng)編碼塊運動估計DCT
宏塊混合編碼哈夫曼編碼變換編碼運動矢量預(yù)測視頻對象基于對象的可分級編碼容錯一般的B幀高級的去塊效應(yīng)慮波基于位平面的可伸縮編碼高精度運動補償基于上下文的算術(shù)編碼2014多視點編碼分布式編碼1999~1985專利可免費使用專利可免費使用4.2.2數(shù)字視頻編碼技術(shù)的進(jìn)展壓縮編碼技術(shù)無損編碼有損編碼哈夫曼編碼游程編碼算術(shù)編碼有損預(yù)測編碼
變換編碼
其他編碼4.2.2數(shù)字視頻編碼技術(shù)的進(jìn)展無失真編碼
無失真編碼又稱無損編碼、信息保持編碼、熵編碼。熵編碼是純粹基于信號統(tǒng)計特性的一種編碼方法,它利用信源概率分布的不均勻性,通過變長編碼來減少信源數(shù)據(jù)冗余,解碼后還原的數(shù)據(jù)與壓縮編碼前的原始數(shù)據(jù)完全相同而不引入任何失真。
無失真編碼的壓縮比較低,可達(dá)到的最高壓縮比受到信源熵的理論限制,一般為2∶1到5∶1。最常用的無失真編碼方法有哈夫曼(Huffman)編碼、算術(shù)編碼和游程編碼(Run-LengthEncoding,RLE)等。4.2.2數(shù)字視頻編碼技術(shù)的進(jìn)展限失真編碼
限失真編碼也稱有損編碼、非信息保持編碼、熵壓縮編碼。
限失真編碼方法利用了人類視覺的感知特性,允許壓縮過程中損失一部分信息,雖然在解碼時不能完全恢復(fù)原始數(shù)據(jù),但是如果把失真控制在視覺閾值以下或控制在可容忍的限度內(nèi),則不影響人們對圖像的理解,卻換來了高壓縮比。在限失真編碼中,允許的失真愈大,則可達(dá)到的壓縮比愈高。
常見的限失真編碼方法有:預(yù)測編碼、變換編碼、矢量量化、基于模型的編碼等。4.2.2數(shù)字視頻編碼技術(shù)的進(jìn)展4.1數(shù)字音頻編碼的基本原理4.2數(shù)字視頻編碼概述4.3熵編碼4.4預(yù)測編碼4.5變換編碼第4章信源編碼原理4.3熵編碼
熵編碼的基本原理就是去除圖像信源在空間和時間上的相關(guān)性,去除圖像信源像素值的概率分布不均勻性,使編碼碼字的平均碼長接近信源的熵而不產(chǎn)生失真。由于這種編碼完全基于圖像的統(tǒng)計特性,因此,有時也稱其為統(tǒng)計編碼。哈夫曼(Huffman)編碼算術(shù)編碼游程編碼(Run-LengthEncoding,RLE)
哈夫曼(Huffman)于1952年提出一種編碼方法,完全依據(jù)符號出現(xiàn)概率來構(gòu)造異字頭(前綴)的平均長度最短的碼字,有時稱之為最佳編碼。哈夫曼編碼是一種可變長度編碼(VariableLengthCoding,VLC),各符號與碼字一一對應(yīng),是一種分組碼。4.3.1哈夫曼編碼
Huffman編碼過程(1)
把信源符號按概率大小順序排列,并設(shè)法按逆次序分配碼字的長度。在分配碼字的長度時,首先將出現(xiàn)概率最小的兩個符號的概率相加,合成一個概率;第二步把這個合成概率看成是一個新組合符號的概率,重復(fù)上述操作,直到最后只剩下兩個符號的概率為止。4.3.1哈夫曼編碼
完成以上概率相加順序排列后,再反過來逐步向前進(jìn)行編碼,每一步有兩個分支,各賦予一個二進(jìn)制碼,可以對概率大的編碼賦予0,概率小的編碼賦予1。反之,也可以對概率大的編碼賦予1,概率小的編碼賦予0。
Huffman編碼過程(2)4.3.1哈夫曼編碼
Huffman編碼舉例編碼過程cbafe7/225/224/222/2210f=01e=11a=10b=001c=0001d=0000d1/223/226/2222/2213/229/223/2210101010aaaa
bbb
cc
d
eeeee
fffffff輸入S1S2S3S4S5S6輸入概率0.40.30.10.10.060.04
Huffman編碼舉例輸入S1S2S3S4S5S6輸入概率0.40.30.10.10.060.04第一步0.40.30.10.10.1
Huffman編碼舉例輸入S1S2S3S4S5S6輸入概率0.40.30.10.10.060.04第一步0.40.30.10.10.1第二步0.40.30.20.1
Huffman編碼舉例輸入S1S2S3S4S5S6輸入概率0.40.30.10.10.060.04第一步0.40.30.10.10.1第二步0.40.30.20.1第三步0.40.30.3
Huffman編碼舉例輸入S1S2S3S4S5S6輸入概率0.40.30.10.10.060.04第一步0.40.30.10.10.1第二步0.40.30.20.1第三步0.40.30.3第四步0.60.4
Huffman編碼舉例輸入S1S2S3S4S5S6輸入概率0.40.30.10.10.060.04第一步0.40.30.10.10.1第二步0.40.30.20.1第三步0.40.30.3第四步0.60.40101010101
Huffman編碼舉例輸入S1S2S3S4S5S6輸入概率0.40.30.10.10.060.04第一步0.40.30.10.10.1第二步0.40.30.20.1第三步0.40.30.3第四步0.60.40101010101S1=1
Huffman編碼舉例輸入S1S2S3S4S5S6輸入概率0.40.30.10.10.060.04第一步0.40.30.10.10.1第二步0.40.30.20.1第三步0.40.30.3第四步0.60.40101010101S2=00
Huffman編碼舉例輸入S1S2S3S4S5S6輸入概率0.40.30.10.10.060.04第一步0.40.30.10.10.1第二步0.40.30.20.1第三步0.40.30.3第四步0.60.40101010101S3=011
Huffman編碼舉例輸入S1S2S3S4S5S6輸入概率0.40.30.10.10.060.04第一步0.40.30.10.10.1第二步0.40.30.20.1第三步0.40.30.3第四步0.60.40101010101S4=0100
Huffman編碼舉例輸入S1S2S3S4S5S6輸入概率0.40.30.10.10.060.04第一步0.40.30.10.10.1第二步0.40.30.20.1第三步0.40.30.3第四步0.60.40101010101S5=01010
Huffman編碼舉例輸入S1S2S3S4S5S6輸入概率0.40.30.10.10.060.04第一步0.40.30.10.10.1第二步0.40.30.20.1第三步0.40.30.3第四步0.60.40101010101S6=01011
Huffman編碼舉例例:信源有四個符號:
Xa1a2a3a41/21/41/81/8信源熵:Huffman(二進(jìn)制編碼)a1a2a3a4010110111
平均碼長:Iav=(1/2)
1+(1/4)
2+(1/8)
6=1.75bit/字符編碼效率:
=1.75/1.75=100%
編碼冗余:R=0a11/2a21/4a31/8a41/800011/211/410101101114個符號的等長碼:
B=log24=2bita1a2a3a400011011L=2
編碼效率:
=H(X)/L=1.75/2=87.5%Huffman編碼舉例:原信源輸出序列:a1
a2a1a3a2
a1a1
a4…..
編碼后的序列:01001101000111...Huffman碼解碼Huffman碼是非歧義的,在解碼過程中,對某個碼字的解釋是唯一的。原信源輸出序列:a1a2a1a3a2a1a1a4…..,編碼后的序列:01001101000111...當(dāng)接收端收到碼流01001101000111……時,按照碼表,以0開頭的碼字只有0,因此,解出第1個符號為a1;去掉已解碼的0后,碼流剩下1001101000111,以1開頭,第2比特是0,因此,碼字是10,因此,解出第2個符號為a2;……..順著碼樹解碼,樹根→樹干→樹枝→樹葉00010a110a211110a3111a4碼樹結(jié)構(gòu)00010a110a2110a3111a411哈夫曼編碼的特點哈夫曼編碼的算法是確定的,但編出的碼并非是唯一的。由于哈夫曼編碼的依據(jù)是信源符號的概率分布,故其編碼效率取決于信源的統(tǒng)計特性。哈夫曼碼沒有錯誤保護(hù)功能。哈夫曼碼是可變長度碼,碼字字長參差不齊,輸出碼率是變化的。因此,對于恒定碼率信道,需要增加輸出緩存器來平滑。對信源進(jìn)行哈夫曼編碼后,形成了一個哈夫曼編碼表,解碼時,必須參照這一哈夫編碼表才能正確解碼。4.3.1哈夫曼編碼4.3.1哈夫曼編碼從理論上分析,采用哈夫曼編碼可以獲得最佳信源字符編碼效果;實際應(yīng)用中,由于信源字符出現(xiàn)的概率并非滿足2的負(fù)冪次方,因此往往無法達(dá)到理論上的編碼效率和壓縮比。4.3.2算術(shù)編碼設(shè)字符序列{x,y}對應(yīng)的概率為{1/3,2/3},Nx和Ny分別表示字符x和y的最佳碼長,則根據(jù)信息論有:
4.3.2算術(shù)編碼字符x、y的最佳碼長分別為1.58bit和0.588bit;這表明,要獲得最佳編碼效果,需要采用小數(shù)碼字長度,這是不可能實現(xiàn)的;即采用哈夫曼方法對{x,y}的碼字分別為0和1,也就是兩個符號信息的編碼長度都為1。對于出現(xiàn)概率大的字符y并未能賦予較短的碼字;實際編碼效果往往不能達(dá)到理論效率;為提高編碼效率,Elias等人提出了算術(shù)編碼算法。4.3.2算術(shù)編碼
算術(shù)編碼是一種非分組編碼,它用一個浮點數(shù)值表示整個信源符號序列。算術(shù)編碼將被編碼的信源符號序列表示成實數(shù)半開區(qū)間[0,1)中的一個數(shù)值間隔。這個間隔隨著信源符號序列中每一個信源符號的加入逐步減小,每次減小的程度取決于當(dāng)前加入的信源符號的先驗概率。4.3.2算術(shù)編碼符號序列S3S3S2S4……為例S1S2S3S4S1S2S3S4S1S2S3S401/83/87/81.000.0010.0110.1111.00.0110.1110.01110.10010.1101在算術(shù)編碼中通常采用二進(jìn)制分?jǐn)?shù)表示概率,每個符號所對應(yīng)的概率區(qū)間都是半開區(qū)間,即該區(qū)間包括左端點,而不包括右端點,如S1對應(yīng)[0,0.001),S2
對應(yīng)[0.001,0.01)等。4.3.2算術(shù)編碼算術(shù)編碼基本法則兩個參量:編碼點(指針?biāo)柑帲〤和區(qū)間寬度A。初始狀態(tài)編碼點(指針?biāo)柑帲〤=0
區(qū)間寬度A=1.0新編碼點C=原編碼點C+原區(qū)間A×Pi
新區(qū)間A=原區(qū)間A×pi序列S3S3S2S4……的編碼過程:第1個符號(S3):C=0+1×.011=.011
A=1×.1=.1
第2個符號(S3):C=.011+.1×.011=.1001
A=.1×.1=.01第3個符號(S2):C=.1001+.01×.001=.10011A=.01×.01=.0001第4個符號(S4):C=.10011+.0001×.111=.1010011(輸出的碼字)
A=.0001×.001=.0000001符號Si
對應(yīng)的累積概率符號Si
對應(yīng)的概率最后區(qū)間的一個數(shù)輸出算術(shù)編碼-解碼算法解碼采取與編碼過程相反的步驟把接收到的碼字串指向其對應(yīng)的子區(qū)間,得到此子區(qū)間對應(yīng)的符號,即為解碼后的符號。即從碼字串中減去已解碼符號的子區(qū)間的左端點的數(shù)值(累積概率),并將差值除以該子區(qū)間的寬度(概率值),得到新的碼字串。上述例子當(dāng)收到字碼串(.1010011)時,其指向子區(qū)間[.011,.111],對應(yīng)于S3,因此,得到第1個符號為S3。新碼字串:(.1010011-.011)÷(.1)=0.100011,新碼字串仍然指向子區(qū)間[.011,.111],因此,第2個符號仍為S3。其它符號依次類推游程編碼,也稱行程編碼或游程(行程)長度編碼(RunLengthEncoding,RLE)游程:具有相同灰度值的像素序列。游程長度:灰度值相同的相鄰像素的數(shù)目。游程編碼思想:去除像素冗余。用游程的灰度和游程的長度代替游程本身。例:設(shè)重復(fù)次數(shù)為iC,重復(fù)像素值為iP
編碼為:iPiCiPiCiPiC
編碼前:aaaaaaabbbbbbcccccccc
編碼后:a7b6c84.3.3游程編碼由于一幅圖像中有許多顏色相同的圖塊,用一整數(shù)對存儲一個像素的顏色值及相同顏色像素的數(shù)目(長度)。例如:(G,L)
長度顏色值編碼時采用從左到右,從上到下的排列,每當(dāng)遇到一串相同數(shù)據(jù)時就用該數(shù)據(jù)及重復(fù)次數(shù)代替原來的數(shù)據(jù)串。000000003333333333222222222226666666111111111111111111111111555555555555888888888888888888555555555555553333222222222222222222(0,8)(3,10)(2,11)(6,7)(1,18)(1,6)(5,12)(8,18)(5,14)(3,4)(2,18)18*7的像素顏色僅用11對數(shù)據(jù)4.3.3游程編碼4.1數(shù)字音頻編碼的基本原理4.2數(shù)字視頻編碼概述4.3熵編碼4.4預(yù)測編碼4.5變換編碼第4章信源編碼原理4.4預(yù)測編碼
預(yù)測編碼的基本原理就是利用圖像數(shù)據(jù)的相關(guān)性,利用已傳輸?shù)南袼刂祵Ξ?dāng)前需要傳輸?shù)南袼刂颠M(jìn)行預(yù)測,然后對當(dāng)前像素的實際值與預(yù)測值的差值(即預(yù)測誤差)進(jìn)行編碼傳輸,而不是對當(dāng)前像素值本身進(jìn)行編碼傳輸,以去除圖像數(shù)據(jù)中的空間相關(guān)冗余或時間相關(guān)冗余。預(yù)測編碼:根據(jù)某一模型,利用信號以往的樣本值對新樣本值進(jìn)行預(yù)測,對預(yù)測誤差進(jìn)行編碼。對于相關(guān)性較強的信號,如果建立合適的模型,預(yù)測誤差的幅值將遠(yuǎn)遠(yuǎn)小于原始信號,從而可以用較少的量化級對其誤差信號進(jìn)行量化,得到較大的數(shù)據(jù)壓縮效果。4.4.1幀內(nèi)預(yù)測編碼問題:能否精確地預(yù)測數(shù)據(jù)源輸出?答案:否數(shù)據(jù)源是不確定的幾乎沒有一個實際的系統(tǒng)能找到可以精確預(yù)測輸出的模型能找到的最優(yōu)預(yù)測模型是以某種最小誤差意義下的預(yù)測模型。4.4.1幀內(nèi)預(yù)測編碼對于靜止圖像,由于相鄰像素具有很強的相關(guān)性,這樣當(dāng)前像素的灰度(顏色)值可用前面已經(jīng)出現(xiàn)的像素值進(jìn)行預(yù)測,得到一個預(yù)測值,對實際值與預(yù)測值的差值進(jìn)行編碼,4.4.1幀內(nèi)預(yù)測編碼4.4.1幀內(nèi)預(yù)測編碼1.DPCM系統(tǒng)的基本原理
DPCM(DifferentialPulseCodeModulation,差分脈沖編碼調(diào)制)DPCM工作原理源信號
預(yù)測信號誤差信號量化量化產(chǎn)生的誤差
4.4.1幀內(nèi)預(yù)測編碼DPCM工作原理
理想系統(tǒng)重建信號信號的重建誤差=量化誤差當(dāng)解碼器能精確地獲得預(yù)測信號時4.4.1幀內(nèi)預(yù)測編碼
實際系統(tǒng)重建信號
當(dāng)解碼器不能精確地獲得預(yù)測信號時4.4.1幀內(nèi)預(yù)測編碼
實際重建信號
信號重建誤差=量化誤差+累計誤差4.4.1幀內(nèi)預(yù)測編碼2.預(yù)測模型
設(shè)時刻之前的樣本值與預(yù)測值之間的關(guān)系呈現(xiàn)某種函數(shù)形式線性預(yù)測編碼器非線性預(yù)測編碼器4.4.1幀內(nèi)預(yù)測編碼
在圖像數(shù)據(jù)壓縮中,常用如下幾種線性預(yù)測方案:前值預(yù)測,即一維預(yù)測,即采用同一掃描行中前面已知的若干個樣值來預(yù)測。二維預(yù)測,即不但用同一掃描行中的前面幾個樣值,而且還要用以前幾行掃描行中樣值來預(yù)測。
4.4.1幀內(nèi)預(yù)測編碼(1)(2)最優(yōu)線性預(yù)測a1,a2,a3為預(yù)測系數(shù)a1,a2,a3為最佳線性預(yù)測系數(shù)可以證明,若圖像符合平穩(wěn)的馬爾可夫過程,則可以直接用相關(guān)系數(shù)來確定預(yù)測系數(shù)最優(yōu)線性預(yù)測4.4.2幀間預(yù)測編碼序列圖像在時間上的冗余情況可分為如下幾種:對于靜止不動的場景,當(dāng)前幀和前一幀的圖像內(nèi)容是完全相同的。對于運動的物體,只要知道其運動規(guī)律,就可以從前一幀圖像推算出它在當(dāng)前幀中的位置。攝像機對著場景的橫向移動、焦距變化等操作會引起整個圖像的平移、放大或縮小。對于這種情況,只要攝像機的運動規(guī)律和鏡頭改變的參數(shù)已知,圖像隨時間所產(chǎn)生的變化也是可以推算出來的。
幀間預(yù)測的依據(jù):圖像序列在時間軸方向的相關(guān)性;物體的背景或物體的一部分相對不變或變化緩慢;人類的視覺特性:人類的視覺對靜止圖像有較高的空間分辨率,但是可以減少傳輸幀數(shù)來降低時間軸分辨率,未傳輸?shù)膸梢酝ㄟ^計算補出來;對運動圖像分辨率低,可以對這一部分圖像降低清晰度。4.4.2幀間預(yù)測編碼為什么進(jìn)行運動補償預(yù)測?對于活動圖像編碼,幀間預(yù)測是主要的手段;基本幀間預(yù)測方法對于存在大量靜止區(qū)域或緩變區(qū)域的圖像,預(yù)測效果不錯;對于活動的物體,預(yù)測效果不理想;對于一些發(fā)生運動的圖像進(jìn)行預(yù)測編碼,采用運動補償預(yù)測的方法。4.4.2幀間預(yù)測編碼運動補償預(yù)測
4.4.2幀間預(yù)測編碼運動補償預(yù)測的基本原理:自然場景的視頻圖像只有其中的部分區(qū)域在運動,同一場景相鄰的兩幀圖像之間差異也不會太大,編碼器無需將視頻序列中每幀圖像的所有信息都進(jìn)行編碼后傳輸給解碼器端,只要將當(dāng)前幀中目標(biāo)的運動信息告知解碼器端,解碼器可根據(jù)運動信息和前一幀圖像內(nèi)容來更新當(dāng)前幀圖像,獲得當(dāng)前幀的真實數(shù)據(jù)。(可有效降低編碼所需數(shù)據(jù)量)從序列圖像中提取有關(guān)物體運動的信息的過程——運動估計(如何快速、有效的獲得足夠精度的運動矢量);把前一幀相應(yīng)的運動部分信息根據(jù)運動矢量補償過來的過程——運動補償(MotionCompensation,MC)。4.4.2幀間預(yù)測編碼
運動估計——將當(dāng)前幀活動圖像分為若干局部結(jié)構(gòu)(像素塊),檢測出每個局部結(jié)構(gòu)在前一幀圖像中的位置,從而可以估計出這個結(jié)構(gòu)的位移。即對運動物體從前一幀到當(dāng)前幀位移的方向和像素數(shù)作出估計,也就是求出運動矢量。
運動補償——根據(jù)求出的運動矢量,找到當(dāng)前幀的像素(或像素塊)是從前一幀的哪個位置移動過來的,從而得到當(dāng)前幀像素(或像素塊)的預(yù)測值。4.4.2幀間預(yù)測編碼運動估計與運動補償預(yù)測編碼步驟:分割圖像為若干局部結(jié)構(gòu)——劃分靜止和運動區(qū)域;最簡單方法:分塊運動估計——對每一個運動物體進(jìn)行位移估計;運動補償——由位移估計建立同一運動物體在不同幀空間位置對應(yīng)關(guān)系,建立預(yù)測關(guān)系;對于運動補償后的位移幀差信號、運動矢量進(jìn)行編碼傳輸。4.4.2幀間預(yù)測編碼
對當(dāng)前子塊進(jìn)行運動估計,就是找在前一幀圖像中哪一個子塊和當(dāng)前子塊最相似,估計它的位移矢量。4.4.2幀間預(yù)測編碼運動估計方法:像素遞歸法:根據(jù)像素間亮度的變化和梯度,通過遞歸修正的方法來估計每個像素的運動矢量。接收端在與發(fā)送端同樣的條件下,用與發(fā)送端相同的方法進(jìn)行運動估值。像素遞歸法估計精度高,可以滿足運動補償幀內(nèi)插的要求。但接收端較復(fù)雜,不利于一發(fā)多收(如數(shù)字電視廣播等)的應(yīng)用。塊匹配算法:塊匹配算法對當(dāng)前幀圖像的每一子塊,在前一幀(第K-1幀)的一定范圍內(nèi)搜索最優(yōu)匹配,并認(rèn)為本圖像子塊就是從前一幀最優(yōu)匹配塊位置處平移過來的。塊匹配算法雖然作了一定假設(shè)(假設(shè)位于同一圖像子塊內(nèi)的所有像素都作相同的運動,且只作平移運動),但滿足了計算復(fù)雜度和實時實現(xiàn)的要求。4.4.2幀間預(yù)測編碼塊匹配算法(BMA):4.4.2幀間預(yù)測編碼運動矢量的算法框圖4.4.2幀間預(yù)測編碼運動補償效果Frame1Frame2Residual(WithoutMotionCompensation)Residual(MotionCompensation)方塊大小的選取
塊大時,一個方塊可能包含多個作不同運動的物體,塊內(nèi)各像素作相同平移運動的假設(shè)難以成立,影響估計精度。
若塊太小,則估計精度容易受噪聲干擾的影響,不夠可靠,而且傳送運動矢量所需的附加比特數(shù)過多,不利于數(shù)據(jù)壓縮。 一般都用16×16像素的塊作為匹配單元。塊匹配算法(BMA)最優(yōu)匹配準(zhǔn)則絕對差均值(MAD,MeanAbsoluteDifference)最小準(zhǔn)則
均方誤差(MSE,MeanSquaredError)最小準(zhǔn)則歸一化互相關(guān)函數(shù)最大準(zhǔn)則
塊匹配算法(BMA)最優(yōu)匹配點的搜索方法窮盡搜索(fullsearch,也稱全搜索)快速搜索:其算法共同之處在于它們把使準(zhǔn)則函數(shù)(例如,MAD)趨于極小的方向視同為最小失真方向,并假定準(zhǔn)則函數(shù)在偏離最小失真方向時是單調(diào)遞增的,即認(rèn)為它在整個搜索區(qū)內(nèi)是(i,j)的單極點函數(shù),有唯一的極小值,而快速搜索是從任一猜測點開始沿最小失真方向進(jìn)行的。分級搜索:先通過對原始圖像濾波和亞采樣得到一個圖像序列的低分辨率表示,再對所得低分辨率圖像進(jìn)行全搜索。由于分辨率降低,使得搜索次數(shù)成倍減少,這一步可以稱為粗搜索。然后,再以低分辨率圖像搜索的結(jié)果作為下一步細(xì)搜索的起始點。經(jīng)過粗、細(xì)兩級搜索,便得到了最終的運動矢量估值。塊匹配算法(BMA)BMA常用搜索算法——三步搜索法:BMA常用搜索算法——二維對數(shù)搜索法:在視頻幀序列中設(shè)置參照幀,且第1幀總是參照幀。對于當(dāng)前的編碼幀,首先在該幀的前一幀和/或后一幀(參照幀)中尋找與該幀的一個圖像方塊最優(yōu)匹配的圖像方塊。如果找到這樣的最優(yōu)匹配塊,則進(jìn)行下列計算:計算當(dāng)前塊的像素值與參照幀中最優(yōu)匹配塊(稱參照塊)的像素值之間的差值,即預(yù)測誤差;計算當(dāng)前塊相對于參照塊在水平(x)和垂直(y)兩個方向上的位移,即運動矢量。如果找不到最優(yōu)匹配塊,則必須進(jìn)行幀內(nèi)編碼,即對當(dāng)前塊的像素樣本值進(jìn)行編碼傳輸。
運動補償幀間預(yù)測編碼過程幀間預(yù)測編碼原理圖單向運動補償預(yù)測:只使用前參照幀或后參照幀中的一個來進(jìn)行預(yù)測。雙向運動補償預(yù)測:使用前、后兩個幀作為參照幀來計算各塊的運動矢量,最后只選用與具有最小匹配誤差的參照幀相關(guān)的運動矢量值。插值運動補償預(yù)測:取前參照幀預(yù)測值與后參照幀預(yù)測值的平均值。這時,需要對兩個運動矢量分別進(jìn)行編碼傳輸。運動補償幀間預(yù)測類型雙向預(yù)測B幀的壓縮編碼原理4.1數(shù)字音頻編碼的基本原理4.2數(shù)字視頻編碼概述4.3熵編碼4.4預(yù)測編碼4.5變換編碼第4章信源編碼原理預(yù)測編碼希望通過對信源建模盡可能精確地預(yù)測數(shù)據(jù),然后對預(yù)測誤差進(jìn)行編碼。變換編碼的思路:將原始數(shù)據(jù)從時間域或者空間域“變換”到另一個更為緊湊表示、適合于壓縮的變換域(通常為頻域),從而得到比預(yù)測編碼更高效率的數(shù)據(jù)表示(壓縮)。預(yù)測編碼消除相關(guān)性的能力有限,變換編碼是一種更高效的壓縮編碼。4.5.1變換編碼的基本原理
變換編碼的基本原理是將空域中的圖像信號,變換到另外一些正交空間中去,用變換系數(shù)來表示原始圖像,并對變換系數(shù)進(jìn)行編碼。一般來說在變換域里描述要比在空域簡單,因為圖像的相關(guān)性明顯下降。盡管變換本身并不帶來數(shù)據(jù)壓縮,但變換圖像的能量大部分只集中于少數(shù)幾個變換系數(shù)上,采用量化和熵編碼則可以有效地壓縮圖像的編碼比特率。4.5.1變換編碼的基本原理如何去除圖像數(shù)據(jù)中的冗余,實現(xiàn)數(shù)據(jù)壓縮?變換編碼:通過正交變換,將空間域的原始數(shù)據(jù)(像素值)“變換”為頻域的變換系數(shù),以實現(xiàn)更為緊湊的表示,有利于達(dá)到去除空間相關(guān)性(冗余)實現(xiàn)數(shù)據(jù)壓縮的目的。4.5.1變換編碼的基本原理
圖像信息經(jīng)過變換處理,相鄰像元之間的相關(guān)性明顯下降,有利于圖像的編碼壓縮。圖像頻譜中的變換系數(shù),表示圖像在不同空間頻率上的相對幅度,而且某一空間頻率所包含的信息來自整個圖像,頻譜能量主要集中在低頻部分,譜能量隨頻率的增加而迅速下降。再次,變換編碼受噪聲干擾的影響較小。圖象的變換編碼,隨著數(shù)字信號處理技術(shù)的發(fā)展,特別是快速變換的算法和大規(guī)模集成電路(LSI)的出現(xiàn),使它具有實際應(yīng)用的可能。變換編碼的特點變換編碼不直接對空間域圖像數(shù)據(jù)進(jìn)行編碼,而是首先將空間域圖像數(shù)據(jù)映射變換到另一個正交向量空間(變換域),得到一組變換系數(shù),然后對這些變換系數(shù)進(jìn)行量化和編碼。變換編碼系統(tǒng)通常包括正交變換、變換系數(shù)選擇和量化編碼3個模塊。為了保證平穩(wěn)性和相關(guān)性,同時也為了減少運算量,在變換編碼中,一般在發(fā)送端的編碼器中,先將一幀圖像劃分成若干個N×N像素的圖像塊,然后對每個圖像塊逐一進(jìn)行變換編碼,最后將各個圖像塊的編碼比特流復(fù)合后再傳輸。在接收端,對收到的變換系數(shù)進(jìn)行相應(yīng)的逆變換,再恢復(fù)成圖像數(shù)據(jù)。4.5.1變換編碼的基本原理(1)圖像分塊,用一個可逆線性變換(如傅立葉變換)把圖像映射到變換系數(shù)集合。(2)對該系數(shù)集合進(jìn)行量化和編碼。對于大多數(shù)圖像,重要系數(shù)的數(shù)量是比較少,且圖像失真較小。(3)在接收端對接收到的碼流進(jìn)行解碼,分離出各變換系數(shù),且對舍去的系數(shù)用“0”來代替,然后求反變換,恢復(fù)各圖像子塊。變換編碼的基本步驟4.5.1變換編碼的基本原理正交變換本身并不能壓縮數(shù)據(jù),它只把信號映射到另一個域,但由于變換后,能量集中在變換域中的少數(shù)變換系數(shù)上,變換系數(shù)之間的相關(guān)性明顯降低,為在變換域里進(jìn)行有效的壓縮創(chuàng)造了有利條件。對于變換系數(shù),采用符合人的視覺系統(tǒng)特征的量化方式,大多數(shù)高頻系數(shù)在量化后會很小或者為零,量化后的變換系數(shù)矩陣變成了一個稀疏矩陣。選擇適當(dāng)?shù)膾呙璺绞綄⒍S矩陣表示的系數(shù)表示為一維向量,使得一維向量表示的系數(shù)具有零系數(shù)連續(xù)出現(xiàn)的特點,這樣通過游程編碼可以得到進(jìn)一步的壓縮,從而實現(xiàn)圖像數(shù)據(jù)壓縮。4.5.1變換編碼的基本原理4.5.2
基于DCT的圖像編碼圖象塊DCT系數(shù)已量化的DCT系數(shù)重建圖象塊4.5.2
基于DCT的圖像編碼8×8二維DCT變換8×8二維DCT反變換當(dāng)時,當(dāng)u、v為其他值時4.5.2
基于DCT的圖像編碼
8×8二維DCT反變換的變換核函數(shù)為
按u,v分別展開后得到64個8×8像素的圖像塊組,稱為基圖像。4.5.2
基于DCT的圖像編碼8×8二維DCT變換基圖像4×4二維DCT變換基圖像DCT變換系數(shù)的量化量化是一個多對一的映射,它是造成編解碼重建圖像失真的主要根源。將DCT系數(shù)矩陣中的每個元素F(u,v)除以量化步長(臺階)S(u,v)后,進(jìn)行四舍五入運算。4.5.2
基于DCT的圖像編碼DCT變換系數(shù)的量化由于人眼對低頻變換系數(shù)(圖像像素值變化緩慢部分)比高頻變換系數(shù)(細(xì)節(jié)部分)更敏感,所以,對低頻變換系數(shù)(特別是直流系數(shù))進(jìn)行細(xì)量化(量化步長/臺階小),對高頻變換系數(shù)進(jìn)行粗量化。4.5.2
基于DCT的圖像編碼DCT變換系數(shù)的量化每個DCT變換系數(shù)都有一個相應(yīng)的量化步長S(u,v)
,這些量化步長構(gòu)成了量化矩陣(量化表)。由于人眼對亮度信號比對色差信號更敏感,因此分別使用兩種不同的量化矩陣。4.5.2
基于DCT的圖像編碼JPEG標(biāo)準(zhǔn)中亮度DCT系數(shù)的量化步長16111016244051611212141926586055141316244057695614172229518780621822375668109103772435556481104113924964788710312112010172929598112100103994.5.2
基于DCT的圖像編碼JPEG標(biāo)準(zhǔn)中色度DCT系數(shù)的量化步長171824479999999918212666999999992426569999999999476699999999999999999999999999999999999999999999999999999999999999999999999999994.5.2
基于DCT的圖像編碼Zig-Zag(或稱“Z”字形,“之”字形)掃描
DC直流系數(shù)AC01交流系數(shù)掃描開始交流系數(shù)掃描結(jié)束AC07AC70AC77變換系數(shù)熵編碼4.5.2
基于DCT的圖像編碼直流分量(DC):相鄰圖像子塊的直流分量(圖像子塊的平均樣值)也存在著相關(guān)性,所以對DC的量化系數(shù)用DPCM編碼較合適,即對當(dāng)前塊和前一塊的DC系數(shù)的差值進(jìn)行編碼。交流分量(AC):把數(shù)值為0的連續(xù)長度(即0游長)和非0值結(jié)合起來構(gòu)成一個事件(Run,Level),然后再對事件(Run,Level)進(jìn)行熵編碼。
變換系數(shù)熵編碼4.5.2
基于DCT的圖像編碼8×8亮度子塊DCT第一步:DCT變換
4.5.2
基于DCT的圖像編碼經(jīng)DCT后,變換系數(shù)的能量集中于低頻變換系數(shù)上。第二步:量化。將DCT系數(shù)矩陣[F(u,v)]中的每個元素與量化步長矩陣[S(u,v)]中的對應(yīng)元素相除后,進(jìn)行四舍五入運算。4.5.2
基于DCT的圖像編碼161110162440516112121419265860551413162440576956141722295187806218223756681091037724355564811041139249647887103121120101729295981121001039916111016244051611212141926586055141316244057695614172229518780621822375668109103772435556481104113924964788710312112010172929598112100
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 光學(xué)測角儀器的用戶交互與反饋設(shè)計考核試卷
- 醫(yī)療設(shè)備材料生物安全性考核試卷
- 鉿鈧礦石提煉工藝探討考核試卷
- 租賃設(shè)備售后服務(wù)滿意度調(diào)查考核試卷
- 醫(yī)療設(shè)備行業(yè)對分子診斷儀器的需求分析考核試卷
- 內(nèi)能-人教版九年級物理暑假自學(xué)提升講義
- 2020年成人高考高起專英語閱讀理解練習(xí)
- 吉林省延邊州2024-2025學(xué)年八年級下學(xué)期期末練習(xí)數(shù)學(xué)試卷(含答案)
- 2025至2030年中國蕎麥?zhǔn)袌龈偁幐窬旨巴顿Y戰(zhàn)略規(guī)劃報告
- 2025至2030年中國化妝品網(wǎng)購行業(yè)市場深度分析及投資策略咨詢報告
- (新教材)2025年秋期人教版二年級上冊數(shù)學(xué)核心素養(yǎng)教案(第3單元)(教學(xué)反思有內(nèi)容+二次備課版)
- 電信維護(hù)協(xié)議書
- 2025大慶輔警考試真題
- HY/T 0457-2024藍(lán)碳生態(tài)系統(tǒng)碳儲量調(diào)查與評估技術(shù)規(guī)程海草床
- 2025年廣東省中考地理試題卷(標(biāo)準(zhǔn)含答案)
- 聚合工藝作業(yè)培訓(xùn)課件
- 綠化草坪養(yǎng)護(hù)管理制度
- 口腔門診醫(yī)療質(zhì)控標(biāo)準(zhǔn)化培訓(xùn)
- 突發(fā)公共衛(wèi)生健康講座
- 2025年山西省萬家寨水務(wù)控股集團及所屬企業(yè)招聘筆試參考題庫含答案解析
- 2025年福建新華發(fā)行(集團)有限責(zé)任公司南平地區(qū)招聘筆試參考題庫含答案解析
評論
0/150
提交評論