第8章數(shù)字音頻技術(shù)1_第1頁
第8章數(shù)字音頻技術(shù)1_第2頁
第8章數(shù)字音頻技術(shù)1_第3頁
第8章數(shù)字音頻技術(shù)1_第4頁
第8章數(shù)字音頻技術(shù)1_第5頁
已閱讀5頁,還剩49頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)字電視原理第八章數(shù)字音頻技術(shù)2/6/20231信息工程系8.2MPEG音頻壓縮技術(shù)8.2.1音頻特性及其編碼

研究聽覺系統(tǒng)對(duì)聲音的感知特性,下面介紹已經(jīng)用在MPEGAudio壓縮編碼算法中的三個(gè)特性:響度、音高和掩蔽效應(yīng),聽覺感知編碼。

1.對(duì)響度的感知 聲音的響度就是聲音音頻弱。在物理上(客觀),聲音的響度使用客觀測(cè)量單位來度量,即dyn/cm2(達(dá)因/平方厘米)(聲壓)或W/cm2(瓦特/平方厘米)(聲強(qiáng))。在心理上(主觀),主觀感覺的聲音強(qiáng)弱使用響音頻“方(phon)”或者“宋(sone)”來度量2/6/20232信息工程系8.2MPEG音頻壓縮技術(shù)這兩種感知音頻強(qiáng)弱的計(jì)量單位是完全不同的兩種概念,但是它們之間又有一定的聯(lián)系當(dāng)音頻弱到人的耳朵剛剛可以聽見時(shí),我們稱此時(shí)的音頻強(qiáng)度為“聽閾”。例如,1kHz純音的聲強(qiáng)達(dá)到10-16w/cm2(定義成零dB聲強(qiáng)級(jí))時(shí),人耳剛能聽到,此時(shí)的主觀響度級(jí)定為零方實(shí)驗(yàn)表明,聽閾是隨頻率變化的。測(cè)出的“聽閾—頻率”曲線如圖所示。圖中最靠下面的一根曲線叫做“零方等響度級(jí)”曲線,也稱“絕對(duì)聽閾”曲線,即在安靜環(huán)境中,能被人耳聽到的純音的最小值另一種極端的情況是音頻強(qiáng)到使人耳感到疼痛。實(shí)驗(yàn)表明,如果頻率為1kHz的純音的聲強(qiáng)級(jí)達(dá)到120dB左右時(shí),人的耳朵就感到疼痛,這個(gè)閾值稱為“痛閾”2/6/20233信息工程系8.2MPEG音頻壓縮技術(shù)“聽閾—頻率”曲線2/6/20234信息工程系8.2MPEG音頻壓縮技術(shù)人耳對(duì)不同頻率的敏感程度差別很大,其中對(duì)2kHz~4kHz范圍的信號(hào)最為敏感,幅度很低的信號(hào)都能被人耳聽到。而在低頻區(qū)和高頻區(qū),能被人耳聽到的信號(hào)幅度要高得多2/6/20235信息工程系8.2MPEG音頻壓縮技術(shù)2.對(duì)音高的感知客觀上用頻率來表示聲音的音高,其單位是Hz主觀感覺的音高單位則是“美(Mel)”,主觀音高與客觀音高的關(guān)系是:

其中f的單位為Hz這也是兩個(gè)既不相同又有聯(lián)系的單位人耳對(duì)頻率的感覺也有一個(gè)范圍。人耳可以聽到的最低頻率約20Hz,最高頻率約20000Hz2/6/20236信息工程系8.2MPEG音頻壓縮技術(shù)音高—頻率曲線2/6/20237信息工程系8.2MPEG音頻壓縮技術(shù)3.掩蔽效應(yīng)一種頻率的聲音阻礙聽覺系統(tǒng)感受另一種頻率的聲音的現(xiàn)象稱為掩蔽效應(yīng)。前者稱為掩蔽聲音(maskingtone),后者稱為被掩蔽聲音(maskedtone)掩蔽可分成頻域掩蔽和時(shí)域掩蔽(1).頻域掩蔽 一個(gè)強(qiáng)純音會(huì)掩蔽在其附近同時(shí)發(fā)聲的弱純音,這種特性稱為頻域掩蔽,也稱同時(shí)掩蔽(simultaneousmasking)2/6/20238信息工程系8.2MPEG音頻壓縮技術(shù)聲強(qiáng)為60dB、頻率為1000Hz純音的掩蔽效應(yīng)2/6/20239信息工程系8.2MPEG音頻壓縮技術(shù)頻率為250Hz、1kHz、4kHz和8kHz純音的掩蔽效應(yīng),它們的聲強(qiáng)均為60dB①在250Hz、1kHz、4kHz和8kHz純音附近,對(duì)其他純音的掩蔽效果最明顯②低頻純音可以有效地掩蔽高頻純音,但高頻純音對(duì)低頻純音的掩蔽作用則不明顯2/6/202310信息工程系8.2MPEG音頻壓縮技術(shù)2.時(shí)域掩蔽時(shí)間上相鄰的聲音之間也有掩蔽現(xiàn)象,并且稱為時(shí)域掩蔽。時(shí)域掩蔽又分為超前掩蔽(pre-masking)和滯后掩蔽(post-masking)超前掩蔽較短,只有大約5~20ms,而滯后掩蔽可以持續(xù)50~200ms2/6/202311信息工程系8.2MPEG音頻壓縮技術(shù)時(shí)域掩蔽2/6/202312信息工程系8.2MPEG音頻壓縮技術(shù)聽覺感知編碼的編碼思路:1.根據(jù)聽覺域度對(duì)可聞信號(hào)進(jìn)行編碼聽覺域度對(duì)編碼的作用

2/6/202313信息工程系8.2MPEG音頻壓縮技術(shù)2.根據(jù)掩蔽效應(yīng),只對(duì)幅度強(qiáng)的掩蔽信號(hào)進(jìn)行編碼2/6/202314信息工程系8.2MPEG音頻壓縮技術(shù)3.量化噪聲使得不必全部編碼原始信號(hào)2/6/202315信息工程系8.2MPEG音頻壓縮技術(shù)4.通過子帶分割來進(jìn)行優(yōu)化、編碼子帶編碼、優(yōu)化

2/6/202316信息工程系8.2MPEG音頻壓縮技術(shù)8.2.2MPEG-1音頻壓縮技術(shù)MPEG音頻壓縮的的主要依據(jù)是人耳朵的聽覺特性,使用“心理聲學(xué)模型(psychoacousticmodel)”來達(dá)到壓縮聲音數(shù)據(jù)的目的心理聲學(xué)模型聽覺系統(tǒng)中存在一個(gè)聽覺閾值電平,低于這個(gè)電平的聲音信號(hào)就聽不到,因此就可以把這部分信號(hào)去掉聽覺閾值的大小隨聲音頻率的改變而改變,各個(gè)人的聽覺閾值也不同。大多數(shù)人的聽覺系統(tǒng)對(duì)2kHz~5kHz之間的聲音最敏感。一個(gè)人是否能聽到聲音取決于聲音的頻率,以及聲音的幅度是否高于這種頻率下的聽覺閾值2/6/202317信息工程系8.2MPEG音頻壓縮技術(shù)聽覺系統(tǒng)存在掩蔽特性,聽覺閾值電平是自適應(yīng)的,即聽覺閾值電平會(huì)隨聽到的不同頻率的音頻而發(fā)生變化例如,同時(shí)有兩種頻率的音頻存在,一種是1000Hz的音頻,另一種是1100Hz的音頻,但它的強(qiáng)度比前者低18分貝,在這種情況下,1100Hz的音頻就聽不到2/6/202318信息工程系8.2MPEG音頻壓縮技術(shù)MPEG音頻壓縮算法框圖2/6/202319信息工程系8.2MPEG音頻壓縮技術(shù)MPEG-1音頻壓縮標(biāo)準(zhǔn)的主要性能:(1)輸入信號(hào)為線性PCM信號(hào),采樣率為32,44.1或48kHz,輸出為32kb/s~384kb/s(2)MPEG-1音頻壓縮標(biāo)準(zhǔn)提供三個(gè)獨(dú)立的壓縮層次①層1的編碼器最為簡(jiǎn)單,編碼器的輸出數(shù)據(jù)率為384kb/s,主要用于小型數(shù)字盒式磁帶(digitalcompactcassette,DCC)②層2的編碼器的復(fù)雜程度屬中等,編碼器的輸出數(shù)據(jù)率為256kb/s~192kb/s,其應(yīng)用包括數(shù)字廣播聲音(DAB)、數(shù)字音樂、CD-I(compactdisc-interactive)和VCD(videocompactdisc)等③層3的編碼器最為復(fù)雜,編碼器的輸出數(shù)據(jù)率為64kb/s,主要應(yīng)用于網(wǎng)絡(luò)音樂2/6/202320信息工程系8.2MPEG音頻壓縮技術(shù)1.子帶編碼濾波器組的劃分

MPEG-1音頻編碼器把輸入信號(hào)變換到32個(gè)頻域子帶中去。子帶的劃分方法有兩種,一種是線性劃分,另一種是非線性劃分2/6/202321信息工程系8.2MPEG音頻壓縮技術(shù)2.子帶編碼SNR(signalnoiseratio) ——信號(hào)噪聲比SMR(signal-to-maskratio) ——信號(hào)掩蔽比NMR(noise-to-maskratio) ——噪聲掩蔽比2/6/202322信息工程系8.2MPEG音頻壓縮技術(shù)3.編碼層MPEG音頻壓縮定義了3個(gè)層次,它們的基本模型是相同的。層1是最基礎(chǔ)的,層2和層3都在層1的基礎(chǔ)上有所提高。每個(gè)后繼的層次都有更高的壓縮比,但需要更復(fù)雜的編碼解碼器MPEG的音頻數(shù)據(jù)分成幀(frame),層1每幀包含384個(gè)樣本的數(shù)據(jù),每幀由32個(gè)子帶分別輸出的12個(gè)樣本組成。層2和層3每幀為1152個(gè)樣本2/6/202323信息工程系8.2MPEG音頻壓縮技術(shù)層1、2和層3的子帶樣本2/6/202324信息工程系8.2MPEG音頻壓縮技術(shù)MPEG編碼層簡(jiǎn)介層1:采用均勻子帶劃分,心理聲學(xué)模型僅使用頻域掩蔽特性層2:采用均勻子帶劃分,心理聲學(xué)模型除使用頻域掩蔽特性外還利用了時(shí)域掩蔽特性,并且在低、中和高頻段對(duì)比特分配作了一些限制,對(duì)比特分配,比例因子和量化樣本值的編碼也更緊湊層3:采用非均勻子帶劃分,即臨界頻帶劃分,心理聲學(xué)模型使用頻域和時(shí)域掩蔽,同時(shí)還考慮了立體聲數(shù)據(jù)冗余,并且使用了Huffman編碼2/6/202325信息工程系8.2MPEG音頻壓縮技術(shù)MPEG-1數(shù)字音頻的參數(shù)概述(1)MPEG-1音頻取樣頻率

fs:32kHz,44.1kHz,48kHz(2)MPEG-1音頻碼率

32~192kHz單聲道,64~384kHz立體聲PCM如按高保真立體聲:50Hz~20kHz,取fs=44.1KHz,n=16bit;則不壓縮時(shí)速率:44.1×16=705.6Kbit/s(每聲道)(3)MPEG-1音頻壓縮算法①自適應(yīng)頻譜心理聲學(xué)熵編碼ASPEC(AdaptiveSpectralPerceptualEntropyCoding);②自適應(yīng)變換聲音編碼ATAC(AdaptiveTransformAudioCoding)③掩蔽型自適應(yīng)子帶編碼和復(fù)用MUSICAM(Masking-PatternAdaptedUniversalSubbandIntegratedCodingAndMultiplexing)④子帶/自差分脈沖編碼SB/ADPCMASPEC和MUSICAM主觀評(píng)價(jià)幾乎相同。在64kbit/s時(shí)APESC音質(zhì)略好,而MUSICAM較簡(jiǎn)單,解碼延時(shí)較好;所以MUSICAM作為MPEGLayerI,結(jié)合ASPEC優(yōu)點(diǎn)為LayerII,LayerIII。2/6/202326信息工程系8.2MPEG音頻壓縮技術(shù)MPEG-1音頻信號(hào)數(shù)據(jù)壓縮過程(a)時(shí)間/頻率映射(濾波器組)用以將輸入的信號(hào)轉(zhuǎn)化為亞取樣的頻譜分量分為子帶(b)頻域?yàn)V波器組或并行變換的輸出,根據(jù)心理聲學(xué)模型求出時(shí)變的掩蔽門限估值(c)按量化噪聲不超過掩蔽門限的原則將子帶量化編碼以使量化噪聲不可聽到(d)按幀打包成碼流(包括比特分配信息)2/6/202327信息工程系8.2MPEG音頻壓縮技術(shù)LayerⅠ,Ⅱ音頻編碼方框圖

2/6/202328信息工程系8.2MPEG音頻壓縮技術(shù)LayerⅠ,Ⅱ音頻解碼方框圖2/6/202329信息工程系8.2MPEG音頻壓縮技術(shù)LayerIII音頻編碼方框圖2/6/202330信息工程系8.2MPEG音頻壓縮技術(shù)LayerIII音頻解碼方框圖2/6/202331信息工程系8.2MPEG音頻壓縮技術(shù)

MPEG-1音頻編碼幀結(jié)構(gòu)2/6/202332信息工程系8.2MPEG音頻壓縮技術(shù)MPEG-2音頻壓縮MPEG-2聲音編碼標(biāo)準(zhǔn)是MPEG為多聲道聲音開發(fā)的低碼率編碼方案,它是在MPEG-1聲音標(biāo)準(zhǔn)基礎(chǔ)上發(fā)展而來的。和MPEG-1相比,MPEG-2聲音主要增加了三個(gè)方面的內(nèi)容(1)支持5.1路環(huán)繞聲。它能提供5個(gè)全帶寬聲道(左、右、中和兩個(gè)環(huán)繞聲道),外加一個(gè)低頻效果增強(qiáng)聲道,統(tǒng)稱為5.1聲道(2)支持多達(dá)8種語言或解說(3)增加了低取樣和低碼率。在保持MPEG-1聲音的單聲道和立體聲的原有取樣率的情況下,MPEG-2又增加了三種取樣率,即把MPEG-1的取樣率降低了一半,(16kHz,22.05kHz,24kHz)以便提高碼率低于64kbit/s時(shí)的每個(gè)聲道的聲音質(zhì)量2/6/202333信息工程系8.2MPEG音頻壓縮技術(shù)MPEG-2聲音多聲道擴(kuò)展部分的數(shù)據(jù)結(jié)構(gòu)

MPEG-2多聲道聲音編碼標(biāo)準(zhǔn)和現(xiàn)有的MPEG-1聲音標(biāo)準(zhǔn)保持后向兼容。在對(duì)原有的MPEG-1兩聲道增加獨(dú)立的環(huán)繞聲道時(shí),MPEG-2盡量保特和MPEG-1聲音語法的兼容性,MPEG-2中的主聲道(左、右)仍然保持后向兼容,而環(huán)饒聲道采用新的編碼方法和語法2/6/202334信息工程系8.2MPEG音頻壓縮技術(shù)MPEG-2的兩種音頻數(shù)據(jù)壓縮格式MPEG-2Audio,或者稱為MPEG-2多通道(Multichannel)音頻,與MPEG-1Audio兼容,所以又稱為MPEG-2BC(BackwardCompatible)MPEG-2AAC(AdvancedAudioCoding),與MPEG-1聲音格式不兼容,因此通常稱為非后向兼容MPEG-2NBC(Non-Backward-Compatible)標(biāo)準(zhǔn)2/6/202335信息工程系8.2MPEG音頻壓縮技術(shù)MPEG-2AudioMPEG-2Audio(ISO/IEC13818-3)和MPEG-1Audio(ISO/IEC1117-3)標(biāo)準(zhǔn)都使用相同種類的編譯碼器,LayerⅠ,LayerⅡ和LayerⅢ的結(jié)構(gòu)也相同MPEG-2音頻標(biāo)準(zhǔn)與MPEG-1標(biāo)準(zhǔn)相比,MPEG-2做了如下擴(kuò)充:①增加了16kHz,22.05kHz和24kHz采樣頻率②擴(kuò)展了編碼器的輸出速率范圍,由32~384kbit/s擴(kuò)展到8~640kbit/s③增加了聲道數(shù),支持5.1聲道和7.1聲道的環(huán)繞聲。此外MPEG-2還支持LinearPCM(線性PCM)和DolbyAC-3(AudioCodeNumber3)編碼

2/6/202336信息工程系8.2MPEG音頻壓縮技術(shù)MPEG-1和MPEG-2的聲音數(shù)據(jù)規(guī)格2/6/202337信息工程系8.2MPEG音頻壓縮技術(shù)MPEG-2Audio的“5.1環(huán)繞聲”MPEG-2Audio的“5.1環(huán)繞聲”也稱為“3/2/.1立體聲加LFE”,其中的“.1”就是指LFE聲道。它的含義是播音現(xiàn)場(chǎng)的前面可有3個(gè)喇叭聲道(左、中、右),后面可有2個(gè)環(huán)繞聲喇叭聲道,LFE(lowfrequencyeffects)是低頻音效的加強(qiáng)聲道2/6/202338信息工程系8.2MPEG音頻壓縮技術(shù)5.1聲道最佳效果放置5個(gè)全頻帶的重放揚(yáng)聲器分為前置揚(yáng)聲器(包括L、R、C)和后置揚(yáng)聲器(也稱環(huán)繞揚(yáng)聲器,包括Ls、Rs),分別位于一個(gè)圓的邊界上,其中L、R揚(yáng)聲器與C揚(yáng)聲器分別呈30度夾角,Ls、Rs揚(yáng)聲器與C揚(yáng)聲器分別呈110度夾角低頻增強(qiáng)聲道,稱之為LFE,它的頻率范圍在200Hz以下,大約是全頻帶倍頻程的10%左右,因此也稱點(diǎn)一聲道。它的放置沒有特殊的要求,一般放置在前面2/6/202339信息工程系8.2MPEG音頻壓縮技術(shù)7.1聲道環(huán)繞立體聲2/6/202340信息工程系8.2MPEG音頻壓縮技術(shù)MPEG-1、MPEG-2音頻參數(shù)的比較2/6/202341信息工程系8.2MPEG音頻壓縮技術(shù)MPEG-2中的AAC編碼AAC:AdvancedAudioCoding先進(jìn)音頻編碼,不向下兼容MPEG-2AAC是聲音感知編碼標(biāo)準(zhǔn),MPEG-2AAC主要使用聽覺系統(tǒng)的掩蔽特性來減少聲音的數(shù)據(jù)量,并且通過把量化噪聲分散到各個(gè)子帶中,用全局信號(hào)把噪聲掩蔽掉。AAC支持的采樣頻率可從8kHz到96kHzAAC編碼器的音源可以是單聲道的、立體聲的和多聲道的聲音。AAC標(biāo)準(zhǔn)可支持48個(gè)主聲道、16個(gè)低頻音效加強(qiáng)通道LFE(lowfrequencyeffects)、16個(gè)配音聲道(overdubchannel)或者叫做多語言聲道(multilingualchannel)和16個(gè)數(shù)據(jù)流2/6/202342信息工程系8.2MPEG音頻壓縮技術(shù)MPEG-2AAC壓縮比為11:1,即每個(gè)聲道的數(shù)據(jù)率為(44.1×16)/11=64kbit/s,而5個(gè)聲道的總數(shù)據(jù)率為320kbit/s的情況下,很難區(qū)分還原后的聲音與原始聲音之間的差別與MPEG的LagerⅡ相比,MPEG-2AAC的壓縮率可提高1倍,而且質(zhì)量更高,與MPEG的LagerⅢ相比,在質(zhì)量相同的條件下數(shù)據(jù)率是它的70%。2/6/202343信息工程系8.2MPEG音頻壓縮技術(shù)MPEG-2AAC的配置開發(fā)MPEG-2AAC標(biāo)準(zhǔn)采用的方法與開發(fā)MPEGAudio標(biāo)準(zhǔn)采用的方法不同。后者采用的方法是對(duì)整個(gè)系統(tǒng)進(jìn)行標(biāo)準(zhǔn)化,而前者采用的方法是模塊化的方法,把整個(gè)AAC系統(tǒng)分解成一系列模塊,用標(biāo)準(zhǔn)化的AAC工具(advancedaudiocodingtools)對(duì)模塊進(jìn)行定義AAC標(biāo)準(zhǔn)定義了三種配置:基本配置、低復(fù)雜性配置和可變采樣率配置:2/6/202344信息工程系8.3美國HDTVAC-3音頻壓縮技術(shù)1.杜比AC-3環(huán)繞聲系統(tǒng)AC(AudioCoding)-3是一種播放高音質(zhì)和效果的環(huán)繞聲系統(tǒng)杜比AC-3系統(tǒng)利用心理聲學(xué)原理對(duì)音頻信號(hào)進(jìn)行壓縮編碼其取樣頻率有32KHz、44.1KHz、48KHz對(duì)音頻聲道采用獨(dú)立方式編碼,將每個(gè)聲道的頻率范圍擴(kuò)展到20Hz~20kHz全頻域杜比AC-3的基本聲道有5個(gè),即前方左、右、中聲道,后方環(huán)繞左和環(huán)繞右聲道,另外還有一個(gè)超重低音聲道,共有6個(gè)聲道。其中超重低音聲道的最高頻率為120Hz,不能算一個(gè)完整的聲道,因此又稱為0.1聲道,這樣加起來便稱為5.1聲道2/6/202345信息工程系8.3美國HDTVAC-3音頻壓縮技術(shù)杜比AC-3環(huán)繞聲播放系統(tǒng)2/6/202346信息工程系8.3美國HDTVAC-3音頻壓縮技術(shù)其特點(diǎn)有:

(1)全音頻聲道。AC-3系統(tǒng)播放的音質(zhì)清晰,聲場(chǎng)動(dòng)態(tài)范圍廣,聲象重現(xiàn)逼真,具有真實(shí)現(xiàn)場(chǎng)感

(2)立體環(huán)繞聲。AC-3系統(tǒng)具有左和右后方環(huán)繞聲道,其環(huán)繞包圍感很強(qiáng),烘托現(xiàn)場(chǎng)氣氛逼真,可使視聽者進(jìn)入出神入化的境界

(3)聲道之間分離度高從家庭影院的應(yīng)用和發(fā)展來看,杜比AC-3環(huán)繞聲系統(tǒng)將可能成為主流(1)美國已確定杜比AC-3環(huán)繞聲系統(tǒng)為HDTV(高清晰度電視)音頻信號(hào)的編碼和解碼標(biāo)準(zhǔn)

(2)數(shù)字視盤機(jī)(DVD)的音頻也采用AC-3音頻標(biāo)準(zhǔn)

(3)美國幾乎所有著名的電影公司制作

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論