音頻處理技術課件_第1頁
音頻處理技術課件_第2頁
音頻處理技術課件_第3頁
音頻處理技術課件_第4頁
音頻處理技術課件_第5頁
已閱讀5頁,還剩165頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1第4章多媒體音頻處理技術4.1音頻信號及其概念4.2模擬音頻的數字化過程4.3聲卡的組成和功能4.4音頻文件的格式與處理軟件4.5樂器數字接口-MIDI4.6數字音頻的應用2022/11/251第4章多媒體音頻處理技術4.1音頻信號及其概念20222022/11/2522022/11/2334.1.1聲音處理技術歷史回顧記錄:19世紀,愛迪生,留聲機。電聲技術:研究可聽聲頻率范圍內聲音的產生、傳播、存儲、重放和接收的技術。依靠電來記錄并播放聲音,通過電壓產生模擬聲波變化的電流信號是模擬信號。隨著計算機技術和存儲設備的發(fā)展,數字化音頻處理技術也得到了發(fā)展。2022/11/2534.1.1聲音處理技術歷史回顧2022/11/234圖4-2用磁帶記錄聲音的錄音機

2022/11/254圖4-2用磁帶記錄聲音的錄音機2022/11/2354.1.2聲音信號的形式任何聲音都是物體振動產生的現象,其在介質中的傳播稱為聲波。聲源所引起的空氣壓力變化,被耳朵的耳膜所檢測,然后產生電信號刺激大腦的聽覺神經,從而使人們能感覺到聲音的存在。

2022/11/2554.1.2聲音信號的形式2022/11/2364.1.2聲音信號的形式

語音信號:語言的物質載體,具有復雜的語法和語義,難于識別。非語音信號:音樂,自然界的聲音,信息量低,識別簡單。2022/11/2564.1.2聲音信號的形式2022/11/237圖4-4在自然界,聲波與水波一樣都是一種振動波2022/11/257圖4-4在自然界,聲波與水波一樣都是一種振動波20228圖4-5用聲音錄制軟件記錄的英文單詞”Hello”語音的實際波形2022/11/258圖4-5用聲音錄制軟件記錄的英文單詞”Hello”語音94.1.3模擬音頻信號的物理特征

頻率:體現音調的高低,單位Hz

幅度:體現聲音的強弱,單位dB語音信號頻率范圍:300Hz~3000Hz

可聽頻率帶寬(音頻):20Hz~20kHz2022/11/2594.1.3模擬音頻信號的物理特征2022/11/23102022/11/25102022/11/2311圖4-6聲波的頻率、周期與振幅2022/11/2511圖4-6聲波的頻率、周期與振幅2022/11/2312次聲波人耳可聽域超聲波<20Hz

20~20,000Hz>20,000Hz女性語音150Hz~10,000Hz電話語音200Hz~3,400Hz調幅廣播(AM)50Hz~7,000Hz調頻廣播(FM)20Hz~15,000Hz高級音響10Hz~40,000Hz男性語音100Hz~9,000Hz聲源種類頻帶寬度教學進程2022/11/2512次聲波人耳可聽域超聲波<20Hz13聲音質量分級與帶寬圖4-8四級聲音質量的頻率范圍

2022/11/2513聲音質量分級與帶寬圖4-8四級聲音質量的頻率范圍2014聲音的質量與聲音的頻率范圍有關。一般說來,頻率范圍越寬聲音的質量就越高。對語音而言,常用可懂度、清晰度、自然度來衡量;而對音樂來說,保真度、空間感、音響效果都是重要的指標2022/11/2514聲音的質量與聲音的頻率范圍有關。2022/11/2315第4章多媒體音頻處理技術4.1音頻信號及其概念4.2模擬音頻的數字化過程4.3聲卡的組成和功能4.4音頻文件的格式與處理軟件4.5樂器數字接口-MIDI4.6數字音頻的應用2022/11/2515第4章多媒體音頻處理技術4.1音頻信號及其概念20162022/11/25162022/11/2317借助于A/D或D/A轉換器,模擬信號和數字信號可以互相轉換2022/11/2517借助于A/D或D/A轉換器,模擬信號和數字信號可以互相轉182022/11/25182022/11/23194.2.1采樣為實現A/D轉換,需要把模擬音頻信號波形進行分割(每隔一定的時間間隔測一次模擬音頻的值(如電壓)),以轉變成數字信號,這種方法稱為采樣(Sampling)。每秒鐘采樣的次數稱為采樣率。數字音頻是離散的,而模擬音頻是連續(xù)的,數字音頻質量的好壞與采樣率密切相關。數字音頻信息可以被計算機存儲、處理和播放。

Nyquist采樣定理:只有采樣頻率高于聲音信號最高頻率的兩倍時,才能把數字信號表示的聲音還原為原來的聲音。2022/11/25194.2.1采樣2022/11/2320圖4-9聲音的采樣和量化示意圖2022/11/2520圖4-9聲音的采樣和量化示意圖2022/11/23214.2.2量化用某種數字化的方法來反映某一瞬間聲波幅度的電壓值的大小稱為量化。

采樣后的信號按照整個聲波的幅度(幅度軸)劃分稱有限個區(qū)段的集合,把落入某個區(qū)段內的樣值歸為一類,并賦予形同的量化值。采用二進制,以16位或256位等的方式來進行。2022/11/25214.2.2量化2022/11/2322輸入輸出輸入輸出均勻量化非均勻量化2022/11/2522輸入輸出輸入輸出均勻量化非均勻量化2022/11/2323數字音頻等級信號類型頻率范圍Hz采樣頻率KHz量化精度(位)電話語音200~340088寬帶音頻50~70001616調頻廣播20~15k37.816CD-DA20~22k44.116SACD2-100k2822.41(信息流)DVD-AUDIO100k96~19224HDTA48,96,38424,32…2022/11/2523數字音頻等級信號類型頻率范圍Hz采樣頻率KHz量化精度(242022/11/25242022/11/2325教學進程數據量=采樣頻率×(量化位數/8)×聲道數×聲音持續(xù)時間例1

對于調頻廣播級立體聲,采樣頻率為44.1kHz,量化等級為16位(即2字節(jié))聲道形式為雙聲道,則轉換后每秒以千字節(jié)為單位的數據量為:

44100(Hz)×(16/8)(B)×2=176400B/s≈172kB/s例2

用44.1kHz的采樣頻率對聲波進行采樣,每個采樣點的量化位數選用16位,則錄制3分鐘的立體聲節(jié)目,其波形文件所需的存儲容量為:44100(Hz)×(16/8)(B)×2×3×60=31752000B/s≈31007.8kB/s≈30.28MB/s2022/11/2525教學進程數據量=采樣頻率×(量化位數/8)×聲道數×聲音26例3

一般播音員的播音頻率是4kHz,采用8bit的采用精度進行采樣的時候,計算該播音員播音10分鐘的數據量為:8kHz*8bit*10*60=例4

以cd激光盤音質(44.1kHz的采樣頻率,16位立體聲形式)記錄一首5分鐘的樂曲所需的存儲容量為:44100(Hz)×(16/8)(B)×2×5×60=51600kb2022/11/2526例3一般播音員的播音頻率是4kHz,采用8b274.2.3聲音采樣與量化過程示例2022/11/25274.2.3聲音采樣與量化過程示例2022/11/2328圖4-10采樣頻率為1000Hz,10個量化等級的波形2022/11/2528圖4-10采樣頻率為1000Hz,10個量化等級的波29圖4-11經過D/A轉換器得到的信號波形(直線段的波形)有較大的失真2022/11/2529圖4-11經過D/A轉換器得到的信號波形(直線段的波形30圖4-12采樣率為2000Hz,量化等級為20的采樣量化過程2022/11/2530圖4-12采樣率為2000Hz,量化等級為20的采樣量31圖4-13采樣率為4000Hz,量化等級為40的采樣量化過程2022/11/2531圖4-13采樣率為4000Hz,量化等級為40的采樣量324.2.4壓縮編碼依據:聲音信息中存在著多種冗余

聽覺器官的不敏感性采樣的標本中存在著相關性壓縮算法通常應能滿足下列需求:壓縮倍數高,壓縮后的數據率低;

解碼后的信號失真小,質量高;

算法簡單,執(zhí)行速度快,延遲時間短;

編碼器、解碼器的成本低。2022/11/25324.2.4壓縮編碼2022/11/2333壓縮方法(compressionmethod)有損壓縮無損壓縮編碼選擇(codeselection)PC機常用的聲卡上有自適應差分脈沖碼調制方案,μ律/a律等,format(structure)2022/11/2533壓縮方法(compressionmethod)202234音頻信息的壓縮技術

Huffman

編碼無損壓縮

行程編碼

全頻帶編碼:

PCM;

DPCM;

ADPCM

子帶編碼

自適應變換編碼ATC;心理學模型波形編碼

矢量量化編碼參數編碼

線性預測

LPC

矢量和激勵線性預測

VSELP

多脈沖線性預測

MP-LPC有

縮混合編碼

碼本激勵線性預測

CELP2022/11/2534音頻信息的壓縮技術Huffma35圖4-14音頻信號處理過程2022/11/2535圖4-14音頻信號處理過程2022/11/2336第4章多媒體音頻處理技術4.1音頻信號及其概念4.2模擬音頻的數字化過程4.3聲卡的組成和功能4.4音頻文件的格式與處理軟件4.5樂器數字接口-MIDI4.6數字音頻的應用2022/11/2536第4章多媒體音頻處理技術4.1音頻信號及其概念20374.3.1聲卡的工作原理圖4-16聲卡工作原理框圖采用大規(guī)模集成電路設計,將音頻技術范圍的各類電路以專用芯片的形式集成在聲卡上,并可直接插入計算機的擴展槽中使用。2022/11/25374.3.1聲卡的工作原理圖4-16聲卡工作原理框圖381.主芯片-數字信號處理器聲音信息處理、特殊音效過濾與處理、語音識別、實施壓縮等等任務。2.混音芯片-CODEC負責調節(jié)各聲音來源的音量、混音與調整錄放音的音量大小圖4-18SoundBlasterPCI64聲卡的混音器設置界面2022/11/25381.主芯片-數字信號處理器圖4-18SoundBl393.合成器

負責MIDI樂曲的合成可以及時創(chuàng)造各種音樂MIDI合成器有兩種:頻率調制合成器(FM合成器)、波形表(Wavetable合成器)。4.總線接口和控制器總線接口和控制器由數據總線雙向驅動器、總線接口控制邏輯、總線中斷邏輯和DMA控制邏輯組成。5.外部輸入輸出口聲卡外部輸入輸出口均為3.5mm規(guī)格插口(MIDI/Joystick除外)2022/11/25393.合成器2022/11/23402022/11/25402022/11/23414.3.2聲卡的性能指標1.音頻技術指標2.MIDI音頻3.聲道數(DolbyAC-3等)圖4-195.1聲道系統(tǒng)的布局圖2022/11/25414.3.2聲卡的性能指標圖4-195.1聲道系統(tǒng)42

4.多音頻流輸出5.I/O設備接口

6.聲卡軟件

7.總線結構圖4-20支持5.1聲道系統(tǒng)的聲卡接口2022/11/25424.多音頻流輸出圖4-20支持5.1聲道系統(tǒng)的聲卡接432022/11/25432022/11/23442022/11/25442022/11/23452022/11/25452022/11/2346杜比與DTS1.DolbyDigitalMono:杜比數字單聲道音效只有單聲道的效果,并不足以構成立體聲,

2.DolbyDigitalStereo:杜比數字雙聲道音效將雙聲道的立體訊號儲存為AC-3格式,

3.DoblyDigitalSurround:杜比數字環(huán)繞音效4.DolbyDigital4.0:杜比數字環(huán)繞音效4.05.DolbyDigital5.0:杜比數字環(huán)繞音效5.06.DolbyDigital5.1:杜比數字環(huán)繞音效5.1以DolbyDigital來表示DolbyDigital5.1,也就是5.1聲道的

DolbyDigital或AC-3.

7.Dolbydigital7.1~11.1等等2022/11/2546杜比與DTS1.DolbyDigitalMo47杜比與DTSPCM高音質數字音效:DVD利用PCM格式儲存未經壓縮的雙聲道訊號,由于DVD具有龐大的

空間與速度優(yōu)勢,可以大膽使用更高的取樣率與解析度,因此可以提供遠高于傳統(tǒng)CD的表現

DTS數字環(huán)繞音效:屬于5.1聲道的環(huán)繞效果,DTS采用與AC-3不同的壓縮技術將環(huán)繞音效儲存至DVD.播放時必須采用具有dts譯碼能力的系統(tǒng).DTS跟DolbyDigital5.1最大的差別在于兩者使用不同的”算法”2022/11/2547杜比與DTSPCM高音質數字音效:DVD利用PCM格484.3.3聲卡的主要功能錄制與播放聲音

通過接在聲卡上的話筒錄制聲音,并以文件形式保存在計算機中,隨時可打開聲音文件進行播放。聲音文件的格式可因使用不同的軟件而不同。

音樂合成

利用聲卡上的合成器將存儲在計算機內存中的MIDI文件合成為音樂樂曲。通過混合器混合和處理多個不同音頻源的聲音,控制和調節(jié)音量大小,最后送至音箱或耳機播放。2022/11/2548錄制與播放聲音通過接在聲卡上的話筒錄制聲音,并以文件49壓縮和解壓縮音頻文件

目前,大多數聲卡上都固化了不同標準的音頻壓縮和解壓縮軟件,常用的壓縮編碼方法有ADPCM(自適應差分脈沖編碼調制)和ACM(微軟音頻壓縮管理器)等,壓縮比大約為2:1~5:l。與MIDI設備和CD驅動器的連接

通過聲卡上的MIDI接口,計算機可以同外界的MIDI設備相連接,如連接電子琴、電吉他等,使MPC具有創(chuàng)作電腦樂曲和播放MIDI文件的功能。游戲桿也可通過MIDI接口與計算機相連接,使游戲玩起來得心應手。2022/11/2549壓縮和解壓縮音頻文件目前,大多數聲卡上都固化了不同標準50第4章多媒體音頻處理技術4.1音頻信號及其概念4.2模擬音頻的數字化過程4.3聲卡的組成和功能4.4音頻文件的格式與處理軟件4.5樂器數字接口-MIDI4.6數字音頻的應用2022/11/2550第4章多媒體音頻處理技術4.1音頻信號及其概念2051

4.4.1數字音頻的文件格式圖4-21常用音頻格式2022/11/25514.4.1數字音頻的文件格式圖4-21常用音頻格式521.WAV文件——.wav2.MP3——.mp33.MP4——.mp44.RealAudio文件—.ra/.rm/.ram5.APE文件——.ape圖4-22MP3是Internet上流行的音樂格式2022/11/25521.WAV文件——.wav圖4-22MP3是Inte536.MIDI文件——.midi7.CD文件——.cda8.AAC文件——.m4a.mp4等9.PCM文件——.pcm10.WMA文件——.wma11.VOC文件——.voc12.AIFF文件——.aif/.aiff13.HDTA文件——.hdta2022/11/25536.MIDI文件——.midi2022/11/2354HDTA可變結構高解析度音頻(Hi-DefinitionTransformableAudio)是一種結合了互動性和高解析度音頻的新一代音頻格式。

HDTA按照不同的標準,主要分為以下幾種:

TA(只支持16Bit/44.1KHz傳統(tǒng)音頻)

HDTA立體聲(只支持高解析度的雙聲道)

HDTA環(huán)繞聲(支持6,8,16個聲道的環(huán)繞聲)新一代的HDTA格式音樂,是徹頭徹尾的數字格式。它不以任何光盤為載體,而是作為一種計算機數據格式存在2022/11/2554HDTA可變結構高解析度音頻(Hi-Definition554.4.2音頻制作與處理軟件1.CoolEdit圖4-25CoolEditPro的界面2022/11/25554.4.2音頻制作與處理軟件圖4-25CoolEdi562.SoundForge圖4-26SoundForge音頻處理軟件

2022/11/25562.SoundForge圖4-26SoundFor57第4章多媒體音頻處理技術4.1音頻信號及其概念4.2模擬音頻的數字化過程4.3聲卡的組成和功能4.4音頻文件的格式與處理軟件4.5樂器數字接口-MIDI4.6數字音頻的應用2022/11/2557第4章多媒體音頻處理技術4.1音頻信號及其概念20584.5.1什么是MIDI

MIDI是數字音樂接口(MusicalInstrumentDigitalInterface)的縮寫?;蛘哒f,MIDI是用來將電子樂器相互連接,或將MIDI設備與電腦連接成系統(tǒng)的一種通訊協(xié)議。通過它,各種MIDI設備都可以準確傳送MIDI信息。不屬于數字音響技術的范疇Midi數據不是數字的音頻波形,而是音樂代碼或電子樂譜4.5樂器數字接口-MIDI2022/11/25584.5.1什么是MIDI4.5樂器數字接口-MIDI594.5.2MIDI系統(tǒng)的組成2022/11/25594.5.2MIDI系統(tǒng)的組成2022/11/23601.合成器圖4-28具有USB接口的MIDI鍵盤使用振蕩器來產生聲樂的一種電子樂器,通過振蕩器的電流震蕩產生各種波形并進行處理,合成出新的音樂。合成器中的音序器和音色分別由軟件和獨立音源來代替,因此產生控制鍵盤。2022/11/25601.合成器圖4-28具有USB接口的MIDI鍵盤使用振612.音源圖4-29硬件音源產品(RolandJV1080)音源音色的數量、品種和質量都將對最終音樂作品的效果產生重要的影響。音源內部是不同音色的樣本波形,由音序器來決定何時調用。分為軟硬件兩種,專業(yè)硬件音源、多媒體聲卡上包含GM音色庫、以插件形式的軟音源。2022/11/25612.音源圖4-29硬件音源產品(RolandJV10623.音序器(Sequencer)

記錄、編輯和播放midi文件的設備,硬件音序器又稱為編曲機,軟件音序器是音樂創(chuàng)作、編輯軟件,比如Cakewalk等。4.采樣器

對聲音進行采樣、然后編輯成多種的音色。5.其它設備如錄音設備、監(jiān)聽設備、音箱功放等

YamahaQY100音序器2022/11/25623.音序器(Sequencer)YamahaQY100634.5.3MIDI的工作過程

midi消息實際上是對一段音樂的描述,或理解為對樂譜的數字描述,包括音符、節(jié)拍、樂器種類等信息。消息分為狀態(tài)信息和數據信息。

狀態(tài)信息描述音符被演奏或是聲音被加強等數據信息描述那個音符被演奏了,或被加強的聲音的強度如何這類可以用量來表示的信息。2022/11/25634.5.3MIDI的工作過程2022/11/2364圖4-31MIDI的工作過程2022/11/2564圖4-31MIDI的工作過程2022/11/23652022/11/25652022/11/23664.5.4FM與波表合成方式1.FM合成法FM稱為“數字式頻率調制合成法”,簡稱FM合成法。FM合成法生成音樂的基本原理是,用數字信號來表示不同音樂的波形,然后把它們組合起來,再通過數模轉換器(DAC)生成音樂播放。2.波表合成法為了能真實地再現音樂,目前的聲卡一般采用音樂樣本合成法,即波表合成法。把真實樂器發(fā)出的聲音以數字的形式記錄下來,存放在“波表文件”中,播放時根據命令生成各種音階的音符,產生的聲音質量比較高。2022/11/25664.5.4FM與波表合成方式2022/11/2367FM合成法:比如MIDI音樂(用符號描述的樂器演奏的音樂聲音)、合成語音(用聲母、韻母或清音、基音頻率等參數描述的語音)等。符號化的聲音表示方法所產生的聲音雖然沒有自然聲那么真實、逼真,但數據量要比波形聲音小得多(2~3個數量級),而且能產生自然界中不存在的聲音,其編輯處理也比波形聲音更加方便一些。

2022/11/2567FM合成法:2022/11/23684.5.5GM-標準MIDI樂器排序表4.5.6MIDI音樂創(chuàng)作軟件與音序軟件圖4-33CakeWalkProAudio音序軟件主界面2022/11/25684.5.5GM-標準MIDI樂器排序表圖4-33C69圖4-34在CakewalkProAudio能容易地對MID樂譜進行編輯和創(chuàng)作2022/11/2569圖4-34在CakewalkProAudio能容70第4章多媒體音頻處理技術4.1音頻信號及其概念4.2模擬音頻的數字化過程4.3聲卡的組成和功能4.4音頻文件的格式與處理軟件4.5樂器數字接口-MIDI4.6數字音頻的應用2022/11/2570第4章多媒體音頻處理技術4.1音頻信號及其概念2071語音識別語音合成2022/11/2571語音識別2022/11/2372語音識別:指機器收到語音信號后,如何模仿人的聽覺器官辨別所聽到的語音內容或講話人的特征,進而模仿人腦理解出該語音的含義或判別出講話人的過程。分類:按講話者分類:

(1)特定人的語音識別系統(tǒng):其特點是依賴于說話者只有在用特定單詞組形成的詞匯表系統(tǒng)訓練后,它才能識別。

(2)非特定人識別系統(tǒng):此類系統(tǒng)可識別任何用戶的語音。2022/11/25722022/11/2373按識別詞的性質分類:

(1)孤立詞(語音)識別系統(tǒng):一次只提供一個單一詞的識別。

(2)連接詞語音識別:連接詞的語音由所說的短語組成,而短語又是由詞序列組成。連接詞語音識別可用于命令和控制應用。

(3)連續(xù)語音識別:這種方法比孤立單詞或連接詞語音識別都復雜許多。2022/11/2573按識別詞的性質分類:2022/11/2374

2022/11/2574

2022/11/2375連續(xù)語音識別系統(tǒng)分成三部分:

數字化、幅度歸一化、時間歸一化和參數表示。分割并把語音段標記成在基于知識或基于規(guī)則系統(tǒng)上的符號串。識別詞序列并進行語音段匹配。

2022/11/2575連續(xù)語音識別系統(tǒng)分成三部分:2022/11/2376語音識別系統(tǒng)的組成采樣、量化語音端點檢測計算語音譜估價音調輪廓圖分解、鑒定語音特征單詞識別識別后的語音語音輸入參考村料庫語義分析理解后的語音語義庫2022/11/2576語音識別系統(tǒng)的組成采樣、量化語音端點檢測計算語音譜估價音77語音識別難度大語音變化大,不同人不一樣,同一人也會有變化。語音有模糊性,不同詞語聽起耒很相似。同一字和詞的發(fā)音受上下文影響而有不同(語音的同化、異化、換位、弱化、脫落等音變現象)。環(huán)境噪聲的干擾,例如墻壁與物體對聲波的反射會與主聲波重迭。連續(xù)語音流不易把單字(詞)區(qū)分出來(端點檢測)例如,若單字(詞)識別正確率為0.95,則:3個單字(詞)組成的句子識別正確率為0.8578個單字(詞)組成的句子識別正確率為0.663單字(詞)與庫中的模板比較之前,必須進行復雜的“時間歸一化”處理。2022/11/2577語音識別難度大語音變化大,不同人不一樣,同一人也會有變化78語音合成(Speechsynthesis):指人們根據語言學的知識,在語音分析技術和語音存儲技術的基礎上,利用適當方法和手段,重構語音的過程。有兩種情況:第一,語音再現。這是一個聲音的還原過程。第二,模仿人說話。首先形成要說的內容;其次轉成基本發(fā)音編碼序列;然后進行判斷理解,決定聲調、重音和語氣,形成“言語碼”;最后控制并輸出語音。2022/11/2578語音合成(Speechsynthesis):指人們根據79語音合成要求是可以理解的,并且是很自然的,應用范圍比較廣,比如自動報警,自動應答,有聲校對,有聲電子郵件,殘疾人服務等2022/11/2579語音合成要求是可以理解的,并且是很自然的,應用范圍比較廣80兩類方法對比較波形合成法規(guī)則合成法語音單位字、詞、短語等音素(元音,輔音;聲母,韻母等)存儲形式波形形式特性參數(基頻,幅度,共振峰等)合成方法波形連接優(yōu)缺點存儲量大;可懂度、自然度受語音單元大小的影響由音素組成音節(jié),音節(jié)組成字和詞,然后再組成句子在儲量小,但很難得到高質量的語音2022/11/2580兩類方法對比較波形合成法規(guī)則合成法語音單位字、詞、短語等81語音生成同樣有困難語音單元的自然連接問題語氣、語調問題多音字(詞)問題

趨勢:Sound-specificmethods(兩種方法相結合)2022/11/2581語音生成同樣有困難語音單元的自然連接問題2022/11/82語音合成方法(三種)波形編碼分析合成按規(guī)則合成波形特性參數語言符號存儲器(模擬/數字)存儲器(參數)合成規(guī)則(參數轉換)存儲單元波形連接存儲器(參數)參數連接存儲器(參數)參數序列的生成存儲器(參數)信息的基本形成輸入數據語音語音語音2022/11/2582語音合成方法(三種)波形編碼分析合成按規(guī)則合成波形特性83文語轉換器文—語轉換:與錄音的重放不同,它是從輸入的任何文本產生合成語音輸出,這就相當于人去讀書面文章的過程。這個過程既包含有很高級的信息處理,又包含發(fā)音器官復雜的生理控制。

兩個組成部分:發(fā)音器:語音合成器,它相當人的發(fā)音系統(tǒng)。驅動器:輸入是要發(fā)聲的文本串或其它語言信息,輸出用來驅動發(fā)聲器發(fā)音。2022/11/2583文語轉換器文—語轉換:與錄音的重放不同,它是從輸入的任何84語法規(guī)則詞庫發(fā)音詞典文本分析語音控制韻律控制(節(jié)奏,音調)語音合成器音素庫

韻律規(guī)則庫語音輸出文本音標韻律音長,加重,聲調,停頓綜合譜,形狀反射,聲道特性2022/11/2584語法規(guī)則詞庫發(fā)音詞典文本分析語音控制韻律控制語音合成器音85總結課后習題:

1,2,3,7,8,9,11,15,16,17實踐題目:使用聲音處理軟件進行聲音的采集和處理2022/11/2585總結課后習題:2022/11/2386作業(yè)課后作業(yè):書上:1,2,3,7,8,9,11,15,16,17

課外:2022/11/2586作業(yè)課后作業(yè):2022/11/2387第4章多媒體音頻處理技術4.1音頻信號及其概念4.2模擬音頻的數字化過程4.3聲卡的組成和功能4.4音頻文件的格式與處理軟件4.5樂器數字接口-MIDI4.6數字音頻的應用2022/11/251第4章多媒體音頻處理技術4.1音頻信號及其概念202882022/11/2522022/11/23894.1.1聲音處理技術歷史回顧記錄:19世紀,愛迪生,留聲機。電聲技術:研究可聽聲頻率范圍內聲音的產生、傳播、存儲、重放和接收的技術。依靠電來記錄并播放聲音,通過電壓產生模擬聲波變化的電流信號是模擬信號。隨著計算機技術和存儲設備的發(fā)展,數字化音頻處理技術也得到了發(fā)展。2022/11/2534.1.1聲音處理技術歷史回顧2022/11/2390圖4-2用磁帶記錄聲音的錄音機

2022/11/254圖4-2用磁帶記錄聲音的錄音機2022/11/23914.1.2聲音信號的形式任何聲音都是物體振動產生的現象,其在介質中的傳播稱為聲波。聲源所引起的空氣壓力變化,被耳朵的耳膜所檢測,然后產生電信號刺激大腦的聽覺神經,從而使人們能感覺到聲音的存在。

2022/11/2554.1.2聲音信號的形式2022/11/23924.1.2聲音信號的形式

語音信號:語言的物質載體,具有復雜的語法和語義,難于識別。非語音信號:音樂,自然界的聲音,信息量低,識別簡單。2022/11/2564.1.2聲音信號的形式2022/11/2393圖4-4在自然界,聲波與水波一樣都是一種振動波2022/11/257圖4-4在自然界,聲波與水波一樣都是一種振動波202294圖4-5用聲音錄制軟件記錄的英文單詞”Hello”語音的實際波形2022/11/258圖4-5用聲音錄制軟件記錄的英文單詞”Hello”語音954.1.3模擬音頻信號的物理特征

頻率:體現音調的高低,單位Hz

幅度:體現聲音的強弱,單位dB語音信號頻率范圍:300Hz~3000Hz

可聽頻率帶寬(音頻):20Hz~20kHz2022/11/2594.1.3模擬音頻信號的物理特征2022/11/23962022/11/25102022/11/2397圖4-6聲波的頻率、周期與振幅2022/11/2511圖4-6聲波的頻率、周期與振幅2022/11/2398次聲波人耳可聽域超聲波<20Hz

20~20,000Hz>20,000Hz女性語音150Hz~10,000Hz電話語音200Hz~3,400Hz調幅廣播(AM)50Hz~7,000Hz調頻廣播(FM)20Hz~15,000Hz高級音響10Hz~40,000Hz男性語音100Hz~9,000Hz聲源種類頻帶寬度教學進程2022/11/2512次聲波人耳可聽域超聲波<20Hz99聲音質量分級與帶寬圖4-8四級聲音質量的頻率范圍

2022/11/2513聲音質量分級與帶寬圖4-8四級聲音質量的頻率范圍20100聲音的質量與聲音的頻率范圍有關。一般說來,頻率范圍越寬聲音的質量就越高。對語音而言,常用可懂度、清晰度、自然度來衡量;而對音樂來說,保真度、空間感、音響效果都是重要的指標2022/11/2514聲音的質量與聲音的頻率范圍有關。2022/11/23101第4章多媒體音頻處理技術4.1音頻信號及其概念4.2模擬音頻的數字化過程4.3聲卡的組成和功能4.4音頻文件的格式與處理軟件4.5樂器數字接口-MIDI4.6數字音頻的應用2022/11/2515第4章多媒體音頻處理技術4.1音頻信號及其概念201022022/11/25162022/11/23103借助于A/D或D/A轉換器,模擬信號和數字信號可以互相轉換2022/11/2517借助于A/D或D/A轉換器,模擬信號和數字信號可以互相轉1042022/11/25182022/11/231054.2.1采樣為實現A/D轉換,需要把模擬音頻信號波形進行分割(每隔一定的時間間隔測一次模擬音頻的值(如電壓)),以轉變成數字信號,這種方法稱為采樣(Sampling)。每秒鐘采樣的次數稱為采樣率。數字音頻是離散的,而模擬音頻是連續(xù)的,數字音頻質量的好壞與采樣率密切相關。數字音頻信息可以被計算機存儲、處理和播放。

Nyquist采樣定理:只有采樣頻率高于聲音信號最高頻率的兩倍時,才能把數字信號表示的聲音還原為原來的聲音。2022/11/25194.2.1采樣2022/11/23106圖4-9聲音的采樣和量化示意圖2022/11/2520圖4-9聲音的采樣和量化示意圖2022/11/231074.2.2量化用某種數字化的方法來反映某一瞬間聲波幅度的電壓值的大小稱為量化。

采樣后的信號按照整個聲波的幅度(幅度軸)劃分稱有限個區(qū)段的集合,把落入某個區(qū)段內的樣值歸為一類,并賦予形同的量化值。采用二進制,以16位或256位等的方式來進行。2022/11/25214.2.2量化2022/11/23108輸入輸出輸入輸出均勻量化非均勻量化2022/11/2522輸入輸出輸入輸出均勻量化非均勻量化2022/11/23109數字音頻等級信號類型頻率范圍Hz采樣頻率KHz量化精度(位)電話語音200~340088寬帶音頻50~70001616調頻廣播20~15k37.816CD-DA20~22k44.116SACD2-100k2822.41(信息流)DVD-AUDIO100k96~19224HDTA48,96,38424,32…2022/11/2523數字音頻等級信號類型頻率范圍Hz采樣頻率KHz量化精度(1102022/11/25242022/11/23111教學進程數據量=采樣頻率×(量化位數/8)×聲道數×聲音持續(xù)時間例1

對于調頻廣播級立體聲,采樣頻率為44.1kHz,量化等級為16位(即2字節(jié))聲道形式為雙聲道,則轉換后每秒以千字節(jié)為單位的數據量為:

44100(Hz)×(16/8)(B)×2=176400B/s≈172kB/s例2

用44.1kHz的采樣頻率對聲波進行采樣,每個采樣點的量化位數選用16位,則錄制3分鐘的立體聲節(jié)目,其波形文件所需的存儲容量為:44100(Hz)×(16/8)(B)×2×3×60=31752000B/s≈31007.8kB/s≈30.28MB/s2022/11/2525教學進程數據量=采樣頻率×(量化位數/8)×聲道數×聲音112例3

一般播音員的播音頻率是4kHz,采用8bit的采用精度進行采樣的時候,計算該播音員播音10分鐘的數據量為:8kHz*8bit*10*60=例4

以cd激光盤音質(44.1kHz的采樣頻率,16位立體聲形式)記錄一首5分鐘的樂曲所需的存儲容量為:44100(Hz)×(16/8)(B)×2×5×60=51600kb2022/11/2526例3一般播音員的播音頻率是4kHz,采用8b1134.2.3聲音采樣與量化過程示例2022/11/25274.2.3聲音采樣與量化過程示例2022/11/23114圖4-10采樣頻率為1000Hz,10個量化等級的波形2022/11/2528圖4-10采樣頻率為1000Hz,10個量化等級的波115圖4-11經過D/A轉換器得到的信號波形(直線段的波形)有較大的失真2022/11/2529圖4-11經過D/A轉換器得到的信號波形(直線段的波形116圖4-12采樣率為2000Hz,量化等級為20的采樣量化過程2022/11/2530圖4-12采樣率為2000Hz,量化等級為20的采樣量117圖4-13采樣率為4000Hz,量化等級為40的采樣量化過程2022/11/2531圖4-13采樣率為4000Hz,量化等級為40的采樣量1184.2.4壓縮編碼依據:聲音信息中存在著多種冗余

聽覺器官的不敏感性采樣的標本中存在著相關性壓縮算法通常應能滿足下列需求:壓縮倍數高,壓縮后的數據率低;

解碼后的信號失真小,質量高;

算法簡單,執(zhí)行速度快,延遲時間短;

編碼器、解碼器的成本低。2022/11/25324.2.4壓縮編碼2022/11/23119壓縮方法(compressionmethod)有損壓縮無損壓縮編碼選擇(codeselection)PC機常用的聲卡上有自適應差分脈沖碼調制方案,μ律/a律等,format(structure)2022/11/2533壓縮方法(compressionmethod)2022120音頻信息的壓縮技術

Huffman

編碼無損壓縮

行程編碼

全頻帶編碼:

PCM;

DPCM;

ADPCM

子帶編碼

自適應變換編碼ATC;心理學模型波形編碼

矢量量化編碼參數編碼

線性預測

LPC

矢量和激勵線性預測

VSELP

多脈沖線性預測

MP-LPC有

縮混合編碼

碼本激勵線性預測

CELP2022/11/2534音頻信息的壓縮技術Huffma121圖4-14音頻信號處理過程2022/11/2535圖4-14音頻信號處理過程2022/11/23122第4章多媒體音頻處理技術4.1音頻信號及其概念4.2模擬音頻的數字化過程4.3聲卡的組成和功能4.4音頻文件的格式與處理軟件4.5樂器數字接口-MIDI4.6數字音頻的應用2022/11/2536第4章多媒體音頻處理技術4.1音頻信號及其概念201234.3.1聲卡的工作原理圖4-16聲卡工作原理框圖采用大規(guī)模集成電路設計,將音頻技術范圍的各類電路以專用芯片的形式集成在聲卡上,并可直接插入計算機的擴展槽中使用。2022/11/25374.3.1聲卡的工作原理圖4-16聲卡工作原理框圖1241.主芯片-數字信號處理器聲音信息處理、特殊音效過濾與處理、語音識別、實施壓縮等等任務。2.混音芯片-CODEC負責調節(jié)各聲音來源的音量、混音與調整錄放音的音量大小圖4-18SoundBlasterPCI64聲卡的混音器設置界面2022/11/25381.主芯片-數字信號處理器圖4-18SoundBl1253.合成器

負責MIDI樂曲的合成可以及時創(chuàng)造各種音樂MIDI合成器有兩種:頻率調制合成器(FM合成器)、波形表(Wavetable合成器)。4.總線接口和控制器總線接口和控制器由數據總線雙向驅動器、總線接口控制邏輯、總線中斷邏輯和DMA控制邏輯組成。5.外部輸入輸出口聲卡外部輸入輸出口均為3.5mm規(guī)格插口(MIDI/Joystick除外)2022/11/25393.合成器2022/11/231262022/11/25402022/11/231274.3.2聲卡的性能指標1.音頻技術指標2.MIDI音頻3.聲道數(DolbyAC-3等)圖4-195.1聲道系統(tǒng)的布局圖2022/11/25414.3.2聲卡的性能指標圖4-195.1聲道系統(tǒng)128

4.多音頻流輸出5.I/O設備接口

6.聲卡軟件

7.總線結構圖4-20支持5.1聲道系統(tǒng)的聲卡接口2022/11/25424.多音頻流輸出圖4-20支持5.1聲道系統(tǒng)的聲卡接1292022/11/25432022/11/231302022/11/25442022/11/231312022/11/25452022/11/23132杜比與DTS1.DolbyDigitalMono:杜比數字單聲道音效只有單聲道的效果,并不足以構成立體聲,

2.DolbyDigitalStereo:杜比數字雙聲道音效將雙聲道的立體訊號儲存為AC-3格式,

3.DoblyDigitalSurround:杜比數字環(huán)繞音效4.DolbyDigital4.0:杜比數字環(huán)繞音效4.05.DolbyDigital5.0:杜比數字環(huán)繞音效5.06.DolbyDigital5.1:杜比數字環(huán)繞音效5.1以DolbyDigital來表示DolbyDigital5.1,也就是5.1聲道的

DolbyDigital或AC-3.

7.Dolbydigital7.1~11.1等等2022/11/2546杜比與DTS1.DolbyDigitalMo133杜比與DTSPCM高音質數字音效:DVD利用PCM格式儲存未經壓縮的雙聲道訊號,由于DVD具有龐大的

空間與速度優(yōu)勢,可以大膽使用更高的取樣率與解析度,因此可以提供遠高于傳統(tǒng)CD的表現

DTS數字環(huán)繞音效:屬于5.1聲道的環(huán)繞效果,DTS采用與AC-3不同的壓縮技術將環(huán)繞音效儲存至DVD.播放時必須采用具有dts譯碼能力的系統(tǒng).DTS跟DolbyDigital5.1最大的差別在于兩者使用不同的”算法”2022/11/2547杜比與DTSPCM高音質數字音效:DVD利用PCM格1344.3.3聲卡的主要功能錄制與播放聲音

通過接在聲卡上的話筒錄制聲音,并以文件形式保存在計算機中,隨時可打開聲音文件進行播放。聲音文件的格式可因使用不同的軟件而不同。

音樂合成

利用聲卡上的合成器將存儲在計算機內存中的MIDI文件合成為音樂樂曲。通過混合器混合和處理多個不同音頻源的聲音,控制和調節(jié)音量大小,最后送至音箱或耳機播放。2022/11/2548錄制與播放聲音通過接在聲卡上的話筒錄制聲音,并以文件135壓縮和解壓縮音頻文件

目前,大多數聲卡上都固化了不同標準的音頻壓縮和解壓縮軟件,常用的壓縮編碼方法有ADPCM(自適應差分脈沖編碼調制)和ACM(微軟音頻壓縮管理器)等,壓縮比大約為2:1~5:l。與MIDI設備和CD驅動器的連接

通過聲卡上的MIDI接口,計算機可以同外界的MIDI設備相連接,如連接電子琴、電吉他等,使MPC具有創(chuàng)作電腦樂曲和播放MIDI文件的功能。游戲桿也可通過MIDI接口與計算機相連接,使游戲玩起來得心應手。2022/11/2549壓縮和解壓縮音頻文件目前,大多數聲卡上都固化了不同標準136第4章多媒體音頻處理技術4.1音頻信號及其概念4.2模擬音頻的數字化過程4.3聲卡的組成和功能4.4音頻文件的格式與處理軟件4.5樂器數字接口-MIDI4.6數字音頻的應用2022/11/2550第4章多媒體音頻處理技術4.1音頻信號及其概念20137

4.4.1數字音頻的文件格式圖4-21常用音頻格式2022/11/25514.4.1數字音頻的文件格式圖4-21常用音頻格式1381.WAV文件——.wav2.MP3——.mp33.MP4——.mp44.RealAudio文件—.ra/.rm/.ram5.APE文件——.ape圖4-22MP3是Internet上流行的音樂格式2022/11/25521.WAV文件——.wav圖4-22MP3是Inte1396.MIDI文件——.midi7.CD文件——.cda8.AAC文件——.m4a.mp4等9.PCM文件——.pcm10.WMA文件——.wma11.VOC文件——.voc12.AIFF文件——.aif/.aiff13.HDTA文件——.hdta2022/11/25536.MIDI文件——.midi2022/11/23140HDTA可變結構高解析度音頻(Hi-DefinitionTransformableAudio)是一種結合了互動性和高解析度音頻的新一代音頻格式。

HDTA按照不同的標準,主要分為以下幾種:

TA(只支持16Bit/44.1KHz傳統(tǒng)音頻)

HDTA立體聲(只支持高解析度的雙聲道)

HDTA環(huán)繞聲(支持6,8,16個聲道的環(huán)繞聲)新一代的HDTA格式音樂,是徹頭徹尾的數字格式。它不以任何光盤為載體,而是作為一種計算機數據格式存在2022/11/2554HDTA可變結構高解析度音頻(Hi-Definition1414.4.2音頻制作與處理軟件1.CoolEdit圖4-25CoolEditPro的界面2022/11/25554.4.2音頻制作與處理軟件圖4-25CoolEdi1422.SoundForge圖4-26SoundForge音頻處理軟件

2022/11/25562.SoundForge圖4-26SoundFor143第4章多媒體音頻處理技術4.1音頻信號及其概念4.2模擬音頻的數字化過程4.3聲卡的組成和功能4.4音頻文件的格式與處理軟件4.5樂器數字接口-MIDI4.6數字音頻的應用2022/11/2557第4章多媒體音頻處理技術4.1音頻信號及其概念201444.5.1什么是MIDI

MIDI是數字音樂接口(MusicalInstrumentDigitalInterface)的縮寫?;蛘哒f,MIDI是用來將電子樂器相互連接,或將MIDI設備與電腦連接成系統(tǒng)的一種通訊協(xié)議。通過它,各種MIDI設備都可以準確傳送MIDI信息。不屬于數字音響技術的范疇Midi數據不是數字的音頻波形,而是音樂代碼或電子樂譜4.5樂器數字接口-MIDI2022/11/25584.5.1什么是MIDI4.5樂器數字接口-MIDI1454.5.2MIDI系統(tǒng)的組成2022/11/25594.5.2MIDI系統(tǒng)的組成2022/11/231461.合成器圖4-28具有USB接口的MIDI鍵盤使用振蕩器來產生聲樂的一種電子樂器,通過振蕩器的電流震蕩產生各種波形并進行處理,合成出新的音樂。合成器中的音序器和音色分別由軟件和獨立音源來代替,因此產生控制鍵盤。2022/11/25601.合成器圖4-28具有USB接口的MIDI鍵盤使用振1472.音源圖4-29硬件音源產品(RolandJV1080)音源音色的數量、品種和質量都將對最終音樂作品的效果產生重要的影響。音源內部是不同音色的樣本波形,由音序器來決定何時調用。分為軟硬件兩種,專業(yè)硬件音源、多媒體聲卡上包含GM音色庫、以插件形式的軟音源。2022/11/25612.音源圖4-29硬件音源產品(RolandJV101483.音序器(Sequencer)

記錄、編輯和播放midi文件的設備,硬件音序器又稱為編曲機,軟件音序器是音樂創(chuàng)作、編輯軟件,比如Cakewalk等。4.采樣器

對聲音進行采樣、然后編輯成多種的音色。5.其它設備如錄音設備、監(jiān)聽設備、音箱功放等

YamahaQY100音序器2022/11/25623.音序器(Sequencer)YamahaQY1001494.5.3MIDI的工作過程

midi消息實際上是對一段音樂的描述,或理解為對樂譜的數字描述,包括音符、節(jié)拍、樂器種類等信息。消息分為狀態(tài)信息和數據信息。

狀態(tài)信息描述音符被演奏或是聲音被加強等數據信息描述那個音符被演奏了,或被加強的聲音的強度如何這類可以用量來表示的信息。2022/11/25634.5.3MIDI的工作過程2022/11/23150圖4-31MIDI的工作過程2022/11/2564圖4-31MIDI的工作過程2022/11/231512022/11/25652022/11/231524.5.4FM與波表合成方式1.FM合成法FM稱為“數字式頻率調制合成法”,簡稱FM合成法。FM合成法生成音樂的基本原理是,用數字信號來表示不同音樂的波形,然后把它們組合起來,再通過數模轉換器(DAC)生成音樂播放。2.波表合成法為了能真實地再現音樂,目前的聲卡一般采用音樂樣本合成法,即波表合成法。把真實樂器發(fā)出的聲音以數字的形式記錄下來,存放在“波表文件”中,播放時根據命令生成各種音階的音符,產生的聲音質量比較高。2022/11/25664.5.4FM與波表合成方式2022/11/23153FM合成法:比如MIDI音樂(用符號描述的樂器演奏的音樂聲音)、合成語音(用聲母、韻母或清音、基音頻率等參數描述的語音)等。符號化的聲音表示方法所產生的聲音雖然沒有自然聲那么真實、逼真,但數據量要比波形聲音小得多(2~3個數量級),而且能產生自然界中不存在的聲音,其編輯處理也比波形聲音更加方便一些。

2022/11/2567FM合成法:2022/11/231544.5.5GM-標準MIDI樂器排序表4.5.6MIDI音樂創(chuàng)作軟件與音序軟件圖4-33CakeWalkProAudio音序軟件主界面2022/11/25684.5.5GM-標準MIDI樂器排序表圖4-33C155圖4-34在CakewalkProAudio能容易地對MID樂譜進行編輯和創(chuàng)作2022/11/2569圖4-34在CakewalkProAudio能容156第4章多媒體音頻處理技術4.1音頻信號及其概念4.2模擬音頻的數字化過程4.3聲卡的組成和功能4.4音頻文件的格式與處理軟件4.5樂器數字接口-M

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論