![(電路與系統(tǒng)專業(yè)論文)基于時頻分析的歌聲分離[電路與系統(tǒng)專業(yè)優(yōu)秀論文].pdf_第1頁](http://file.renrendoc.com/FileRoot1/2019-12/13/e22ccbbb-0f37-4cf1-bd56-08bd7b1d9037/e22ccbbb-0f37-4cf1-bd56-08bd7b1d90371.gif)
![(電路與系統(tǒng)專業(yè)論文)基于時頻分析的歌聲分離[電路與系統(tǒng)專業(yè)優(yōu)秀論文].pdf_第2頁](http://file.renrendoc.com/FileRoot1/2019-12/13/e22ccbbb-0f37-4cf1-bd56-08bd7b1d9037/e22ccbbb-0f37-4cf1-bd56-08bd7b1d90372.gif)
![(電路與系統(tǒng)專業(yè)論文)基于時頻分析的歌聲分離[電路與系統(tǒng)專業(yè)優(yōu)秀論文].pdf_第3頁](http://file.renrendoc.com/FileRoot1/2019-12/13/e22ccbbb-0f37-4cf1-bd56-08bd7b1d9037/e22ccbbb-0f37-4cf1-bd56-08bd7b1d90373.gif)
![(電路與系統(tǒng)專業(yè)論文)基于時頻分析的歌聲分離[電路與系統(tǒng)專業(yè)優(yōu)秀論文].pdf_第4頁](http://file.renrendoc.com/FileRoot1/2019-12/13/e22ccbbb-0f37-4cf1-bd56-08bd7b1d9037/e22ccbbb-0f37-4cf1-bd56-08bd7b1d90374.gif)
![(電路與系統(tǒng)專業(yè)論文)基于時頻分析的歌聲分離[電路與系統(tǒng)專業(yè)優(yōu)秀論文].pdf_第5頁](http://file.renrendoc.com/FileRoot1/2019-12/13/e22ccbbb-0f37-4cf1-bd56-08bd7b1d9037/e22ccbbb-0f37-4cf1-bd56-08bd7b1d90375.gif)
已閱讀5頁,還剩50頁未讀, 繼續(xù)免費(fèi)閱讀
(電路與系統(tǒng)專業(yè)論文)基于時頻分析的歌聲分離[電路與系統(tǒng)專業(yè)優(yōu)秀論文].pdf.pdf 免費(fèi)下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
山東人學(xué)頌i j 學(xué)位論文 摘要 為實(shí)現(xiàn)對大型在線音樂數(shù)據(jù)進(jìn)行自動分析、組織和檢索,樂音分 離在近幾年越來越受到人們的關(guān)注。非立體聲分離是希望從單一聲道 的多音音樂中恢復(fù)出每一個聲源樂器聲線,這是一個非常具有挑戰(zhàn)性 的問題。而本文要研究的是歌聲分離,也就是從單一聲道的多音音樂 中將歌唱聲分離出來,并且能達(dá)到較好的分離效果。概括地說,現(xiàn)有 的非立體聲樂音分離系統(tǒng)都是基于傳統(tǒng)的信號處理技術(shù)( 主要是正弦 模型) ,統(tǒng)計技術(shù)( 如稀疏編碼和非負(fù)矩陣分解) ,或者基于心理聲 學(xué)的研究( 計算聽覺場景分析,c a s a ) 。 音樂信號是一種典型的非平穩(wěn)信號,因此對于分析音樂信號,時 頻( t f ) 分析方法是有效的。t f 分析方法是非平穩(wěn)信號處理的一個 重要分支,它是利用時間和頻率的聯(lián)合函數(shù)來表示非平穩(wěn)信號,并對 其進(jìn)行分析和處理。t f 分析方法按照t - f 聯(lián)合函數(shù)的不同可以分為線 性和非線性兩種。常見的線性t f 表示主要有短時傅立葉變換( s t f t ) 、 g a b o r 展開以及小波變換等。非線性t f 方法主要有w i g n e r v i l l e 分布 ( w v d ) 和c o h e n 類。此外,聽覺濾波器也逐漸成為對信號進(jìn)行t f 分析的重要方式。 c a s a 研究的主要目標(biāo)是分析一個聽覺場景,并識別場景中的各 種聲音。我們也是根據(jù)c a s a 的思想建立了基于t f 分析的歌聲分離 系統(tǒng)。該分離系統(tǒng)由四個模塊組成:t f 分解、主音高檢測、歌聲t - f 信息的提取和歌聲的合成。在t - f 分解階段我們采用了s t f t 和 g a m m a t o n e 濾波器兩種t - f 分析技術(shù),由此設(shè)計出兩種分離方法?;?于s t f t 的歌聲分離系統(tǒng),在t f 分解階段是利用s t f t 將輸入的時域 信號變換到t f 域。經(jīng)過這樣的處理,信號的頻譜具有隨時間變化的 特點(diǎn)?;趃 a m m a t o n e 濾波器的歌聲分離系統(tǒng),是利用一個g a m m a t o n e 濾波器組將輸入信號分解成多個頻帶的時域信號,然后將每個濾波器 的輸出劃分為重疊的幀。兩種方法的主音高的檢測模塊是一致的。雖 然基音提取的方法有很多,但是大多數(shù)樂音信號是多音信號,所以想 山東人學(xué)碩i :學(xué)位論文 要從多音信號中提取出歌聲的音高相當(dāng)困難。而我們利用樂音的諧波 特性進(jìn)行音高的提取。第三階段是進(jìn)行歌聲t f 信息的提取?;趕 t f t 的方法,是根據(jù)檢測到的主音高,將每一幀信號的頻譜中的各次諧波 結(jié)構(gòu)提取出來。而在基于g a m m a t o n e 濾波器的方法中,除了要用到主 音高,還需要計算相關(guān)圖譜和交叉通道互相關(guān),以及端點(diǎn)檢測。最后 一步,s t f t 方法中是對提取的歌聲的短時譜進(jìn)行反變換。而在第二種 分離方法中,對各通道進(jìn)行疊加求和就可以得到分離的歌聲。 關(guān)鍵詞:時頻分析;歌聲分離;主音高檢測;聽覺濾波器;計算聽覺 場景分析 h 山東人學(xué)顧f j 學(xué)位論文 a b s t r a c t a st h ed e m a n df o ra u t o m a t i ca n a l y z i n g ,o r g a n i z i n g ,a n dr e t r i e v i n ga v a s ta m o u n to fo n l i n em u s i cd a t ae x p l o d e s ,m u s i c a ls o u n ds e p a r a t i o nh a s a t t r a c t e ds i g n i f i c a n ta t t e n t i o ni nr e c e n ty e a r s m o n a u r a ls e p a r a t i o nt h a t a t t e m p t s t or e c o v e re a c hs o u r c e i n s t r u m e n tl i n ef r o m s i n g l e - c h a n n e l p o l y p h o n i cm u s i ci sap a r t i c u l a r l yc h a l l e n g i n gp r o b l e m w ew i l ls e p a r a t e t h ev o c a lf r o ms i n g l e c h a n n e l p o l y p h o n i cm u s i c ,a n d o b t a i n g o o d s e p a r a t e dr e s u l t b r o a d l ys p e a k i n g ,e x i s t e dm o n a u r a lm u s i c a ls o u n d s e p a r a t i o n s y s t e m s a r ee i t h e rb a s e do nt r a d i t i o n a ls i g n a l p r o c e s s i n g t e c h n i q u e s ( m a i n l ys i n u s o i d a lm o d e l i n g ) ,s t a t i s t i c a lt e c h n i q u e s ( s u c ha s s p a r s ec o d i n ga n dn o n n e g a t i v em a t r i xf a c t o r i z a t i o n ) ,o rp s y c h o a c o u s t i c s t u d i e s ( c o m p u t a t i o n a la u d i t o r ys c e n ea n a l y s i s ,c a s a ) t i m e - f r e q u e n c y ( t - f ) a n a l y s i si sv e r ye f f e c t i v et or e s e a r c hm u s i c a l s i g n a lw h i c hi sat y p i c a ln o n s t a t i o n a r ys i g n a l t - fa n a l y s i sm e t h o di sa n i m p o r t a n tr a m i f i c a t i o no fn o n s t a t i o n a r ys i g n a lp r o c e s s i n g i te m p l o y st h e j o i n tf u n c t i o no f t i m ea n df r e q u e n c yt or e p r e s e n t ,a n a l y z ea n dp r o c e s st h e n o n - s t a t i o n a r ys i g n a l w ec a nc l a s s i f yt h et - fa n a l y s i sm e t h o d st ol i n e a r a n dn o n l i n e a rr e p r e s e n t a t i o n sa c c o r d i n gt ot h ej o i n tf u n c t i o n t h el i n e a r a n a l y s i si n c l u d e ss h o r t t i m ef o u r i e rt r a n s f o r m ( s t f t ) ,g a b o rt r a n s f o r m a n d w a v e l e tt r a n s f o r m t h en o n l i n e a r a n a l y s i s m e t h o dc o n t a i n s w i g n e r v i l l ed i s t r i b u t i o na n dc o h e n sc l a s s f u r t h e r m o r e ,a u d i t o r yf i l t e r h a sb e c o m ea ni m p o r t a n tt - fa n a l y s i st e c h n i q u e a n a l y z i n ga na u d i t o r y s c e n ea n di d e n t i f y i n gt h ev a r i o u ss o u n d s p r e s e n ti ni th a sb e e nt h ep r i m a r yf o c u so ft h er e s e a r c hc a l l e dc a s a w e d e s i g n t h ev o c a l s e p a r a t i o ns y s t e mb a s e do n t - f a n a l y s i sd r a w i n g i n s p i r a t i o nf r o mt h ec a s a t h es y s t e mc o n s i s t so ft fd e c o m p o s i t i o n , p r e d o m i n a n tp i t c hd e t e c t i o n ,e x t r a c t i o no fv o c a lt - fi n f o r m a t i o na n d s y n t h e s i so fv o c a l b e c a u s es t f ta n dg a m m a t o n ef i l t e r a r eu s e dt o i i i 山東人學(xué)碩i j 學(xué)位論文 d e c o m p o s es i g n a li n t fd e c o m p o s i t i o ns t a g e ,w ed e s i g nt w od i f f e r e n t s e p a r a t i o nm e t h o d s i nt h ev o c a ls e p a r a t i o nm e t h o db a s e do ns t f t ,t h e t i m ed o m a i ns i g n a li st r a n s f o r m e di n t o t i m e - f l e q u e n c yd o m a i n su s i n g s t f t s ot h es p e c t r u mv a r i e sw i t ht i m ea f t e rp r o c e s s i n g b u tt h es y s t e m b a s e do ng a m m a t o n ef i l t e ru s e sag a m m a t o n ef il t e r b a n kt od e c o m p o s e t h e o r i g i n a ls i g n a l i n t o m a n yt i m ed o m a i ns i g n a l sw i t hd i f f e r e n t f l e q u e n c yb a n d s ,t h e ne a c hf i l t e r e do u t p u ta r ed i v i d e di n t oo v e r l a p p i n g f l a m e s t h ep r e d o m i n a n tp i t c hd e t e c t i o ns t a g ei sc o n s i s t e n ti nt h et o w d i f f e r e n ts e p a r a t i o nm e t h o d a l t h o u g hs o m em e t h o d sa r eu s e dt od e t e c t p i t c h ,i ti sv e r yd i f f i c u l tt od e t e c tt h ep i t c ho fv o c a lw h e r et h em u s i c a l s i g n a l sa r ep o l y p h o n i c w ee x t r a c tp i t c ho fv o c a le m p l o y i n gt h eh a r m o n i c c h a r a c t e r i s t i co fm u s i c i nt h et h i r ds t a g e ,t - fi n f o r m a t i o no fv o c a li s e x t r a c t e d t h es t f ts y s t e me x t r a c t st h eh a r m o n i c si n s p e c t r u mo fe a c h f r a m ea c c o r d i n gt od e t e c t e dp r e d o m i n a n tp i t c h i nt h es e c o n ds e p a r a t i o n m e t h o d ,t h ec o r r e l o g r a m ,c r o s s c h a n n e lc o r r e l a t i o na n do n s e td e t e c t i o n f e a t u r e sa r ec o m p u t e db e s i d e sp r e d o m i n a n tp i t c h i nt h el a s t s t a g e ,t h e v o c a li s s y n t h e s i z e d i n v e r s et r a n s f o r mo fe x t r a c t e ds t f to fv o c a li s c o m p u t e d i nt h es t f tm e t h o d v o c a li s s y n t h e s i z e db ya d d i n g a l l c h a n n e l si nt h eg a m m a t o n ef i l t e rm e t h o d k e yw o r d s :t i m e - f r e q u e n c ya n a l y s i s ;v o c a ls e p a r a t i o n ;p r e d o m i n a n t p i t c hd e t e c t i o n ;a u d i t o r yf i l t e r ;c o m p u t a t i o n a la u d i t o r ys c e n ea n a ly s i s i v 原創(chuàng)性聲明 本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師的指 導(dǎo)下,獨(dú)立進(jìn)行研究所取得的成果。除文中已經(jīng)注明引用的 內(nèi)容外,本論文不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫 過的科研成果。對本文的研究作出重要貢獻(xiàn)的個人和集體, 均己在文中以明確方式標(biāo)明。本聲明的法律責(zé)任由本人承擔(dān)。 論文作者簽名:迸查簽 e t 期: 關(guān)于學(xué)位論文使用授權(quán)的聲明 本人完全了解山東大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定, 同意學(xué)校保留或向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和 電子版,允許論文被查閱和借閱;本人授權(quán)山東大學(xué)可以將 本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可 以采用影印、縮印或其他復(fù)制手段保存論文和匯編本學(xué)位論 文。 ( 保密論文在解密后應(yīng)遵守此規(guī)定) 論文作者簽名:粒導(dǎo)師簽名:邋v t e t 期: 學(xué)2 柚 山東人學(xué)碩i j 學(xué)位論文 第一章緒論 1 1 課題研究的背景和意義 在從不同聲源分離聲音這一問題上,人類的聽覺系統(tǒng)有著非凡的 能力。這種能力的一個重要方面就是,人類可以聽出由樂器伴奏的歌 聲。這樣的任務(wù)對人來說是很容易的,但對于機(jī)器而言卻很困難。雖 然語音分離已經(jīng)得到了廣泛地研究,不過從多音音樂中分離歌聲的研 究卻很少。因?yàn)楦杪暿怯砂l(fā)音器官產(chǎn)生,所以對于歌聲分離而言,探 究語音分離技術(shù)是很重要的。從聲音分離的觀點(diǎn)看,歌聲和語音之間 最重要的不同是:與這兩種聲音同時存在的其它干擾聲音在本質(zhì)有所 不同。在一個實(shí)際的聲學(xué)環(huán)境中,語音通常被各種干擾污染,可以是 諧波或非諧波,窄帶或?qū)拵?。在語音和干擾的頻譜不相關(guān)的意義上講, 多數(shù)情況下的干擾和語音是獨(dú)立的。然而,對于唱片中的歌聲幾乎總 是有樂器伴奏,而這些樂器在多數(shù)情況下是諧波的、寬帶的,并且由 于音樂信號是由樂器聲音與歌聲一起組成的一個統(tǒng)一整體,因此樂器 聲音與歌聲還是相關(guān)的【l 】。這樣的差別使歌聲從多音音樂中分離出來 變得更加困難。所以,我們需要結(jié)合更多的時t f 分析技術(shù),來研究 更好的聲音分離技術(shù)。 歌聲分離系統(tǒng)在某些領(lǐng)域有廣泛的應(yīng)用,如自動歌詞識別和校正。 自動歌詞識別通常要求輸入系統(tǒng)的是單獨(dú)的歌聲【2 j ,這對于幾乎所有 的歌曲常常是不實(shí)際的,因?yàn)楦杪暿怯蓸菲靼樽?。不過,如果將成功 的歌聲分離用于預(yù)處理,這樣的要求可以得到滿足。給歌聲校正歌詞 對于卡拉o k 這樣的應(yīng)用是一個關(guān)鍵步驟【3 l ,而且通常這還是一項(xiàng)復(fù)雜 的工作。因此,自動操作該過程將帶來相當(dāng)大的幫助。一個精確的歌 詞校正系統(tǒng)將允許聽眾容易地跟隨歌聲??墒?,當(dāng)伴奏存在時使歌聲 校正歌詞的任務(wù)變得很困難,不過一個分離系統(tǒng)可以用于解決這樣的 問題。歌聲分離系統(tǒng)還可以用于對歌手的辨認(rèn)。幾項(xiàng)研究已經(jīng)解決了 在真實(shí)唱片中歌手辨認(rèn)的問題,但是到目前為止,所做的任何努力都 不能分離一個歌手的聲音。通過歌聲分離,期望提高歌手辨認(rèn)的精確 山東人學(xué)頌j :學(xué)位論文 性。歌聲分離的另一個應(yīng)用領(lǐng)域是音樂信息檢索1 4 】。歌聲攜帶很多有 用的信息,如旋律,歌聲分離就可以用于旋律的提取?;诟杪晹y帶 主要旋律的假設(shè),我們可以利用單頻記譜技術(shù)從分離的歌聲軌跡中提 取旋律。因?yàn)閱我粲涀V比多音記譜更簡單,將歌聲分離作為預(yù)處理就 可以繞開直接利用多音記譜技術(shù)提取旋律的難題。 1 2 t f 分析的發(fā)展 音樂信號的時域分析和頻域分析是音樂分析的兩種重要方法。但 是這兩種方法均有局限性:時域分析對音樂信號的頻率特性沒有直觀 的了解;而頻域特性中又沒有音樂信號隨時問的變換關(guān)系【5 l 。分析與 處理平穩(wěn)信號最常用、最主要的方法是傅立葉變換,它建立了信號從 時域到頻域的變換橋梁,而傅立葉反變換則建立了信號從頻域到時域 的變換橋梁,它們之間是一一對應(yīng)的映射關(guān)。因此在傳統(tǒng)的信號分析 預(yù)處理中,時域和頻域構(gòu)成了表征信號的兩種主要方式。但是傅立葉 變換的不足在于它是在整體上將信號分解為不同的頻率分量,從而缺 乏局域性信息,即對信號的表征要么完全在時域,要么完全在頻域, 它不能揭示某種頻率分量出現(xiàn)在什么時候以及隨時間的變化情況【6 】。 為了克服傳統(tǒng)傅立葉變換的這種全局性變換的局限性,必須使用局部 變換的方法,用時間和頻率的聯(lián)合函數(shù)來表示信號,這就是t f 分析 思想的來源。t f 分析方法按照t - f 聯(lián)合函數(shù)的不同可以分為線性和非 線性兩種【7 1 。此外,就是近年來常用的聽覺濾波器。 1 2 1 線性t f 表示 線性t - f 表示是由傅立葉變換演化而來的,滿足線性疊加性。假 設(shè)x ( t ) = a x , ,( f ) + k 2 ( f ) ,記x ( t ) ,_ ( f ) ,3 f 2 ( f ) 的線性t - f 表示分別為p ( f ,廠) , p l ( t ,門,最( f ,廠) ,則有 p ( t ,廠) = 媚( f ,門+ b g t t ,f ) ( 1 _ 1 ) 常見的線性t - f 表示主要有s t f t 、g a b o r 展開以及小波變換等。s t f t 的基本思想是用一個時間寬度足夠窄的固定的窗函數(shù)乘時間信號,使 取出的信號可以被看成平穩(wěn)的,然后對取出的這一段信號進(jìn)行傅立葉 2 山東人學(xué)碩i j 學(xué)位論文 變換,便可以反映出該時問寬度中的頻譜變化規(guī)律。如果讓這個固定 的窗函數(shù)沿著時自j 軸移動,那就可以得到信號頻譜隨時間變化的規(guī)律。 由于其算法簡單,所以在很長一段時間里成為非平穩(wěn)信號分析標(biāo)準(zhǔn)和 有力的工具。g a b o r 提出了一種同時使用頻率和時間來表示一個時間函 數(shù)的思想和方法,這種方法便是后來的g a b o r 展開。g a b o r 展開的思想 在很大程度上開創(chuàng)了t f 分析的先河?,F(xiàn)在g a b o r 展開已經(jīng)在暫態(tài)信 號檢測,時變?yōu)V波,圖像信號處理等領(lǐng)域取得了成功的應(yīng)用。在s t f t 和g a b o r 展開中都使用了固定的時問窗函數(shù),這就引出了時間分辨率 和頻率分辨率的矛盾。小波變換是一種在時問尺度平面內(nèi),利用多分 辨率分析思想分析非平穩(wěn)信號的方法。由于其本身分辨力的優(yōu)良性能, 一經(jīng)提出便很快成了非平穩(wěn)信號分析和處理的一大熱點(diǎn)1 8 】。 1 2 2 非線性t f 表示 非線性t 。f 表示又叫做二次型t - f 表示,它反映的是信號能量的 t - f 分布,不滿足疊加性。假設(shè)x ( t ) = a x l ( f ) + b x 2 ( f ) ,記x ( t ) ,x l ( t ) ,x 2 ( f ) 的線性時頻表示分別為p ( t ,廠) ,只( f ,門,( f ,) ,則有 p ( t ,) = ia1 21 3 , ( f ,) + ib1 2p 2 ( ,廠) + 2 r e a b p l 2 ( f ,廠) ( 1 2 ) 式中最后一項(xiàng)稱之為干擾項(xiàng),這是非線性t f 表示固有的一個屬性。 非線性t - f 表示主要有c o h e n 類和放射類( a f f i n e ) ,其中最著名的是 w v d 。w v d 和c o h e n 類是采用對信號的雙線性乘積進(jìn)行核函數(shù)加權(quán) 平均的方法來實(shí)現(xiàn)的非線性t f 表示,它們表示的是信號的能量密度 分布。w v d ,由于其本身滿足的大部分所期望的數(shù)學(xué)性質(zhì),如實(shí)值性, 對稱性,邊緣積分特性,能量守恒,t - f 移位等特性,所以它確實(shí)反映 了非平穩(wěn)信號的時變頻譜特性,加之能作相關(guān)化解釋,從而成為非平 穩(wěn)信號分析處理的一個有力的工具。但是由于其對多分量信號產(chǎn)生的 難以抑制的“交叉項(xiàng)干擾 ,從而限制了它的發(fā)展。后來,l c o h e n 將 各種變形的w v d 統(tǒng)一為雙線性t f 分布理論,給出了一個統(tǒng)一的數(shù)學(xué) 公式,通過選取不同的核函數(shù),可以得到不同的t - f 分布,其中w v d 是最簡單的形式。人們把c o h e n 公式所表示的t f 分布統(tǒng)稱為c o h e n 類t - f 分布。c o h e n 類t - f 表示的一個最大特點(diǎn)是時移不變與頻移不變 3 山東人學(xué)碩1 :學(xué)位論文 特性自動滿足。由于只是各種變形w v d 的統(tǒng)一形式,c o h e n 類仍避免 不了交叉項(xiàng)干擾這個缺點(diǎn)f8 1 。 1 2 3 聽覺濾波器 耳蝸常被認(rèn)為是由一組帶通濾波器組成的,因?yàn)樗邆漕l率選擇 功能,可將不同頻率映射到基底膜上的不同位置。這種頻率選擇特性 表現(xiàn)為:基底膜上的每一個位置都對應(yīng)著一個特征頻率,將這個特征 頻率下的純音信號作為輸人刺激耳蝸的時候,基底膜的這個位置會發(fā) 生最大幅度的聽覺神經(jīng)沖動。作為一個濾波器組,耳蝸基底膜具有以 下特征1 9 】: ( 1 變化的濾波器帶寬。低頻處的頻率分辨率較高,高頻處的頻 率分辨率相對較低,這表明耳蝸基底膜的不同位置對應(yīng)的濾波器的帶 寬是不一樣的。 ( 2 ) 單個濾波器的頻率響應(yīng)非對稱。基底膜的每個位置都對應(yīng)一 個特征頻率,該位置對此頻率的信號響應(yīng)幅度最大。特征頻率的低頻 范圍斜率比較平緩,特征頻率的高頻范圍斜率較陡。 ( 3 ) 單個濾波器的頻率響應(yīng)同刺激聲的強(qiáng)度相關(guān)?;啄さ恼駝?特性是呈壓縮非線性的,這意味著雙倍強(qiáng)度的聲音刺激并不會引起雙 倍幅度的基底膜振動。從濾波器角度來看,這表明了單個聽覺濾波器 在特征頻率處的響應(yīng)幅度會隨著刺激聲強(qiáng)度的增加而增加,但是增加 的速度會越來越慢。 目前主要有以下幾種常見的聽覺濾波器。l y o n 等的共振濾波器比 較容易實(shí)現(xiàn),計算復(fù)雜度低,在語音識別領(lǐng)域有一定的應(yīng)用,但是效 果并不理想。r o e x 函數(shù)最早用于擬合入耳對噪聲背景中識別出特定信 號的頻率閾值的掩蔽實(shí)驗(yàn)數(shù)據(jù)。r o e x 函數(shù)濾波器在聽覺掩蔽實(shí)驗(yàn)中得 到了較多的應(yīng)用。但是r o e x 函數(shù)沒有簡單形式的沖激響應(yīng)函數(shù),這是 它的一個最大缺點(diǎn)。因?yàn)間 a m m a t o n e 函數(shù)最早在擬合各種聽神經(jīng)的生 理學(xué)沖激響應(yīng)數(shù)據(jù)中取得了十分滿意的效果,因此是一種應(yīng)用很廣的 聽覺濾波器。g a m m a c h i r p 濾波器也是由沖激響應(yīng)函數(shù)定義的。 g a m m a c h i r p 濾波器克服了g a m m a t o n e 函數(shù)不能模擬基底膜濾波器非對 4 山東人學(xué)碩j :學(xué)位論文 稱、強(qiáng)度依賴特性的缺點(diǎn)。 1 3 聲音分離技術(shù) 一般地說,現(xiàn)有的非立體聲樂音分離系統(tǒng)都是基于傳統(tǒng)的信號處 理技術(shù)( 主要是正弦模型) ,統(tǒng)計技術(shù)( 如稀疏編碼和非負(fù)矩陣分解) , 或者基于心理聲學(xué)的研究( 計算聽覺場景分析) 【1 0 l 。 正弦模型的基本思想是,將一個聲音模擬成具有時變頻率、幅度 和相位的正弦曲線的一個線性組合。要實(shí)現(xiàn)樂音分離,就需要為音樂 中的每個聲源估計所需的參數(shù)。v i r t a n e n 利用最小二乘估計來計算這 些參數(shù),并利用譜包絡(luò)進(jìn)行建模以解決諧波重疊的問題】。e v e r y 和 s z y m a n s k i 利用一種叫做譜濾波器的技術(shù)提取了正弦信號【1 2 】。當(dāng)能夠 準(zhǔn)確估計每個聲源的音高或知道先驗(yàn)知識的情況下,正弦信號建模對 于有較少聲音的多音音樂通常能得出很好的結(jié)果。 用于樂音分離的統(tǒng)計方法,一般是對聲源的某一統(tǒng)計特性進(jìn)行假 設(shè)。稀疏編碼方法就是假設(shè)一個聲源就是來自個過完備集的基的加 權(quán)和。如果某一個基的概率高,權(quán)值就假設(shè)為o ,也就是說大部分的基 在多數(shù)時間里是不起作用的( 無效的) 【3 l 。雖然非負(fù)矩陣分解也試圖 找到一個具有非負(fù)元素的混合矩陣和聲源矩陣,這樣使得重構(gòu)的誤差 最小,但是一般要求混合加權(quán)和聲源是稀疏的【】。最近提出的幾個系 統(tǒng)i 1 5 , 1l 】已經(jīng)證明了統(tǒng)計方法的適用性。但是若將此類方法用于更多的 問題上,還需要進(jìn)一步研究。 最早提出的與聲音分離有關(guān)的概念是聽覺場景分析( a s a ) 。a s a 源自c h e r r y 在l9 5 3 年的發(fā)現(xiàn),即人類聽覺系統(tǒng)能夠從復(fù)雜的混合聲 音中有效地選擇并跟蹤某一說話人的聲音。c h e r r y 把這一現(xiàn)象稱之為 “雞尾酒效應(yīng) 。自此,聲源分離一直是一個重要的研究課題。a s a 這 一概念,首先是由著名心理聽覺學(xué)家a l b e r tb r e g m a n 提出的。b r e g m a n 認(rèn)為,聽覺系統(tǒng)利用聲音的各種特性( 時域、頻域、空間位置等) ,通 過自下而上( 分解) 和自上而下( 學(xué)習(xí)) 的雙向信息交流,對現(xiàn)實(shí)世 界的混合聲音進(jìn)行分解,使各分量歸屬于各自的物理聲源【1 6 l 。a s a 已 經(jīng)激發(fā)研究者為聲音分離建立了c a s a 。與其它聲音分離方法相比, 5 山東人學(xué)碩j :學(xué)位論文 c a s a 做了最小的關(guān)于同時存在的聲音的假設(shè),并利用聲音的固有特 征來替代,因此展示了在非立體聲的歌聲分離中更大的潛力。c a s a 的目標(biāo)是為一般的聲音分離建立計算系統(tǒng)。目前已經(jīng)提出了幾個c a s a 系統(tǒng)用于樂音分離。m e l l i n g e r 所作的工作描述了第一次將c a s a 用于 樂音分離的嘗試i l7 1 。他的系統(tǒng)提取了端點(diǎn)信息和普通的頻率變化,并 利用它們組成了來自相同樂器的頻率泛音。不過,這兩個特征似乎不 能充分地分離不同的聲音。g o d s m a r k 和b r o w n 開發(fā)了一個c a s a 系統(tǒng) 【i8 1 ,為了對各種聲源進(jìn)行分組,該系統(tǒng)在一個黑板體系結(jié)構(gòu)中采用了 調(diào)和性和其它原則。g o t o 開發(fā)了一個音樂現(xiàn)場描述系統(tǒng)【”1 ,該系統(tǒng)為 旋律檢測采用了調(diào)和性原則。另一個由m e r o n 和h i r o s e 提出的系統(tǒng)是 為了從鋼琴伴奏中分離歌聲f 20 1 。為了使系統(tǒng)工作,需要有大量的先驗(yàn) 知識,如預(yù)混合歌聲和鋼琴的泛音軌跡或鋼琴聲音的樂譜。這種先驗(yàn) 知識在多數(shù)情況下是不可知的,因此該系統(tǒng)不能用于大多數(shù)真實(shí)的唱 片。最近,由h u 和w a n g 開發(fā)的一個聲音分離系統(tǒng)成功地從基于音高 跟蹤和調(diào)幅的聲學(xué)干擾中分離了濁音語音【2 。h u w a n g 系統(tǒng)首先使用 了聽覺濾波器作為t f 分解的工具,并為確定的和未確定的諧波使用 了不同的分離方法。 1 4 本文的研究內(nèi)容及章節(jié)安排 本文主要研究基于t - f 分析的歌聲分離技術(shù)。根據(jù)對幾種t f 分析 方法的比較,最終確定兩種分離方法:基于s t f t 的歌聲分離和基于 g a m m a t o n e 濾波器的歌聲分離。歌聲分離過程分為四步:t - f 分解、主 音高檢測、歌聲t - f 信息的提取以及歌聲的合成。我們將會在下面的幾 個章節(jié)詳細(xì)介紹這四個模塊。論文的內(nèi)容安排如下: 第一章緒論,介紹了論文的研究背景和意義,t f 分析的發(fā)展,以 及目前提出的幾種聲音分離技術(shù)。 第二章介紹用于音樂信號處理的幾種t f 分析方法,包括s t f t 、小 波變換、w v d 和g a m m a t o n e 濾波器。 第三章介紹主音高檢測。首先介紹了基音檢測的幾種常見方法, 并介紹在此基礎(chǔ)上發(fā)展的多音音高檢測系統(tǒng)。最后詳細(xì)分析了本文所 6 山東人學(xué)碩f j 學(xué)位論文 用到的方法。 第四章介紹兩種分離方法?;趕 t f t 進(jìn)行歌聲分離的方法,具 體過程包括如何獲得聲音的s t f t ,提取歌聲的短時譜,歌聲的合成。 基于g a m m a t o n e 濾波器進(jìn)行歌聲分離的方法,具體過程包括基于 g a m m a t o n e 濾波器的t f 分解,特征提取,提取歌聲的t f 信息,以 及歌聲的合成。 第五章對本文所做的工作進(jìn)行了總結(jié)。 7 山東人學(xué)碩i j 學(xué)位論文 第二章音樂信號的時一頻分析 t f 分析實(shí)際上是將一維時間信號映射到t f ( 有的是時間一尺度) 二維,很好地表示出信號的頻率成分隨時問的變化規(guī)律。在音樂聲學(xué) 中,傅立葉變換只能充分地表示我們能聽見的單頻信號的音高,不能 簡潔地表示音樂信號的感知現(xiàn)象,從而促進(jìn)了t f 表示理論在音樂信號 分析中的發(fā)展。t f 分析處理能直觀的感覺音樂信號的在時間和頻率上 的變化,還在信號分離中起了非常重要的作用。不同的t - f 方法在分離 中的效果是不一樣的。我們從兩個角度衡量一種t f 分析方法是否適用 于樂音信號的分離。一是某種t - f 方法將時間信號映射到t f 域以后, 還能否轉(zhuǎn)換到時域。另一個就是,某種t f 方法能否很清楚的根據(jù)某一 個或多個特征,提取要分離的歌聲的t f 信息。根據(jù)這兩個標(biāo)準(zhǔn),我們 分別對s t f t 、小波變換、w v d 以及g a m m a t o n e 濾波器進(jìn)行分析和比較, 選出適用于歌聲分離的t f 分析方法。 2 1 短時傅里葉變換 標(biāo)準(zhǔn)傅立葉變換只在頻域罩有局部分析的能力,而在時域里不具 備這種能力。因此,為了研究信號在局部時間范圍內(nèi)的瞬時頻率特性, l9 4 6 年,d g a b o r z j i 入了s t f t 或窗口傅里葉變換的概念。對于分析音 樂信號,s t f t 的方法是有效的解決途徑。由于音樂信號的特性是隨時 間緩慢變化的,因而可以假設(shè)它在一小段時間內(nèi)保持不變。那么,將 s t f t 用于分析樂音信號,就是認(rèn)為音樂信號是局部平穩(wěn)的,可以對某 一幀音樂信號進(jìn)行傅里葉變換,即s t f t ,其定義為 s t f t ,( t ,國) = x ( r ) g ( r f ) p 咖7 d f 1 2 - 1 ) 可見,s t f t 是窗選音樂信號的標(biāo)準(zhǔn)傅里葉變換。式( 2 1 ) 中g(shù) ( r ) 是窗 函數(shù),并且應(yīng)取對稱函數(shù)。選擇不同的窗函數(shù),將得到不同的s t f t 結(jié) 果。由( 2 1 ) 式可以明顯的看出s t f t 是用一個時間寬度足夠窄的固定 的窗函數(shù)乘時間信號,使取出的信號可以被看成平穩(wěn)的,然后對取出 r 山東人學(xué)碩。l 二學(xué)位論文 的這一段信號進(jìn)行傅立葉變換,便可以反映出該時間寬度中的頻譜變 化規(guī)律。如果讓這個固定的窗函數(shù)沿著時間軸移動,那就可以得到信 號頻譜隨時間變化的規(guī)律。 如傅罩葉變換一樣,我們總是希望能由變換域重建出原信號,對 s t f t 也是如此。s t f t 反映信號x ( f ) 在t = f 附近的頻譜特征,即反映出 一個信號在任意局部范圍的頻譜特征,其反變換定義為 工( r ) 2 石1 s 萬她緲腫一f ) e j t o r d t d 緲( 2 - 2 ) 定義式( 2 1 ) 表明,s t f t 是一種線性t f 表示,它具有以下幾個 性質(zhì)。 性質(zhì)1 :疊加性 五( t ) - - ) s z f l ( 口,6 ) ,x 2 ( f ) 專s z f t :( 口,b ) 五( f ) + 如石2 ( f ) 一 s 7 f l ( 口,6 ) + 如s 覡:( 口,6 ) ( 2 3 ) 性質(zhì)2 :頻移不變性 石( f ) 專x ( t ) e 7 州js 阡l ( f ,t o ) - - - - ) s 阡t ( f ,一)( 2 4 ) 性質(zhì)3 :不具有時移不變性 石( f ) 一j ( f - t o ) js t f l ( t ,緲) 爭s 7 :f to - t o ,r o ) e 一耐。 ( 2 5 ) 性質(zhì)4 :s t f t 的低通實(shí)現(xiàn) s t f t ,( t ,緲) = x ( r o + r o ) g + ( 弦歸。d c o7 (2-6) 式中x ( 緲) 和g ( 緲) 分別是函數(shù)工( f ) 和窗函數(shù)g ( t ) 的傅里葉變換。 性質(zhì)5 :s t f t 的帶通實(shí)現(xiàn) 2 2 小波變換 s t f t ,( t ,o j ) = e - j 科x ( 緲) g ( 緲一o ) ) e j t o t d r o ( 2 7 ) 小波變換是2 0 世紀(jì)8 0 年代后期發(fā)展起來的一門新興的應(yīng)用數(shù)學(xué)分 支,近年來有學(xué)者將小波變換應(yīng)用到工程振動信號分析等領(lǐng)域中。在 理論上,構(gòu)成小波變換比較系統(tǒng)框架的主要是法國數(shù)學(xué)家y m e y e r 、 地質(zhì)物理學(xué)家a g r o s s m a n 的貢獻(xiàn)。而把這一理論引用到工程應(yīng)用,特 9 山東人學(xué)碩i j 學(xué)位論文 別是信號處理領(lǐng)域,法國學(xué)者1 d a u b e c h i e s 和s m a l l a t 發(fā)揮了極為重要 的作用。在工程應(yīng)用領(lǐng)域,特別在信號處理、圖像處理、語音分析、 模式識別和量子物理等領(lǐng)域,小波變換被認(rèn)為是信號分析工具和方法 上的重大突破。 給定一個基本函數(shù)沙( f ) ,令 虬。( f ) : y ( 型) ( 2 - 8 ) a a 式中a ,b 均為常數(shù),且a o 。顯然,l f ,口_ 6 ( f ) 是基本函數(shù)緲( f ) 先作移位再 作伸縮以后得到的。若a ,b 不斷地變化,我們可得到一族函數(shù)虬。( f ) 。 信號j ( f ) 的小波變換( w a v e l e tt r a n s f o r m ,w t ) 定義為 w t ,( a , b ) = 忑1 如吵( 學(xué)) 協(xié)= m 礎(chǔ)岫 ( 2 - 9 ) 信號x ( f ) 的小波變換暇( 口,b ) 是a 和b 的函數(shù),b 是時移,a 是尺度因子。 f ,( f ) 又稱為基本小波,或母小波。( f ) 是母小波經(jīng)移位和伸縮所產(chǎn)生 的族函數(shù),我們稱之為小波基函數(shù),或簡稱小波基【22 1 。 記甲( 緲) 為q ( t ) 的傅里葉變換,若 蘭j c o 學(xué) l 。在這種情況下,說明兩個頻率的一次諧波能 量都要比基波能量大。通過上面分析可知,對歌聲而言這屬于正常情 況,但是對樂器來說這是不正常的。造成這種情況的原因在于,在譜 包絡(luò)中選取的能量較大的頻率分量時,可能包含了樂器的基頻,但是 山東人學(xué)碩l :學(xué)位論文 在搜索階段又得到了它的二分頻。這樣的話,得到的二分頻實(shí)際上是 錯誤結(jié)果,可能是譜包絡(luò)中二分頻處j 下好存在的一個峰值,那么一般 情況下該峰值的能量就比較低。而歌聲也存在基波比一次諧波能量低 的情況,但是相差是有限的。所以,如果r 1 和r 2 都大于1 ,我們將較 小的那個值確定為歌聲的音高。 ( 2 ) r i 1 r 2 或r i 1 r 2 。當(dāng)r 1 和r 2 中只有一個大于1 時,我 們既要比較月l 和r 2 的大小,還要給大于1 的比值加一個限制條件。就 像情況( 1 ) 所說的,若大于1 的比值過大,可能是由于錯誤搜索到的 二分頻引起的。因此,我們?yōu)檫@種情況加一個門限值尺臚經(jīng)過實(shí)驗(yàn)結(jié) 果的比較,我們最后選擇r 晴= l0 。若大于1 的比值小于尺表示其代 表歌聲,否則選擇小于1 的比值。 ( 3 ) r i 1 ,r 2 1 。當(dāng)r 1 和r 2 都小于l 時,需要依據(jù)歌聲的諧波 能量變化比樂器的緩慢來判斷哪一個屬于歌聲。也就是說,我們選擇 較大的那個比值為歌聲所對應(yīng)的諧波。 通過以上的三步,我們就可以確定歌聲的音高。針對圖3 5 進(jìn)行 分析,得到r i = 1 15 6 ,r 2 = o 13 4 。這屬于第二種情況,因此我們最終 確定e 。= 5 7 3 5 h z 是歌聲的音高。對要分析的一段音樂信號所有幀進(jìn)行 以上的處理,就可以最終得到整段音樂中歌聲的音高。圖3 - 6 表示的 是我們對一段音樂進(jìn)行主音高檢測的結(jié)果,x 線對應(yīng)的是歌聲的實(shí) 際音高,點(diǎn)線對應(yīng)的是檢測的音高。在誤差允許范圍內(nèi),也就是我們 假設(shè)檢測到的音高與實(shí)際音高的差值小于5 h z ,我們的基于n d f t 的 主音高方法正確率可達(dá)到8 4 8 。這樣有效的音高檢測結(jié)果,為下一 步要做的分離工作提供了保障。 山東人學(xué)砍i :學(xué)位論文 型 曩 號 n i 、 斟 囂 n d f t 的功率譜包絡(luò) 圖3 5 主音高的確定過程 圖3 - 6 真實(shí)音高與檢測音高的比較 山東大學(xué)頤j :學(xué)位論文 第四章歌聲分離系統(tǒng) 我們的歌
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 上饒衛(wèi)校面試題及答案
- 排球威力測試題及答案
- 文保員考試試題及答案
- 鄭州美術(shù)面試題及答案
- 家電公司銷售回款管理細(xì)則
- 遼寧大連市普蘭店區(qū)第二中學(xué)2026屆化學(xué)高二第一學(xué)期期中經(jīng)典模擬試題含解析
- 2020-2025年注冊測繪師之測繪綜合能力??寄M試題(全優(yōu))
- 度第一學(xué)期五年級語文期末試卷(人教部編版含答案)
- 保安崗位安全生產(chǎn)培訓(xùn)知識課件
- 醫(yī)藥凍庫設(shè)備銷售方案(3篇)
- 2025年制藥工程專業(yè)考試題及答案
- 機(jī)坪證考試試題及答案
- 2025年小學(xué)數(shù)學(xué)期末考試卷及答案
- 2024第41屆全國中學(xué)生物理競賽預(yù)賽試題(含答案)
- 購買物業(yè)定制合同協(xié)議
- 布草采購合同協(xié)議
- 人教版物理九年級全冊同步練習(xí)題
- 制藥車間清潔操作培訓(xùn)
- 2025-2030中國PET-CT掃描服務(wù)行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略研究報告
- 《加快實(shí)施綠色公路建設(shè)的指導(dǎo)建議意見》干院宣講宣講專題培訓(xùn)課件
- 精益生產(chǎn)6S管理
評論
0/150
提交評論