漢語聲母的線性預測分析_第1頁
漢語聲母的線性預測分析_第2頁
漢語聲母的線性預測分析_第3頁
漢語聲母的線性預測分析_第4頁
漢語聲母的線性預測分析_第5頁
已閱讀5頁,還剩25頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、本科學生畢業(yè)論文論文題目:漢語聲母的線性預測分析學 院:電子工程學院年 級: 專 業(yè):電子信息科學與技術(shù)姓 名: 學 號: 指導教師: 摘要線性預測分析應用于語音信號處理,不僅具有預測功能,而且提供了一個非常好的聲道模型。這種聲道模型對理論研究和實際應用都相當有用的。因此,線性預測的基本原理和語音信號數(shù)字模型密切相關(guān)。漢語聲母的線性預測分析技術(shù)用于語音編碼時,利用模型參數(shù)可以有效地降低傳輸碼率;還用于語音合成及語音分類、語音解混響等。線性預測技術(shù)產(chǎn)生至今,語音處理又有許多突破,但它仍然是最重要的分析技術(shù)。近20年語音信號處理技術(shù)的飛速發(fā)展與以線性預測為中心的信號處理技術(shù)是分不開的,特別是在線性

2、預測提出多種參數(shù)形式,并在頻譜特性度量方面發(fā)展了多種與人類聽覺有密切聯(lián)系的譜失真測度,對語音識別和語音編碼研究的發(fā)展起了重要作用。關(guān)鍵詞語音信號處理;線性預測;線性預測系數(shù)abstract linear prediction used in speech signal processing, not only with forecasting capabilities, but also provides a very good channel model. this channel model is very useful for theoretical research and pract

3、ical application. therefore, the basic principles of linear prediction and voice signals, digital models are closely related. chinese initials linear predictive analysis technology for speech coding, the use of model parameters can effectively reduce the transmission rate; also used for speech synth

4、esis and voice classification, voice solutions reverb. since the linear prediction technique to produce, voice processing, there are many breakthroughs, but it is still the most important analytical techniques. nearly 20 years of voice signal processing technology for the rapid development and linea

5、r prediction signal processing techniques are inseparable, especially online prediction form of a variety of parameters, and spectrum measurement, the development of a variety of human hearing close contact with the spectral distortion measure, and played an important role in the development of spee

6、ch recognition and speech coding.key wordsspeech signal processing ;linear predictioncoding; linear prediction coding analysisii目錄摘要iabstractii前言1第一章 語音信號處理21.1語音信號處理基本知識21.1.1 語音的錄入與打開21.1.2 采樣位數(shù)和采樣頻率21.1.3 時域信號的fft分析31.1.4 數(shù)字濾波器設(shè)計原理31.1.5 倒譜的概念41.2 語音信號處理研究現(xiàn)狀5第二章 線性預測的基本原理52.1 線性預測分析的基本思想52.2 求線性預

7、測系數(shù)62.3 用和求 (合成)72.4 線性預測模型參數(shù)和語音生成模型參數(shù)之間的關(guān)系8第三章 基于matlab的線性預測實現(xiàn)的波形83.1 原始波形83.2 漢明窗93.3 短時譜113.4 語譜圖12第四章 實驗134.1 語音信號的提取134.2 語音信號的調(diào)整154.2.1. 語音信號的頻率調(diào)整154.2.2 語音信號的振幅調(diào)整154.3 語音信號的傅里葉變換16第五章 聲母的線性預測分析185.1 聲母信號的取樣185.2線性預測譜的階數(shù)選擇195.3聲母的分幀線性預測譜205.4聲母的線性預測譜與語圖譜22結(jié)論23參考文獻24致謝25漢語聲母的線性預測分析前言語音信號處理是一門邊緣

8、學科,它主要是數(shù)字信號處理和語音學等學科的結(jié)合產(chǎn)物,所以它必然受這些科學的影響,同時也隨著這些學科的發(fā)展而發(fā)展。語音信號處理又簡稱語音處理,它的研究目的和處理方法多種多樣,一直是數(shù)字信號處理技術(shù)發(fā)展的重要推動力兩,而數(shù)字信號處理的很大部分內(nèi)容頁設(shè)計語音處理。本文就簡單的對漢語的聲母的線性預測分析進行描述。聲母的譜結(jié)構(gòu)在語音分析、合成、識別以及人工智能等方面有十分重要的意義。由于線性預測理論在語音技術(shù)中的應用日益深入, 因此本文采用線性預測的方法對漢語普通話聲母進行譜分析。整個譜分析工作在通用的微機系統(tǒng)上進行。本重點是解決聲母譜分析中幾個特別困難的問題, 如在取樣方面, 如何采取措施以保證原始數(shù)

9、據(jù)的準確性, 在譜分析時, 對信號幀長、預測階數(shù)升何選擇。最后, 過實驗,對漢語普通話聲母音素確定了在給定取樣率情況下的信號幀長及預測階數(shù), 作出了它們的線性預測譜。并與語圖譜進行比較, 結(jié)果令人滿意。 胡航.語音信號處理 (第三版) m.黑龍江.哈爾濱工業(yè)大學出版社2005.2第一章 語音信號處理當今世界整處于信息時代,計算機技術(shù)、通信技術(shù)和電子技術(shù)的告訴發(fā)展,推動人類社會進入了信息社會。因特網(wǎng)和移動同喜的普及、電子購物的興起、多媒體通信及其應用的蓬勃發(fā)展,改變了人類的生活、工作、娛樂的方式。信息的湖區(qū)、處理、傳輸、顯示和存儲,是信息技術(shù)研究的主要內(nèi)容。人類作為社會的主人,一直是接收和發(fā)送信

10、息的主題。語音,始終是人類互相交流、互相通信的最主要、最方便、最快捷的工具信息載體。語音處理技術(shù)的應用極其廣泛,包括工業(yè)、軍事、交通、醫(yī)學、民用等各個領(lǐng)域。目前,語音信號處理技術(shù)處于蓬勃發(fā)展的時期,已有大量的產(chǎn)品投放市場,并且不斷地有新產(chǎn)品被開發(fā)研究,具有極其廣闊的市場需要和應用前景。 王一世.數(shù)字信號處理 m.北京.北京理工大學出版社2005.71.1語音信號處理基本知識 胡航.語音信號處理 (第四版) m.黑龍江.哈爾濱工業(yè)大學出版社2009.71.1.1 語音的錄入與打開正在matlab中,y,fs,bits=wavread(blip,n1 n2);用于讀取語音,采樣值放在向量y中,fs

11、表示采樣頻率(hz),bits表示采樣位數(shù)。n1 n2表示讀取從n1點到n2點的值(若只有一個n的點則表示讀取前n點的采樣值)。 sound(x,fs,bits); 用于對聲音的回放。向量y則就代表了一個信號(也即一個復雜的“函數(shù)表達式”)也就是說可以像處理一個信號表達式一樣處理這個聲音信號。1.1.2 采樣位數(shù)和采樣頻率采樣位數(shù)即采樣值或取樣值,用來衡量聲音波動變化的參數(shù),是指聲卡在采集和播放聲音文件時所使用數(shù)字聲音信號的二進制位數(shù)。采樣頻率是指錄音設(shè)備在一秒鐘內(nèi)對聲音信號的采樣次數(shù),采樣頻率越高聲音的還原就越真實越自然。采樣位數(shù)和采樣率對于音頻接口來說是最為重要的兩個指標,也是選擇音頻接口

12、的兩個重要標準。無論采樣頻率如何,理論上來說采樣的位數(shù)決定了音頻數(shù)據(jù)最大的力度范圍。每增加一個采樣位數(shù)相當于力度范圍增加了6db。采樣位數(shù)越多則捕捉到的信號越精確。對于采樣率來說你可以想象它類似于一個照相機,44.1khz意味著音頻流進入計算機時計算機每秒會對其拍照達441000次。顯然采樣率越高,計算機攝取的圖片越多,對于原始音頻的還原也越加精。1.1.3 時域信號的fft分析fft即為快速傅氏變換,是離散傅氏變換的快速算法,它是根據(jù)離散傅氏變換的奇、偶、虛、實等特性,對離散傅立葉變換的算法進行改進獲得的。在matlab的信號處理工具箱中函數(shù)fft和ifft用于快速傅立葉變換和逆變換。函數(shù)f

13、ft用于序列快速傅立葉變換,其調(diào)用格式為y=fft(x),其中,x是序列,y是序列的fft,x可以為一向量或矩陣,若x為一向量,y是x的fft且和x相同長度;若x為一矩陣,則y是對矩陣的每一列向量進行fft。如果x長度是2的冪次方,函數(shù)fft執(zhí)行高速基2fft算法,否則fft執(zhí)行一種混合基的離散傅立葉變換算法,計算速度較慢。函數(shù)fft的另一種調(diào)用格式為y=fft(x,n),式中,x,y意義同前,n為正整數(shù)。函數(shù)執(zhí)行n點的fft,若x為向量且長度小于n,則函數(shù)將x補零至長度n;若向量x的長度大于n,則函數(shù)截短x使之長度為n;若x 為矩陣,按相同方法對x進行處理。1.1.4 數(shù)字濾波器設(shè)計原理數(shù)字

14、濾波器的作用是利用離散時間系統(tǒng)的特性對輸入信號波形(或頻譜)進行加工處理,或者說利用數(shù)字方法按預定的要求對信號進行變換。數(shù)字濾波器可以理解為是一個計算程序或算法,將代表輸入信號的數(shù)字時間序列轉(zhuǎn)化為代表輸出信號的數(shù)字時間序列,并在轉(zhuǎn)化過程中,使信號按預定的形式變化。數(shù)字濾波器有多種分類,根據(jù)數(shù)字濾波器沖激響應的時域特征,可將數(shù)字濾波器分為兩種,即無限長沖激響應(iir)濾波器和有限長沖激響應(fir)濾波器。從性能上來說,iir濾波器傳輸函數(shù)的極點可位于單位圓內(nèi)的任何地方,因此可用較低的階數(shù)獲得高的選擇性,所用的存貯單元少,所以經(jīng)濟而效率高。但是這個高效率是以相位的非線性為代價的。選擇性越好,則

15、相位非線性越嚴重。相反,fir濾波器卻可以得到嚴格的線性相位,然而由于fir濾波器傳輸函數(shù)的極點固定在原點,所以只能用較高的階數(shù)達到高的選擇性;對于同樣的濾波器設(shè)計指標,fir濾波器所要求的階數(shù)可以比iir濾波器高510倍,結(jié)果,成本較高,信號延時也較大;如果按相同的選擇性和相同的線性要求來說,則iir濾波器就必須加全通網(wǎng)絡(luò)進行相位較正,同樣要大增加濾波器的節(jié)數(shù)和復雜性。整體來看,iir濾波器達到同樣效果階數(shù)少,延遲小,但是有穩(wěn)定性問題,非線性相位;fir濾波器沒有穩(wěn)定性問題,線性相位,但階數(shù)多,延遲大。1.1.5 倒譜的概念定義:倒譜定義為信號短時振幅譜的對數(shù)傅里葉反變換。 陳后金.信號分析

16、與處理實驗 m.高等教育出版社 2006.8特點:具有可近似地分離并能提取出頻譜包絡(luò)信息和細微結(jié)構(gòu)信息的特點用途: 提取聲道特征信息:提取頻譜包絡(luò)特征,以此作為描述音韻的特征參 數(shù)而應用于語音識別。 提取音源信息:提取基音特征,以此作為描述音韻特征的輔助參數(shù)而應用于語音識別。求法如圖 1-1: 圖1-1 倒譜的求法a:短時信號;b:短時頻譜;c:對數(shù)頻譜; d:倒譜系數(shù);e:對數(shù)頻譜包絡(luò);1.2 語音信號處理研究現(xiàn)狀 gersho a,gr r m.vector quantization and signal compression boston,kluwer academicpublishe

17、rs 2001.920世紀60年代中期形成的一系列數(shù)字信號處理的理論和算法,如數(shù)字濾波器、快速傅立葉變換(fft)等是語音信號數(shù)字處理的理論和技術(shù)基礎(chǔ)。隨著信息科學技術(shù)的飛速發(fā)展,語音信號處理取得了重大的進展:進入70年代之后,提出了用于語音信號的信息壓縮和特征提取的線性預測技術(shù)(lpc),并已成為語音信號處理最強有力的工具,廣泛應用于語音信號的分析、合成及各個應用領(lǐng)域,以及用于輸入語音與參考樣本之間時間匹配的動態(tài)規(guī)劃方法;80年代初一種新的基于聚類分析的高效數(shù)據(jù)壓縮技術(shù)矢量量化(vq)應用于語音信號處理中;而用隱馬爾可夫模型(hmm) 姚天順、朱靖波.基于增益的隱馬爾科夫模型的文本分析 j.

18、東北大學計算機軟件研究所 2004.2描述語音信號過程的產(chǎn)生是80年代語音信號處理技術(shù)的重大發(fā)展,目前hmm已構(gòu)成了現(xiàn)代語音識別研究的重要基石。近年來人工神經(jīng)網(wǎng)絡(luò)(ann)的研究取得了迅速發(fā)展,語音信號處理的各項課題是促進其發(fā)展的重要動力之一,同時,它的許多成果也體現(xiàn)在有關(guān)語音信號處理的各項技術(shù)之中。語音處理技術(shù)的應用及其廣泛,包括工業(yè)、軍事、交通、醫(yī)學、民用等各個領(lǐng)域。目前語音處理技術(shù)處于蓬勃發(fā)展的時期,已有大量的產(chǎn)品同房市場,并且不斷有新產(chǎn)品唄開發(fā)研制,具有極其廣闊的市場需求和應用前景。第二章 線性預測的基本原理2.1 線性預測分析的基本思想由于語音樣點之間存在相關(guān)性,所以可以用過去的樣點

19、值來預測現(xiàn)在或未來的樣點值。通過使實際語音和線性預測結(jié)果之間的誤差在某個準則下達到最小值來決定唯一的一組預測系數(shù)這組系數(shù)就能反映語音信號的特性,可以作為語音信號特性參數(shù)來用于語音編碼、語音合成和語音識別等應用中去。2.2 求線性預測系數(shù) 趙力.語音信號處理 m.機械工業(yè)出版社 2009.7 每個采樣值由前面的p個采樣值線性組合。 在某個準則下達到最小值,來決定唯一的一組預測系數(shù)。要提高預測精度,即要求預測系數(shù)的取值使最小。理論上通常采用預測系數(shù)的取值使均方誤差(是的函數(shù))最小的準則 托普利茲矩陣 托普利茲矩陣除第一行第一列以外其他每個元素都與左上角的元素相同.。解出方程,可得個線性預測系數(shù)。將

20、代入(2)式,結(jié)合(5)式,由此得到的最小均方誤差為: 2.3 用和求 (合成)對式進行z變換,有:) 語音信號的線性預測模型其中式中2.4 線性預測模型參數(shù)和語音生成模型參數(shù)之間的關(guān)系 fant g. acoustic theory of speech production m.the hague(thenetherlands):mution,1960用全極點模型來描述聲道濾波器特性 兩模型中信號之間的關(guān)系為: 生成模型 線性預測模型對同一語音信號,有:第三章 基于matlab的線性預測實現(xiàn)的波形 李勇、徐震.matlab輔助現(xiàn)代工程數(shù)字信號處理 m.西安.西安電子科技大學出版社 2005.

21、23.1 原始波形在完成論文理論知識的介紹之后,我采用了matlab作為實驗工具進行了實驗分析,語音采集為男音,漢語聲母“z”, 11.025 khz, 16 位, 單聲道,在這我用matlab描述了它的原始波形圖3-1:圖3-1 聲母“z”原始語音信號程序為;a=wavread(z.wav);subplot(6,1,)plot(a)3.2 漢明窗 是語音信號進行加窗分幀的一種方法。對原始語音信號進行加窗(漢明窗)處理,得到的圖像如圖2-2: 圖3-2漢明窗處理圖下面給出所加漢明窗的程序: a=wavread(z.wav);subplot(6,1,1),plot(a);n=32;for i=2

22、:6h=hanning(2.(i-2)*n);%形成一個漢明窗,長度為2.(i-2)*n en=conv(h,a.*a);% 求短時能量函數(shù)en subplot(6,1,i),plot(en);if(i=2) legend(n=32);elseif(i=3) legend(n=64);elseif(i=4) legend(n=128);elseif(i=5) legend(n=256);elseif(i=6) legend(n=512);endend 陳永彬,王仁華. 語音信號處理 m.合肥:中國科技大學出版社,19903.3 短時譜 程佩青. 數(shù)字信號處理教程 m.北京.清華大學出版社 20

23、07.6對信號進行短時譜所得圖像如圖3-3: 圖3-3 短時譜相關(guān)程序:a=wavread(z.wav);subplot(2,1,1),plot(a);title(original signal);gridn=256;h=hamming(n);for m=1:n b(m)=a(m)*h(m)end y=20*log(abs(fft(b)subplot(2,1,2)plot(y);title(短時譜);grid;3.4 語譜圖下面給出原始語音“z”的語譜圖: 圖3-4語譜圖 相關(guān)程序:x,fs,nbits=wavread(z.wav);specgram(x,512,fs,100); xlabel

24、(時間(s);ylabel(頻率(hz);title(語譜圖);第四章 實驗4.1 語音信號的提取 李勇、徐震.matlab輔助現(xiàn)代工程數(shù)字信號處理 m.西安.西安電子科技大學出版社 2005.2在matlab中使用wavread函數(shù),可得出信號的采樣頻率為22500,并且聲音是單聲道的。利用sound函數(shù)可以清晰的聽到“z”的語音。采集數(shù)據(jù)并畫出波形圖。其中聲音的采樣頻率fs=22050hz,y為采樣 數(shù)據(jù),nbits表示量化階數(shù)。部分程序如下: fn=input( enter wav filename:,s); %獲取一個*.wav的文件x,fs,nb=wavread(fn);ms2=fl

25、oor(fs*0.002);ms10=floor(fs*0.01);ms20=floor(fs*0.02);ms30=floor(fs*0.03);t=(0:length(x)-1)/fs; %計算樣本時刻 subplot(2,1,1); %確定顯示位置plot(t,x); %畫波形圖legend(waveform);xlabel( time(s);ylabel(amplitude); 運行后彈出語音信號處理系統(tǒng)的操作界面如圖4-1: 圖4-1語音信號處理系統(tǒng)的操作界面輸入要處理的語音信號的名稱,便可得到語音語音的波形圖如圖4-2: 圖4-2 “z”語音語音的波形圖 如圖中提取的語音的波形圖所

26、示,整段音頻數(shù)據(jù)中得聲音高低起伏與錄入的聲音信號基本一致,并且可以觀察到其中包含部分高頻噪聲。4.2 語音信號的調(diào)整在語音信號的研究中,經(jīng)常會對語音信號進行進行多倍頻率以及多倍幅度變換調(diào)整,日常應用中,這種變換調(diào)整也經(jīng)常要用到。所以在設(shè)計中也添加了這種功能,并能夠觀察調(diào)整后的信號的波形圖得變化, 而且能通過語音處理界面的輸出功能試聽處理后的語音信號。4.2.1. 語音信號的頻率調(diào)整在設(shè)計中,可以將語音信號的采樣頻率提高或降低,來實現(xiàn)語音信號的調(diào)整,得到理想的語音信號。例如將采樣頻率提高一倍,即可得到語音信號頻率為原頻率2倍新的語音信號。運行processadjustfrequency,得到如圖

27、4-3的信號波形圖,并試聽調(diào)整后的效果。圖4-3頻率調(diào)整后波形圖與原語音信號相比,經(jīng)過調(diào)整后的信號周期變?yōu)樵瓉淼?/2,此時的語速明顯變快,即實現(xiàn)了信號的2倍頻功能。4.2.2 語音信號的振幅調(diào)整在設(shè)計中,可以將語音信號的幅度進行提高或降低操作,來實現(xiàn)語音信號的調(diào)整,得到聲音音量大小不同的語音信號,例如將原語音信號的幅度提高一倍,得到如下圖4-4的信號波形圖,可以通過gui操作界面的輸出功能試聽調(diào)整后的效果。圖4-4 幅度調(diào)整后波形圖 此時聽到的調(diào)整后聲音聲調(diào)變高,但不是很明顯,可以將幅度的變化值設(shè)置的比較大,那樣的話就可以得到效果相當明顯的語音信號了。4.3 語音信號的傅里葉變換 傅里葉變換

28、能將滿足一定條件的某個函數(shù)表示成三角函數(shù)(正弦和/或余弦函數(shù))或者它們的積分的線性組合。倒譜分析是指信號短時振幅譜的對數(shù)進行傅里葉反變換。它具有可近似地分離并提取出頻譜包絡(luò)信息和細微結(jié)構(gòu)信息的特點。 對語音信號進行頻譜分析,在matlab中可以利用函數(shù)fft對信號行快速傅里葉變換,得到信號的頻譜圖,并進行倒譜分析,得到倒譜圖。 傅里葉變換的部分程序如下:x=y(44101:55050,1); %提取原語音信號的一部分t=(0:length(x)-1)/fs; %計算樣本時刻subplot(3,1,1); %確定顯示位置plot(t,x); %畫波形圖legend(波形圖);xlabel( ti

29、me(s);ylabel(amplitude);y=fft(x,hamming(length(x); %做加窗傅里葉變換fm=5000*length(y)/fs; %限定頻率范圍f=(0:fm)*fs/length(y); %確定頻率刻度subplot(3,1,2);plot(f,20*log10(abs(y(1:length(f)+eps);legend(頻譜圖); %畫頻譜圖ylabel(幅度(db);xlabel(頻率(hz);c=fft(log(abs(x)+eps); %倒頻譜計算ms1=fs/1000;ms20=fs/50q=(ms1:ms20)/fs; %確定倒頻刻度subplo

30、t(3,1,3);plot(q,abs(c(ms1:ms20); %畫倒譜圖legend(倒譜圖);xlabel(倒頻(s));ylabel(倒頻譜幅度(hz));運行process transform,對語音信號的一部分進行傅里葉變換,并進行倒譜分析,得到如圖4-6圖4-6 聲音樣本波形圖、頻譜圖和倒譜圖第五章 聲母的線性預測分析5.1 聲母信號的取樣 張軍英. 說話人識別的現(xiàn)代方法與技術(shù) m.西安:西北大學出版社由于輔音一般具有能量小、持續(xù)時間短、高頻分量多這樣一些特點, 因此準確地獲取聲原始數(shù)據(jù)是一個重要而困難的問題。譜分析結(jié)果的好壞首先決定于數(shù)據(jù)是否準確。本文中實驗用的輔音由廣播電視播

31、音員(男女各一名)在消聲室內(nèi)錄音, 以增加信噪比, 減小外界噪聲對分析結(jié)果的影響。由于線性預測譜對噪聲敏感, 因此取樣時, 為了盡量提高信號噪聲比, 各個輔音采用了不同的放音電平。所以下文中各輔音譜的絕對db數(shù)不代表它們之間的相對強弱。每個聲母的發(fā)音方式為元音一輔音一元音。這樣的組合發(fā)音比單獨聲母更加接近自然發(fā)音, 同時也為輔音信號的取樣帶來便。由于漢語聲調(diào)的變化發(fā)生在元音部分,可以認為對輔音沒有影響, 因此, 輔音前面的元音都發(fā)輕聲, 后面的元音都發(fā)第一聲。取樣系統(tǒng)以微機作為控制中口對輔音信號進行取樣, 簡單過程如下:模擬信號經(jīng)低通濾波器濾去10khz 以上的頻率分量, 由a/d 轉(zhuǎn)換為數(shù)字

32、信號, 送入計算機檢查。當計算機發(fā)現(xiàn)第一個元音段開始時,則進入取樣準備狀態(tài)。當發(fā)現(xiàn)信號進入聲母段時, 便開始取樣。樣點先暫存在內(nèi)存中。經(jīng)判別后, 再將內(nèi)存中的聲母信號存入磁盤以備譜分析時用。實際上, 在送數(shù)據(jù)到磁盤之前, 先由a/d將取樣信號還原為模擬信號,由錄放機放音。當聽覺滿意時, 再送數(shù)據(jù)到磁盤。上述取樣過程中, 元音段與輔音段的判別是根據(jù)兩音能量的大小進行的。從實驗中知道, 發(fā)音過程中, 當從元音過渡到輔音時,口腔聲道的形狀發(fā)生變化。這時將出現(xiàn)無聲區(qū)的背景噪聲。由子這個背景噪聲的能量與某些輔音的能量大小相當, 因此取樣時容易誤認為是輔音信號。在這種情況下, 單從能量大小來判別元音和輔音

33、是不夠的。更完善的方法應同時從能量及跨零率兩方面考慮。但是, 跨零率的考慮又會使算法復雜化, 增加運算量。因此為了使取樣方法簡單易行,本文仍采用能量作為判別元音與輔音的主要依據(jù), 輔以下述補償手段以輔音后接元音的起點作為標準, 根據(jù)聽覺判斷是否取在輔音段。觀察信號波形, 根據(jù)對。輔音時間波形的先驗知識判斷是否為輔音。5.2線性預測譜的階數(shù)選擇 rivarol vergin, douglas oshaughnessy and azarshid farhat, generalized mel frequency cepstral coefficients for large-vocabulary

34、speaker-independent continuous-speech recognition, ieee transactions on speech and audio processing, vol.7, no.5, 1999.9線性預測的階數(shù)選擇是譜分析的一個重要問題。由于線性預測譜反映信號能量的包絡(luò), 因此, 過低的階數(shù)會使譜過于平滑, 不能反映出信號的譜峰, 而過高的階數(shù)又會使譜過于細致, 甚至出現(xiàn)虛假的譜峰, 也不能很好地反映出信號的譜特性。目前, 關(guān)于階數(shù)的選擇間題還沒有統(tǒng)一的結(jié)論。多靠重復實驗來確定“ 最佳” 階數(shù)。一般認為, 階數(shù)與信號幀長、取樣率等有關(guān)。幀長長、取樣率

35、高, 則階數(shù)相應高些;反之,則階數(shù)相應低些。本文根據(jù)赤馳(akaika) 的“最終預測誤差”判階準則, 對漢語普通話輔音作了階數(shù)自適應實驗, 認為在20khz取樣率的情況下,階數(shù)取16比較合適。盡管各個輔音的階數(shù)可以不同, 而且某一特定輔音各幀間的階數(shù)也可以不同, 但作為一個統(tǒng)計平均的選擇,16階能較好地反映出各個輔音的主要譜峰, 既不過份平滑, 也不過份細致。圖5-2是男生“x”的線性預測譜。取樣率為20khz,幀長為10ms。途中看出當階數(shù)從16增加到24時,5khz出的單峰逐漸變?yōu)殡p峰,級譜變得過分細致。 圖5-2 男聲“x”的線性預測譜5.3聲母的分幀線性預測譜 doh-suk kim

36、, soo-young leg and rhee m. kil, auditory processing of speech signals for robust speech recongbition in real-world noisy environments, ieee transactions on speech and audio processing, vol.7, no.1, 1999.1譜分析時, 信號必須具有平穩(wěn)性。聲母信號中, 最短的音只有幾個毫秒, 而最長的音可有100多毫秒。因此在分析聲母時, 信號往往分成若干幀, 使每一幀近似平穩(wěn)。一般說, 幀長越長, 則譜估值的

37、偏差越小, 但同時時間特性就越差, 因此要在偏差與時間特性之間進行折衷。較長輔音的譜隨時間變化的速率不快, 幀長可以長些以減小譜估值的偏差, 較短的輔音, 則幀長取得短些以改善譜估值的時間特性。幀長的選擇應以不破壞信號的短時平穩(wěn)性為準。下表是本文對漢語聲母進行譜分析是,信號幀長及階數(shù)的選。不符合表的格式聲母bpmfdtnlgkh幀長2.5515102.5515152.5510階數(shù)1616201616162020161616聲母jqxzhchshrzcsng幀長10101051010155101015階數(shù)1616161616162016161620除了“b”、“d”、“g”這三個聲母,幀長的選擇應該盡量短外,其他聲母的幀長懸著有一定的靈活性。本文一般取10毫秒。圖5-3,圖5-4,圖5-5是女聲“j”在幀長分別在5、10、15ms情況下的線性預測譜取樣率為20khz,階數(shù)為16.顯然,幀的長度對譜的影響不大。圖5-3 女聲“j”的線性預測譜 幀長為5ms 圖5-4 女聲“j”的線性預測譜 幀長為10ms圖5.5 女聲“j”的線性預測譜 幀長為 15ms對較長的聲母來說, 它們分幀后的各幀譜基本上是相同的。圖4 取自女聲“sh“ 的四幀譜圖。取樣率為20khz, 階數(shù)為16, 幀長為10毫秒。圖第一幀與第四幀時間上間隔20

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論