聲學(xué)簡(jiǎn)介課件_第1頁(yè)
聲學(xué)簡(jiǎn)介課件_第2頁(yè)
聲學(xué)簡(jiǎn)介課件_第3頁(yè)
聲學(xué)簡(jiǎn)介課件_第4頁(yè)
聲學(xué)簡(jiǎn)介課件_第5頁(yè)
已閱讀5頁(yè),還剩35頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

聲學(xué)簡(jiǎn)介課件

BriefIntroductionforAcoustics235人耳可以辨識(shí)頻率:20Hz~20000Hz

說(shuō)話:150~2000Hz

電話系統(tǒng)頻域:小于

4000Hz

計(jì)算機(jī)音效卡取樣頻率:44100Hz(最新技術(shù)可達(dá)192K)

(一般用

22050Hz,11025Hz即可)>20000Hz:超音波(ultrasound)<20Hz:次聲波(infrasound)波長(zhǎng)較長(zhǎng)->傳播距離較遠(yuǎn),但容易散射

波長(zhǎng)較短->衰減較快,但傳播方向較接近直線

1-A聲音的相關(guān)常識(shí)236

一般聲音檔格式:

(1)取樣頻率

22050Hz

(2)單聲道或雙聲道 (3)每筆資料用8個(gè)bit來(lái)表示

計(jì)算機(jī)中沒(méi)有經(jīng)過(guò)任何壓縮的聲音檔:*.wavQ:Whatisthedatasizeofasongwithoutcompression?

數(shù)位電話取樣頻率:8000Hz聲音在空氣中傳播速度:每秒340公尺(15°C時(shí))所以,人類對(duì)3000Hz左右頻率的聲音最敏感237附:(1)每增加1°C,聲音的速度增加0.6m/sec(2)聲音在水中的傳播速度是1500m/sec

在鋁棒中的傳播速度是5000m/sec(一般人,耳翼到鼓膜之間的距離:

2.7公分)23820000Hz5000Hz1000Hz200Hzannoyancecurvelowerbound

forhearing20Hz0dB80dB110dB3000Hz-4dBdB:分貝

10log10(P/C),其中P為音強(qiáng)(正比于振福的平方);C為0dB時(shí)的音強(qiáng)

每增加10dB,音強(qiáng)增加10倍,振幅增加100.5

倍;每增加3dB,音強(qiáng)增加2倍,振幅增加20.5

倍;所幸,內(nèi)耳的振動(dòng)不會(huì)正比于聲壓239

人對(duì)于頻率的分辨能力,是由頻率的「比」決定對(duì)人類而言,300Hz和400Hz之間的差別,與3000Hz和4000Hz之間的差別是相同的電子琴

Do的頻率:低音Do:131.32Hz

中音Do:261.63Hz

高音Do:523.26Hz

更高音Do:1046.52Hz,…….

音樂(lè)每增加八度音,頻率變?yōu)?倍每一音階有12個(gè)半音增加一個(gè)半音,頻率增加

21/12

倍(1.0595倍)240Do升DoRe升ReMiFa升FaSo升SoLa升LaSiHz262277294311330349370392415440466494

1-BMusicSignal241音樂(lè)通常會(huì)出現(xiàn)「和弦」(chord)的現(xiàn)象除了基頻f0Hz之外,也會(huì)出現(xiàn)2f0Hz,3f0Hz,4f0Hz,…..的頻率frequency(Hz)242為什么會(huì)產(chǎn)生和弦?聲音信號(hào)是一個(gè)periodicsignal,但是不一定是sinusoid以共振的觀點(diǎn):(1)語(yǔ)音編碼

(SpeechCoding)(2)語(yǔ)音合成

(SpeechSynthesis)(3)語(yǔ)音增強(qiáng)

(SpeechEnhancement)

前三項(xiàng)目前基本上已經(jīng)很成功

(4)語(yǔ)音辨認(rèn)

(SpeechRecognition)

音素

音節(jié)

整段話

目前已有很高的辨識(shí)率(5)說(shuō)話人辦認(rèn)

(SpeakerRecognition)(6)其他:語(yǔ)意,語(yǔ)言,情緒

243

1-C語(yǔ)音處理的工作音素

音節(jié)

整段話

音素:相當(dāng)于一個(gè)音標(biāo)

1-D語(yǔ)音的辨認(rèn)244(1)SpectrumAnalysisTime-FrequencyAnalysis(2)Cepstrum(3)CorrelationforWords

ㄅㄆㄇㄈㄉㄊㄋㄌㄍㄎㄏㄐㄑㄒㄓㄔㄕㄖㄗㄘㄙ

ㄚㄛㄜㄝㄞㄟㄠㄡㄢㄣㄤㄥㄦㄧㄨㄩ

元音:ㄚㄛㄜㄝㄞㄟㄠㄡㄢㄣㄤㄥㄦㄧㄨㄩ

單元音:a,e,i,o,uㄚㄛㄜㄝㄦㄧㄨㄩ

雙元音:ㄞㄟㄠㄡ

元音

+濁音:ㄢㄣㄤㄥ

子音:

ㄅㄆㄇㄈㄉㄊㄋㄌㄍㄎㄏㄐㄑㄒㄓㄔㄕㄖㄗㄘㄙ245

1-E子音和元音246ㄅㄆㄇㄈㄉㄊㄋㄌㄍㄎㄏㄐㄑㄒ漢語(yǔ)拚音bpmfdtnlgkhjqx通用拚音bpmfdtnlgkhjcsㄓㄔㄕㄖㄗㄘㄙㄚㄛㄜㄝㄞㄟㄠ漢語(yǔ)拚音zhchshrzcsaoeeaieiao通用拚音jhchshrzcsaoeeaieiaoㄡㄢㄣㄤㄥㄦㄧㄨㄩ漢語(yǔ)拚音ouanenangengeri,yu,wyu,iu通用拚音ouanenangengeri,yu,wyu,iu母音:

依唇型而定

子音:

在口腔,鼻腔中某些部位將氣流暫時(shí)堵住后放開(kāi)

子音的能量小,頻率偏高,時(shí)間較短,出現(xiàn)在元音前元音的能量大,頻率偏低,時(shí)間較長(zhǎng),出現(xiàn)在子音后或獨(dú)立出現(xiàn)247248ㄑ一ㄥㄈㄤㄇㄢㄒㄧㄥㄔㄜㄙㄨㄉㄨ249發(fā)音模型

(線性非時(shí)變近似)

x[n]=ep[n]

g[n]

h[n]

r[n],

meanstheconvolutionX(z)=Ep(z)G(z)H(z)R(z)

r[n]:嘴唇模型,

h[n]:口腔模型,

g[n]:聲帶模型

ep[n]:輸入(假設(shè)為周期脈沖)音量和ep[n],

g[n]有關(guān)頻率和g[n]有關(guān)子音和h[n],r[n]有關(guān)元音和r[n]有關(guān)250

分析一個(gè)聲音信號(hào)的頻譜:

用WindowedFourierTransform

或稱作Short-TimeFourierTransform

Fouriertransform

WindowedFouriertransform

強(qiáng)調(diào)

t=t0

附近的區(qū)域

251或典型的聲音頻譜(不考慮倍頻):

頻譜上,大部分的地方都不等于0。出現(xiàn)幾個(gè)

peaks值

可以依據(jù)

peaks的位置來(lái)辨別元音252G(t,f)fF1F2F3F4元音

peaks處的頻率

(Hz)(不考慮倍頻):原則上:(1)嘴唇的大小,決定F1(2)舌面的高低,決定

F2

F1253男聲女聲F1F2F3F1F2F3ㄚ90012002900110013503100ㄛ560800300073011003200ㄜ5601090300079012503100ㄝ5002100310060024003300ㄧ3102300330036030003500ㄨ37054034004608203700ㄩ3002100340035026003200ㄦ5801500320076017003200[Ref]王小川,“語(yǔ)音訊號(hào)處理”,第三版,全華出版,臺(tái)北,民國(guó)98年

雙元音:

(ai),

(ei),

(ao),

(ou)

頻譜隨時(shí)間而改變,一開(kāi)使始像第一個(gè)元音,后變得像另一個(gè)元音254ㄞ的頻譜的

peaks位置900310Time12002900F1F2F3ㄚ一

ㄝ一

ㄚㄛ

ㄛㄨ33002300310255

1-FToneAnalysisTypicalrelationsbetweentimeandtheinstantaneousfrequenciesfor(a)the1sttone,(b)the2ndtone,(c)the3rdtone,and(d)the4thtoneinChinese.largeenergylargeenergysmallenergymiddleenergyX.X.Chen,C.N.Cai,P.Guo,andY.Sun,“AhiddenMarkovmodelappliedtoChinesefour-tonerecognition,”ICASSP,vol.12,pp.797-800,1987.以「語(yǔ)意學(xué)」或「機(jī)率」來(lái)補(bǔ)足語(yǔ)音辨識(shí)的不足

例如:經(jīng)過(guò)判定,一個(gè)聲音可能是

ㄅㄧ

ㄖㄢ

ㄆㄧ

ㄖㄢ

ㄅㄧ

ㄌㄢ

ㄆㄧ

ㄌㄢ

這個(gè)聲音是「必然」的機(jī)率比較大。

ㄅㄛㄅㄛ

ㄆㄛㄆㄛ

可能是「伯伯」,也可能是「婆婆」,看上下文

儲(chǔ)存詞庫(kù)

256

1-G語(yǔ)意學(xué)的角色當(dāng)前主流的語(yǔ)音辨識(shí)技術(shù):Mel-FrequencyCepstrum+ToneAnalysis+語(yǔ)意分析+MachineLearning257附錄八:線性代數(shù)觀念補(bǔ)充(1)x

和y

兩個(gè)矢量的內(nèi)積可表示成

(2)兩個(gè)互相正交(orthogonal)或垂直(perpendicular)的矢量,其內(nèi)積為0??杀硎境?或(3)令S為內(nèi)積空間V的一組正交集合(set)且由非零矢量構(gòu)成,

其中如果S是由一組正規(guī)集合(orthonormalset)構(gòu)成,那么258(5)SolvingAx=bbut,m>n

InterpolationTheorem(插值定理)1.Foranyinner-productfunctionofFm

,thereexistsavector

z

thatminimizeswhere2.

Ifrank(A)=n,then

istheuniqueminimizerof(4)Gram-Schmidtalgorithm:對(duì)于內(nèi)積空間V的任意一組基底,我們可以透過(guò)這算法找到一組正交基底幾何意義:把xj

在y1,y2,…,yj-1上面的分矢量全都從矢量xj

身上扣掉之后,剩下的矢量yj自然就會(huì)跟y1,y2,…,yj-1垂直。259附錄九:PCAandSVDPCA(principalcomponentanalysis)是資料分析和影像處理當(dāng)中常用到的數(shù)學(xué)方法,用來(lái)分析資料的「主要成分」或是影像中物體的「主軸」。它其實(shí)和各位同學(xué)在高中和大一線代所學(xué)的回歸線(regressiveline)很類似?;貧w線是用一條一維(one-dimensional)的直線來(lái)近似二維(two-dimensional)的資料,而PCA則是用M-dimensionaldata來(lái)近似N-dimensionaldata,其中M

小于等于N在講解PCA之前,先介紹什么是SVD(singularvaluedecomposition)我們?cè)诖笠坏臅r(shí)候,都已經(jīng)學(xué)到該如何對(duì)于NxN

的矩陣做eigenvector-eigenvaluedecomposition那么………當(dāng)一個(gè)矩陣的size為MxN,且M

和N

不相等時(shí),我們?cè)撊绾螌?duì)它來(lái)做eigenvector-eigenvaluedecomposition?260SVD的流程:假設(shè)A

是一個(gè)MxN

的矩陣。(Step1)計(jì)算注意,B

是NxN

的矩陣,而C

是MxM

的矩陣。上標(biāo)H代表Hermitianmatrix,相當(dāng)于做共軛轉(zhuǎn)置。其中V

的每一個(gè)column是B

的eigenvector(withnormalization),

U

的每一個(gè)column是C

的eigenvector

(withnormalization),

Λ和D

都是對(duì)角矩陣,

Λ

和D

對(duì)角線上的entries是B

和C

的eigenvalues。并假設(shè)

eigenvectors根據(jù)eigenvalues的大小排序(由大到小)Note:值得注意的是,由于B=BH

且C=CH,所以B

和C

的eigenvectors皆各自形成一個(gè)orthogonalset。經(jīng)過(guò)適當(dāng)?shù)膎ormalization使得U

和V

的column自己和自己的內(nèi)積為1之后,U-1=UH

和V-1=VH將滿足。因此,B

和C

可以表示成(Step2)接著,對(duì)B

和C

做eigenvector-eigenvaluedecomposition注意,V和U是unitarymatrix261(Step3)

計(jì)算S1

是一個(gè)MxN

的矩陣,只有在S1[n,n](n=1,2,…,min(M,N))的地方不為0若S1[n,n]<0,改變U

第n

個(gè)column的正負(fù)號(hào)

即完成SVD

A也可以表示為其中λn=S[n,n],

k=min(M,N))注:Matlab有內(nèi)建的svd指令可以計(jì)算SVDNote:SinceVisboundtobereal,(Step4)取絕對(duì)值262從SVD到PCA(principalcomponentanalysis,主成份分析)

若λ1≧λ2≧λ3≧…..≧λk

是A矩陣的最主要的成份是A矩陣的第二主要的成份:

:是A矩陣的最不重要的成份若為了壓縮或是去除噪聲的考量,可以選擇h<k,使得A

可以近似成k=min(M,N))263PCA的流程假設(shè)現(xiàn)在有M

筆資料,每一筆資料為Ndimension

g1=[f1,1

f1,2,…,f1,N]

g2=[f2,1

f2,2,…,f2,N]:

gM=[fM,1

fM,2,…,fM,N]

(Step1)

扣掉平均值,形成新的datam=1,2,…,M其中(Step2)

形成MxN

的矩陣AA

的第m

個(gè)row為dm,m=1,2,…,M264(Step3)對(duì)A做SVD分解

k=min(M,N))(Step4)將A近似成λ1≧λ2≧λ3≧…..≧λk

則每一筆資料可以近似為v1T

是資料的最主要成分,

v2T

是資料的次主要成分,v3T

是資料的第三主要成分,以此類推除了平均值之外265ExampleofPCAFrom2022大考中心官網(wǎng)266ExampleofPCA假設(shè)在一個(gè)二維的空間中,有5個(gè)點(diǎn),坐標(biāo)分別是(7,8),(9,8),(10,10),(11,12),(13,12)M=5,N=2試求這五個(gè)點(diǎn)的PCA(即回歸線)(Step1)將這五個(gè)坐標(biāo)點(diǎn)減去平均值(10,10)(-3,-2),(-1-2),(0,0),(1,2),(3,2)(Step2)形成5x2的matrix267(Step3)計(jì)算SVD主成分次要成分268得到主成分這五個(gè)坐標(biāo)點(diǎn)可以近似成u1=-0.6116,u2=-0.3549,u3=0,u4=0.3549,u5=0.6116m=1,2,…,5(Step4)269回歸線c(-,)

270UsingthePCAmethodcanobtainthebestapproximationresult.Withoutthelossofgeneralization,wediscusstheprobleminthe2Dcase(i.e.,N=2).SupposethatthelocationoftheMpoin

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論