聲學(xué)簡(jiǎn)介課件

上傳人：逗*** IP屬地：寧夏上傳時(shí)間：2025-07-26 格式：PPTX 頁(yè)數(shù)：40 大小：603.01KB 積分：45 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩35頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

聲學(xué)簡(jiǎn)介課件

BriefIntroductionforAcoustics235人耳可以辨識(shí)頻率：20Hz~20000Hz

說(shuō)話：150~2000Hz

電話系統(tǒng)頻域：小于

4000Hz

計(jì)算機(jī)音效卡取樣頻率：44100Hz(最新技術(shù)可達(dá)192K)

(一般用

22050Hz,11025Hz即可)>20000Hz:超音波(ultrasound)<20Hz:次聲波(infrasound)波長(zhǎng)較長(zhǎng)->傳播距離較遠(yuǎn)，但容易散射

波長(zhǎng)較短->衰減較快，但傳播方向較接近直線

1-A聲音的相關(guān)常識(shí)236

一般聲音檔格式：

(1)取樣頻率

22050Hz

(2)單聲道或雙聲道 (3)每筆資料用8個(gè)bit來(lái)表示

計(jì)算機(jī)中沒(méi)有經(jīng)過(guò)任何壓縮的聲音檔：*.wavQ:Whatisthedatasizeofasongwithoutcompression?

數(shù)位電話取樣頻率：8000Hz聲音在空氣中傳播速度：每秒340公尺(15°C時(shí))所以，人類對(duì)3000Hz左右頻率的聲音最敏感237附：(1)每增加1°C，聲音的速度增加0.6m/sec(2)聲音在水中的傳播速度是1500m/sec

在鋁棒中的傳播速度是5000m/sec(一般人，耳翼到鼓膜之間的距離：

2.7公分)23820000Hz5000Hz1000Hz200Hzannoyancecurvelowerbound

forhearing20Hz0dB80dB110dB3000Hz-4dBdB:分貝

10log10(P/C)，其中P為音強(qiáng)(正比于振福的平方)；C為0dB時(shí)的音強(qiáng)

每增加10dB，音強(qiáng)增加10倍，振幅增加100.5

倍；每增加3dB，音強(qiáng)增加2倍，振幅增加20.5

倍；所幸，內(nèi)耳的振動(dòng)不會(huì)正比于聲壓239

人對(duì)于頻率的分辨能力，是由頻率的「比」決定對(duì)人類而言，300Hz和400Hz之間的差別，與3000Hz和4000Hz之間的差別是相同的電子琴

Do的頻率：低音Do:131.32Hz

中音Do:261.63Hz

高音Do:523.26Hz

更高音Do:1046.52Hz,…….

音樂(lè)每增加八度音，頻率變?yōu)?倍每一音階有12個(gè)半音增加一個(gè)半音，頻率增加

21/12

倍(1.0595倍)240Do升DoRe升ReMiFa升FaSo升SoLa升LaSiHz262277294311330349370392415440466494

1-BMusicSignal241音樂(lè)通常會(huì)出現(xiàn)「和弦」(chord)的現(xiàn)象除了基頻f0Hz之外，也會(huì)出現(xiàn)2f0Hz,3f0Hz,4f0Hz,…..的頻率frequency(Hz)242為什么會(huì)產(chǎn)生和弦？聲音信號(hào)是一個(gè)periodicsignal，但是不一定是sinusoid以共振的觀點(diǎn)：(1)語(yǔ)音編碼

(SpeechCoding)(2)語(yǔ)音合成

(SpeechSynthesis)(3)語(yǔ)音增強(qiáng)

(SpeechEnhancement)

前三項(xiàng)目前基本上已經(jīng)很成功

(4)語(yǔ)音辨認(rèn)

(SpeechRecognition)

音素

音節(jié)

詞

句

整段話

目前已有很高的辨識(shí)率(5)說(shuō)話人辦認(rèn)

(SpeakerRecognition)(6)其他：語(yǔ)意，語(yǔ)言，情緒

243

1-C語(yǔ)音處理的工作音素

音節(jié)

詞

句

整段話

音素：相當(dāng)于一個(gè)音標(biāo)

1-D語(yǔ)音的辨認(rèn)244(1)SpectrumAnalysisTime-FrequencyAnalysis(2)Cepstrum(3)CorrelationforWords

ㄅㄆㄇㄈㄉㄊㄋㄌㄍㄎㄏㄐㄑㄒㄓㄔㄕㄖㄗㄘㄙ

ㄚㄛㄜㄝㄞㄟㄠㄡㄢㄣㄤㄥㄦㄧㄨㄩ

元音：ㄚㄛㄜㄝㄞㄟㄠㄡㄢㄣㄤㄥㄦㄧㄨㄩ

單元音：a,e,i,o,uㄚㄛㄜㄝㄦㄧㄨㄩ

雙元音：ㄞㄟㄠㄡ

元音

+濁音：ㄢㄣㄤㄥ

子音：

ㄅㄆㄇㄈㄉㄊㄋㄌㄍㄎㄏㄐㄑㄒㄓㄔㄕㄖㄗㄘㄙ245

1-E子音和元音246ㄅㄆㄇㄈㄉㄊㄋㄌㄍㄎㄏㄐㄑㄒ漢語(yǔ)拚音bpmfdtnlgkhjqx通用拚音bpmfdtnlgkhjcsㄓㄔㄕㄖㄗㄘㄙㄚㄛㄜㄝㄞㄟㄠ漢語(yǔ)拚音zhchshrzcsaoeeaieiao通用拚音jhchshrzcsaoeeaieiaoㄡㄢㄣㄤㄥㄦㄧㄨㄩ漢語(yǔ)拚音ouanenangengeri,yu,wyu,iu通用拚音ouanenangengeri,yu,wyu,iu母音：

依唇型而定

子音：

在口腔，鼻腔中某些部位將氣流暫時(shí)堵住后放開(kāi)

子音的能量小，頻率偏高，時(shí)間較短，出現(xiàn)在元音前元音的能量大，頻率偏低，時(shí)間較長(zhǎng)，出現(xiàn)在子音后或獨(dú)立出現(xiàn)247248ㄑ一ㄥㄈㄤㄇㄢㄒㄧㄥㄔㄜㄙㄨㄉㄨ249發(fā)音模型

(線性非時(shí)變近似)

x[n]=ep[n]

g[n]

h[n]

r[n],

meanstheconvolutionX(z)=Ep(z)G(z)H(z)R(z)

r[n]：嘴唇模型，

h[n]:口腔模型，

g[n]：聲帶模型

ep[n]：輸入(假設(shè)為周期脈沖)音量和ep[n],

g[n]有關(guān)頻率和g[n]有關(guān)子音和h[n],r[n]有關(guān)元音和r[n]有關(guān)250

分析一個(gè)聲音信號(hào)的頻譜：

用WindowedFourierTransform

或稱作Short-TimeFourierTransform

Fouriertransform

WindowedFouriertransform

強(qiáng)調(diào)

t=t0

附近的區(qū)域

251或典型的聲音頻譜(不考慮倍頻)：

頻譜上，大部分的地方都不等于0。出現(xiàn)幾個(gè)

peaks值

可以依據(jù)

peaks的位置來(lái)辨別元音252G(t,f)fF1F2F3F4元音

peaks處的頻率

(Hz)(不考慮倍頻)：原則上：(1)嘴唇的大小，決定F1(2)舌面的高低，決定

F1253男聲女聲F1F2F3F1F2F3ㄚ90012002900110013503100ㄛ560800300073011003200ㄜ5601090300079012503100ㄝ5002100310060024003300ㄧ3102300330036030003500ㄨ37054034004608203700ㄩ3002100340035026003200ㄦ5801500320076017003200[Ref]王小川，“語(yǔ)音訊號(hào)處理”，第三版，全華出版，臺(tái)北，民國(guó)98年

雙元音：

ㄞ

(ai)，

ㄟ

(ei)，

ㄠ

(ao)，

ㄡ

(ou)

頻譜隨時(shí)間而改變，一開(kāi)使始像第一個(gè)元音，后變得像另一個(gè)元音254ㄞ的頻譜的

peaks位置900310Time12002900F1F2F3ㄚ一

ㄝ一

ㄚㄛ

ㄛㄨ33002300310255

1-FToneAnalysisTypicalrelationsbetweentimeandtheinstantaneousfrequenciesfor(a)the1sttone,(b)the2ndtone,(c)the3rdtone,and(d)the4thtoneinChinese.largeenergylargeenergysmallenergymiddleenergyX.X.Chen,C.N.Cai,P.Guo,andY.Sun,“AhiddenMarkovmodelappliedtoChinesefour-tonerecognition,”ICASSP,vol.12,pp.797-800,1987.以「語(yǔ)意學(xué)」或「機(jī)率」來(lái)補(bǔ)足語(yǔ)音辨識(shí)的不足

例如：經(jīng)過(guò)判定，一個(gè)聲音可能是

ㄅㄧ

ㄖㄢ

ㄆㄧ

ㄖㄢ

ㄅㄧ

ㄌㄢ

ㄆㄧ

ㄌㄢ

這個(gè)聲音是「必然」的機(jī)率比較大。

ㄅㄛㄅㄛ

ㄆㄛㄆㄛ

可能是「伯伯」，也可能是「婆婆」，看上下文

儲(chǔ)存詞庫(kù)

256

1-G語(yǔ)意學(xué)的角色當(dāng)前主流的語(yǔ)音辨識(shí)技術(shù)：Mel-FrequencyCepstrum+ToneAnalysis+語(yǔ)意分析+MachineLearning257附錄八：線性代數(shù)觀念補(bǔ)充(1)x

和y

兩個(gè)矢量的內(nèi)積可表示成

(2)兩個(gè)互相正交(orthogonal)或垂直(perpendicular)的矢量，其內(nèi)積為0?？杀硎境?或(3)令S為內(nèi)積空間V的一組正交集合(set)且由非零矢量構(gòu)成，

其中如果S是由一組正規(guī)集合(orthonormalset)構(gòu)成，那么258(5)SolvingAx=bbut,m>n

InterpolationTheorem(插值定理)1.Foranyinner-productfunctionofFm

,thereexistsavector

thatminimizeswhere2.

Ifrank(A)=n,then

istheuniqueminimizerof(4)Gram-Schmidtalgorithm:對(duì)于內(nèi)積空間V的任意一組基底，我們可以透過(guò)這算法找到一組正交基底幾何意義:把xj

在y1,y2,…,yj-1上面的分矢量全都從矢量xj

身上扣掉之后，剩下的矢量yj自然就會(huì)跟y1,y2,…,yj-1垂直。259附錄九：PCAandSVDPCA(principalcomponentanalysis)是資料分析和影像處理當(dāng)中常用到的數(shù)學(xué)方法，用來(lái)分析資料的「主要成分」或是影像中物體的「主軸」。它其實(shí)和各位同學(xué)在高中和大一線代所學(xué)的回歸線(regressiveline)很類似?；貧w線是用一條一維(one-dimensional)的直線來(lái)近似二維(two-dimensional)的資料，而PCA則是用M-dimensionaldata來(lái)近似N-dimensionaldata，其中M

小于等于N在講解PCA之前，先介紹什么是SVD(singularvaluedecomposition)我們?cè)诖笠坏臅r(shí)候，都已經(jīng)學(xué)到該如何對(duì)于NxN

的矩陣做eigenvector-eigenvaluedecomposition那么………當(dāng)一個(gè)矩陣的size為MxN，且M

和N

不相等時(shí)，我們?cè)撊绾螌?duì)它來(lái)做eigenvector-eigenvaluedecomposition?260SVD的流程：假設(shè)A

是一個(gè)MxN

的矩陣。(Step1)計(jì)算注意，B

是NxN

的矩陣，而C

是MxM

的矩陣。上標(biāo)H代表Hermitianmatrix，相當(dāng)于做共軛轉(zhuǎn)置。其中V

的每一個(gè)column是B

的eigenvector(withnormalization)，

的每一個(gè)column是C

的eigenvector

(withnormalization)，

Λ和D

都是對(duì)角矩陣，

和D

對(duì)角線上的entries是B

和C

的eigenvalues。并假設(shè)

eigenvectors根據(jù)eigenvalues的大小排序(由大到小)Note:值得注意的是，由于B=BH

且C=CH，所以B

和C

的eigenvectors皆各自形成一個(gè)orthogonalset。經(jīng)過(guò)適當(dāng)?shù)膎ormalization使得U

和V

的column自己和自己的內(nèi)積為1之后，U-1=UH

和V-1=VH將滿足。因此，B

和C

可以表示成(Step2)接著，對(duì)B

和C

做eigenvector-eigenvaluedecomposition注意，V和U是unitarymatrix261(Step3)

計(jì)算S1

是一個(gè)MxN

的矩陣，只有在S1[n,n](n=1,2,…,min(M,N))的地方不為0若S1[n,n]<0，改變U

第n

個(gè)column的正負(fù)號(hào)

即完成SVD

A也可以表示為其中λn=S[n,n],

k=min(M,N))注：Matlab有內(nèi)建的svd指令可以計(jì)算SVDNote:SinceVisboundtobereal,(Step4)取絕對(duì)值262從SVD到PCA(principalcomponentanalysis，主成份分析)

若λ1≧λ2≧λ3≧…..≧λk

是A矩陣的最主要的成份是A矩陣的第二主要的成份:

:是A矩陣的最不重要的成份若為了壓縮或是去除噪聲的考量，可以選擇h<k，使得A

可以近似成k=min(M,N))263PCA的流程假設(shè)現(xiàn)在有M

筆資料，每一筆資料為Ndimension

g1=[f1,1

f1,2,…,f1,N]

g2=[f2,1

f2,2,…,f2,N]:

gM=[fM,1

fM,2,…,fM,N]

(Step1)

扣掉平均值，形成新的datam=1,2,…,M其中(Step2)

形成MxN

的矩陣AA

的第m

個(gè)row為dm,m=1,2,…,M264(Step3)對(duì)A做SVD分解

k=min(M,N))(Step4)將A近似成λ1≧λ2≧λ3≧…..≧λk

則每一筆資料可以近似為v1T

是資料的最主要成分，

v2T

是資料的次主要成分，v3T

是資料的第三主要成分，以此類推除了平均值之外265ExampleofPCAFrom2022大考中心官網(wǎng)266ExampleofPCA假設(shè)在一個(gè)二維的空間中，有5個(gè)點(diǎn)，坐標(biāo)分別是(7,8),(9,8),(10,10),(11,12),(13,12)M=5,N=2試求這五個(gè)點(diǎn)的PCA(即回歸線)(Step1)將這五個(gè)坐標(biāo)點(diǎn)減去平均值(10,10)(-3,-2),(-1-2),(0,0),(1,2),(3,2)(Step2)形成5x2的matrix267(Step3)計(jì)算SVD主成分次要成分268得到主成分這五個(gè)坐標(biāo)點(diǎn)可以近似成u1=-0.6116,u2=-0.3549,u3=0,u4=0.3549,u5=0.6116m=1,2,…,5(Step4)269回歸線c(-,)

270UsingthePCAmethodcanobtainthebestapproximationresult.Withoutthelossofgeneralization,wediscusstheprobleminthe2Dcase(i.e.,N=2).SupposethatthelocationoftheMpoin

人人文庫(kù)> 全部分類> 專業(yè)文獻(xiàn) > 醫(yī)學(xué)資料

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

中文字字幕乱码视频,亚洲av无码乱码在线观看富二代,亚洲乱妇亚洲乱妇xinglu,亚洲日韩乱码中文无码蜜桃臀,亚洲精品无码久久久久久久

聲學(xué)簡(jiǎn)介課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

中文字字幕乱码视频,亚洲av无码乱码在线观看富二代,亚洲乱妇亚洲乱妇xinglu,亚洲日韩乱码中文无码蜜桃臀,亚洲精品无码久久久久久久

聲學(xué)簡(jiǎn)介課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔