




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第8章語音識(shí)別
8.1采用矢量量化的說話人識(shí)別8.2采用DTW的孤立詞識(shí)別8.3基于HMM的語音(語句)識(shí)別
第8章語音識(shí)別
實(shí)際語音信號(hào)序列的變化是隨機(jī)的不確定的,觀測(cè)結(jié)果會(huì)隨著它們狀態(tài)的改變而改變,而狀態(tài)是隱藏的,無法直接被觀測(cè)到,狀態(tài)序列和觀測(cè)序列都是隨機(jī)的,因此需要從語音數(shù)據(jù)的統(tǒng)計(jì)數(shù)據(jù)中進(jìn)行學(xué)習(xí),利用已有的數(shù)據(jù)擬合出一個(gè)最優(yōu)的模型。38.1.1矢量量化的原理8.1.2矢量量化的訓(xùn)練8.1.3矢量量化說話人識(shí)別的實(shí)現(xiàn)8.1采用矢量量化的說話人識(shí)別48.1采用矢量量化的說話人識(shí)別矢量量化(VectorQuantization,VQ)是一種信號(hào)處理和數(shù)據(jù)壓縮技術(shù),常用于圖像處理、語音處理等領(lǐng)域。在說話人識(shí)別中,矢量量化可以用于提取和表示說話人的聲音特征,以便于后續(xù)的識(shí)別和驗(yàn)證任務(wù)。58.1采用矢量量化的說話人識(shí)別在說話人識(shí)別中,矢量量化的基本思想是將聲音信號(hào)的各幀表示為一個(gè)向量。這些向量可以是聲學(xué)特征的統(tǒng)計(jì)信息,接著對(duì)這些向量進(jìn)行聚類,形成一組代表性的矢量。當(dāng)新的聲音信號(hào)到來時(shí),它會(huì)被分割成時(shí)間片段,并用與訓(xùn)練時(shí)相同的特征提取方法轉(zhuǎn)換為向量。然后,通過計(jì)算輸入向量與碼本中各個(gè)矢量的距離,找到最匹配的碼本向量,從而確定說話人的識(shí)別。68.1.1矢量量化的原理將若干個(gè)標(biāo)量數(shù)據(jù)組成一個(gè)矢量(或者是從一幀語音數(shù)據(jù)中提取的特征矢量)在多維空間給予整體量化,從而可以在信息量損失較小的情況下壓縮數(shù)據(jù)量。矢量量化有效地應(yīng)用了矢量中各元素之間的相關(guān)性,因此可以比標(biāo)量量化有更好的壓縮效果。78.1.1矢量量化的原理
88.1.1矢量量化的原理矢量量化器的設(shè)計(jì)主要有兩個(gè)問題:一個(gè)是如何劃分量化區(qū)域,使平均失真度最小化;另一個(gè)則是怎樣保證在失真度最小的情況下尋求最優(yōu)碼本。98.1.1矢量量化的原理失真測(cè)度是輸入矢量用碼字來表示時(shí)所產(chǎn)付出的代價(jià),能夠表示碼字和各個(gè)碼本之間的相似程度。失真測(cè)度選擇的好壞會(huì)直接影響到說話人識(shí)別系統(tǒng)的性能。失真測(cè)度108.1.1矢量量化的原理
矢量量化器118.1.1矢量量化的原理
矢量量化區(qū)域128.1.1矢量量化的原理
138.1.2矢量量化的訓(xùn)練矢量量化的說話人識(shí)別訓(xùn)練主要包含:1.從訓(xùn)練語音提取特征矢量,得到特征矢量集。2.選擇合適的失真測(cè)度,并通過碼本優(yōu)化算法生成碼本。3.重復(fù)訓(xùn)練修正優(yōu)化碼本。4.存儲(chǔ)碼本。148.1.2矢量量化的訓(xùn)練
158.1.2矢量量化的訓(xùn)練
168.1.2矢量量化的訓(xùn)練根據(jù)這兩條原則,可以得到一種碼本設(shè)計(jì)的遞推算法LBG(Linde-Buzo-Gray,LBG)算法。整個(gè)算法實(shí)際上就是上述兩個(gè)條件的反復(fù)迭代過程,即從初始碼本中尋找最佳碼本的迭代過程。它由對(duì)初始碼本進(jìn)行迭代優(yōu)化開始,一直到系統(tǒng)性能滿足要求或不再有明顯的改進(jìn)為止178.1.2矢量量化的訓(xùn)練
LBG算法步驟如下:188.1.2矢量量化的訓(xùn)練
LBG算法步驟如下:198.1.2矢量量化的訓(xùn)練
LBG算法步驟如下:208.1.2矢量量化的訓(xùn)練
LBG算法步驟如下:218.1.2矢量量化的訓(xùn)練6.計(jì)算新碼本的碼:LBG算法步驟如下:228.1.2矢量量化的訓(xùn)練
LBG算法步驟如下:238.1.3矢量量化說話人識(shí)別的實(shí)現(xiàn)
24孤立詞識(shí)別是語音識(shí)別中的一個(gè)重要任務(wù),它涉及識(shí)別單個(gè)獨(dú)立的詞語。動(dòng)態(tài)時(shí)間規(guī)整(DynamicTimeWarping,DTW)是一種常用于語音識(shí)別和時(shí)間序列匹配的算法,特別適用于處理時(shí)間軸上存在時(shí)間伸縮或略微變形的情況。8.2采用DTW的孤立詞識(shí)別258.2采用DTW的孤立詞識(shí)別DTW算法的基本思想是將兩個(gè)時(shí)間序列進(jìn)行時(shí)間軸的拉伸或壓縮,使得它們之間的距離最小。在孤立詞識(shí)別任務(wù)中,DTW可以用于計(jì)算測(cè)試音頻與模板音頻之間的距離,從而確定測(cè)試音頻所屬的詞語類別。DTW算法是大多用于檢測(cè)兩條語音的相似程度,在語音信號(hào)中,需要比較相似性的兩段時(shí)間序列的長(zhǎng)度通常并不相等,不同人的語速不同。DTW算法268.2采用DTW的孤立詞識(shí)別在比較相似度之前,需要將其中一個(gè)(或者兩個(gè))序列在時(shí)間軸下扭曲,以達(dá)到更好的對(duì)齊。而DTW
就是實(shí)現(xiàn)這種扭曲的一種有效方法。DTW通過把時(shí)間序列進(jìn)行延伸和縮短,來計(jì)算兩個(gè)時(shí)間序列性之間的相似性。278.2采用DTW的孤立詞識(shí)別例如下圖(a)所示,上邊緣和下邊緣曲線分別是同一個(gè)孤立詞“pen”的兩個(gè)語音波形,它們整體上的波形形狀很相似,但在時(shí)間軸上卻是不對(duì)齊的;而在下圖(b)中,DTW就可以通過找到這兩個(gè)波形對(duì)齊的點(diǎn),這樣計(jì)算它們的距離才是正確的。288.2采用DTW的孤立詞識(shí)別
298.2采用DTW的孤立詞識(shí)別DTW的目標(biāo)是尋找一條通過此網(wǎng)格中若干格點(diǎn)的路徑,路徑通過的格點(diǎn)即為兩個(gè)語音序列進(jìn)行計(jì)算的對(duì)齊的點(diǎn),如圖8.3所示。308.2采用DTW的孤立詞識(shí)別
318.2采用DTW的孤立詞識(shí)別路徑的選擇應(yīng)滿足以下約束條件:
328.2采用DTW的孤立詞識(shí)別路徑的選擇應(yīng)滿足以下約束條件:
338.2采用DTW的孤立詞識(shí)別路徑的選擇應(yīng)滿足以下約束條件:
348.2采用DTW的孤立詞識(shí)別在符合條件的多種路徑中,選擇規(guī)整代價(jià)最小的:系數(shù)K主要是用來對(duì)不同的長(zhǎng)度的規(guī)整路徑做補(bǔ)償,把兩個(gè)時(shí)間序列進(jìn)行延伸和縮短,來得到兩個(gè)時(shí)間序列性距離最短的扭曲,這個(gè)最短的距離也就是這兩個(gè)時(shí)間序列的最后的距離度量。在這里,我們要做的就是選擇一個(gè)路徑,使得最后得到的總的距離最小。358.2采用DTW的孤立詞識(shí)別
368.2采用DTW的孤立詞識(shí)別
378.2采用DTW的孤立詞識(shí)別
388.2采用DTW的孤立詞識(shí)別最終計(jì)算結(jié)果如下,2個(gè)模板直接的距離為26,通過回溯找到最短距離的路徑,通過箭頭方向反推回去。如圖8.5所示。39實(shí)際語音信號(hào)序列的變化是隨機(jī)的、不確定的,觀測(cè)結(jié)果會(huì)隨著它們狀態(tài)的改變而改變,而狀態(tài)是隱藏的,無法直接被觀測(cè)到,狀態(tài)序列和觀測(cè)序列都是隨機(jī)的,因此需要從語音數(shù)據(jù)的統(tǒng)計(jì)數(shù)據(jù)中進(jìn)行學(xué)習(xí),利用已有的數(shù)據(jù)擬合出一個(gè)最優(yōu)的模型。8.3基于HMM的語音(語句)識(shí)別408.3.1HMM模型隱馬爾可夫模型(HiddenMarkovModel,HMM)是一種常用的模型,在許多實(shí)際應(yīng)用中,我們只能觀測(cè)到系統(tǒng)輸出(觀測(cè)序列),而對(duì)于系統(tǒng)內(nèi)部的狀態(tài)序列,我們無法直接觀測(cè)到。通過HMM,研究者可以利用觀測(cè)序列推斷最有可能的狀態(tài)序列,從而對(duì)系統(tǒng)狀態(tài)進(jìn)行估計(jì)。418.3.1HMM模型首先介紹馬爾可夫鏈來建模離散狀態(tài)的隨機(jī)序列,狀態(tài)之間的轉(zhuǎn)換有一定概率,隱馬爾可夫鏈如圖8.6所示。428.3.1HMM模型
438.3.1HMM模型
448.3.1HMM模型
458.3.1HMM模型因此一般將一個(gè)完整的狀態(tài)轉(zhuǎn)移矩陣應(yīng)定義為:468.3.1HMM模型
478.3.1HMM模型
488.3.1HMM模型
498.3.1HMM模型
508.3.1HMM模型HMM涉及三個(gè)基本問題,這些問題是在給定模型和觀測(cè)序列的情況下,我們想要得到的關(guān)鍵信息。這些基本問題分別是:概率求解問題解碼問題訓(xùn)練學(xué)習(xí)問題518.3.1HMM模型概率求解問題在給定模型參數(shù)(狀態(tài)轉(zhuǎn)移矩陣A包含初始狀態(tài)概率和終止?fàn)顟B(tài)概率、發(fā)射矩陣)和觀測(cè)序列,在已知模型的情況下,計(jì)算該觀測(cè)序列出現(xiàn)的概率。如在語音識(shí)別中,給定一個(gè)聲音序列,想要計(jì)算出這個(gè)聲音序列是某個(gè)詞的概率。528.3.1HMM模型解碼問題在已知模型參數(shù)和觀測(cè)序列的情況下,找到最有可能的隱狀態(tài)序列,即想要找到與觀測(cè)序列最匹配的狀態(tài)序列,這就是語音識(shí)別中的解碼過程。538.3.1HMM模型訓(xùn)練學(xué)習(xí)問題在已知觀測(cè)序列的情況下,求解最優(yōu)模型參數(shù),使得在此模型下觀測(cè)到此觀測(cè)序列的概率值最大,也就是說,希望從觀測(cè)數(shù)據(jù)中學(xué)習(xí)出一個(gè)最優(yōu)的HMM模型,使得該模型能夠較好地?cái)M合在訓(xùn)練中從未見過的數(shù)據(jù)。訓(xùn)練學(xué)習(xí)是HMM最關(guān)鍵的問題。548.3.2HMM模型的概率求解
558.3.2HMM模型的概率求解
568.3.2HMM模型的概率求解
578.3.2HMM模型的概率求解
588.3.2HMM模型的概率求解
598.3.2HMM模型的概率求解
608.3.2HMM模型的概率求解
618.3.2HMM模型的概率求解
628.3.2HMM模型的概率求解類似地同樣定義后向似然度(BackwardLikelihood),用后向算法來求概率。638.3.2HMM模型的概率求解
648.3.2HMM模型的概率求解
658.3.3HMM模型的解碼
668.3.3HMM模型的解碼
678.3.3HMM模型的解碼
688.3.3HMM模型的解碼
698.3.3HMM模型的解碼HMM狀態(tài)圖708.3.3HMM模型的解碼幀-狀態(tài)拓?fù)鋱D718.3.3HMM模型的解碼在語音識(shí)別中,Viterbi算法用于將聲學(xué)特征序列映射到最可能的音素或單詞序列。語音信號(hào)是一個(gè)時(shí)序數(shù)據(jù),Viterbi算法可以幫助確定最可能的發(fā)音序列,從而實(shí)現(xiàn)準(zhǔn)確的語音識(shí)別。728.3.3HMM模型的解碼738.3.4HMM模型的訓(xùn)練
748.3.4HMM模型的訓(xùn)練
758.3.4HMM模型的訓(xùn)練
768.3.4HMM模型的訓(xùn)練本節(jié)將使用Viterbi訓(xùn)練(硬狀態(tài)分配)和Baum-Welch訓(xùn)練(軟狀態(tài)分配)來進(jìn)行檢驗(yàn)。77Viterbi訓(xùn)練(硬狀態(tài)分配)8.3.4HMM模型的訓(xùn)練
788.3.4HMM模型的訓(xùn)練
798.3.4HMM模型的訓(xùn)練
808.3.4HMM模型的訓(xùn)練因此對(duì)于單獨(dú)一個(gè)觀測(cè)序列模型參數(shù)更新,重新估計(jì)狀態(tài)轉(zhuǎn)移概率和發(fā)射概率:818.3.4HMM模型的訓(xùn)練因此對(duì)于單獨(dú)一個(gè)觀測(cè)序列模型參數(shù)更新,重新估計(jì)狀態(tài)轉(zhuǎn)移概率和發(fā)射概率:828.3.4HMM模型的訓(xùn)練
838.3.4HMM模型的訓(xùn)練然而隱狀態(tài)的占用不是完全確定的,因此現(xiàn)考慮一種基于EM(expectationmaximisation)期望最大化的方法,通過軟狀態(tài)分配來優(yōu)化模型的參數(shù)。這種方法稱為Baum-Welch(BW)算法Baum-Welch(BW)算法:848.3.4HMM模型的訓(xùn)練首先定義狀態(tài)的占用似然度(occupationlikelihood):858.3.4HMM模型的訓(xùn)練
868.3.4HMM模型的訓(xùn)練
878.3.4HMM模型的訓(xùn)練
888.3.4HMM模型的訓(xùn)練
898.3.4HMM模型的訓(xùn)練
908.3.4HMM模型的訓(xùn)練
918.3.4HMM模型的訓(xùn)練
928.3.4HMM模型的訓(xùn)練
938.3.4HMM模型的訓(xùn)練948.3.4HMM模型的訓(xùn)練可以看出兩者的估計(jì)結(jié)果不完全相同。這是因?yàn)椋篤iterbi算法找的是最優(yōu)路徑,用的是圍繞這些狀態(tài)的概率值,計(jì)算出的概率結(jié)果分布可能不夠精確。Baum-Welch算法是基于局部最優(yōu)的方法,它考慮所有可能的路徑并計(jì)算在某個(gè)時(shí)間點(diǎn)處于某個(gè)狀態(tài)的概率,能夠提供更精確的概率分布但會(huì)消耗更多計(jì)算資源。958.3.4HMM模型的訓(xùn)練總的來說,用這兩種算法訓(xùn)練的模型得到的結(jié)果是相似的,但它們的側(cè)重點(diǎn)不同,Baum-Welch得到的結(jié)果更符合實(shí)際情況。當(dāng)觀測(cè)序列達(dá)到一定長(zhǎng)度或給出的數(shù)據(jù)集的狀態(tài)分布更符合實(shí)際狀態(tài)的分布時(shí),兩者的訓(xùn)練結(jié)果將更加接近。968.3.5HMM-GMM模型HMM-GMM模型(HiddenMarkovModelwithGaussianMixtureModels),本質(zhì)上是一種特殊的HMM模型,在HMM-GMM模型中,每個(gè)狀態(tài)都有一個(gè)與之關(guān)聯(lián)的高斯混合模型(GMM),這個(gè)GMM用于描述在該狀態(tài)下觀測(cè)值(通常是連續(xù)的)的概率分布。978.3.5HMM-GMM模型
988.3.5HMM-GMM模型
998.3.5HMM-GMM模型
1008.3.5HMM-GMM模型
1018.3.5HMM-GMM模型
1028.3.5HMM-GMM模型用Baum-Welch算法更新:1038.3.6基于HMM的語音識(shí)別應(yīng)用案例demo1048.3.6基于HMM的語音識(shí)別應(yīng)用案例demo1058.3.6基于HMM的語音識(shí)別應(yīng)用案例demo1068.3.6基于HMM的語音識(shí)別應(yīng)用案例在語音識(shí)別中,觀測(cè)序列通常代表每個(gè)幀所提取的特征,例如梅爾頻率倒譜系數(shù)(MFCC)。這些特征向量構(gòu)成了觀測(cè)序列,每個(gè)特征向量代表了一幀的聲音特征。在語音識(shí)別中,狀態(tài)通常代表語音信號(hào)中的音素、音節(jié)、單詞或子詞單元。每個(gè)狀態(tài)對(duì)應(yīng)一個(gè)特定的語音單元,HMM模型的狀態(tài)音素可以被視為語音識(shí)別任務(wù)中的單位。狀態(tài)序列指導(dǎo)了語音信號(hào)如何演變,從而形成了整個(gè)語音信號(hào)的表示。語音識(shí)別一般過程如圖8.15所示。1078.3.6基于HMM的語音識(shí)別應(yīng)用案例語音識(shí)別過程1088.3.6基于HMM的語音識(shí)別應(yīng)用案例HMM語音識(shí)別模型結(jié)構(gòu)1098.3.6基于HMM的語音識(shí)別應(yīng)用案例
1108.3.6基于HMM的語音識(shí)別應(yīng)用案例
1118.3.6基于HMM的語音識(shí)別應(yīng)用案例樸素貝葉斯分類器(NativeBayesClassifier)是一種基于概率論的簡(jiǎn)單分類器,它在語音識(shí)別任務(wù)中的應(yīng)用基于貝葉斯定理。樸素貝葉斯分類器1128.3.6基于HMM的語音識(shí)別應(yīng)用案例
1138.3.6基于HMM的語音識(shí)別應(yīng)用案例分類器將選擇后驗(yàn)概率最大的類別作為輸出結(jié)果:1148.3.6基于HMM的語音識(shí)別應(yīng)用案例
1158.3.6基于HMM的語音識(shí)別應(yīng)用案例
1168.3.6基于HMM的語音識(shí)別應(yīng)用案例
1178.3.6基于HMM的語音識(shí)別應(yīng)用案例重新估計(jì)的GMM參數(shù)也使用BW算法進(jìn)行更新:1188.3.6基于HMM的語音識(shí)別應(yīng)用案例重新估計(jì)的HMM參數(shù)為:1198.3.6基于HMM的語音識(shí)別應(yīng)用案例語音是連續(xù)的,音素的發(fā)音可能會(huì)受到前后音素的影響。同時(shí)如果僅使用單音素進(jìn)行建模,需要收集大量的訓(xùn)練數(shù)據(jù)以覆蓋各種音素組合,而使用三音素可以減少所需的訓(xùn)練數(shù)據(jù)量,并且可以更好地利用已有的數(shù)據(jù)。1208.3.6基于HMM的語音識(shí)別應(yīng)用案例HMM的三音素建模方式如圖8.17所示1218.3.6基于HMM的語
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 個(gè)人現(xiàn)金抵押借款合同書5篇
- 甘將軍課件教學(xué)課件
- 瓷磚知識(shí)培訓(xùn)教材課件
- 瓷磚產(chǎn)地知識(shí)培訓(xùn)方案課件
- 瓷泥蓮蓬課件
- 瓣膜性房顫課件
- 公司實(shí)物貴金屬委托代銷協(xié)議5篇
- 愛蓮說精美課件
- 詩歌雙關(guān)課件
- 2月電工高級(jí)??荚囶}(含答案)
- 2025至2030中國高純硫酸銅溶液行業(yè)項(xiàng)目調(diào)研及市場(chǎng)前景預(yù)測(cè)評(píng)估報(bào)告
- 【《K公司涂料生產(chǎn)車間布局優(yōu)化方案設(shè)計(jì)案例概述》12000字】
- 醫(yī)藥物品采購流程圖解
- 綜合停電管理辦法
- 《建筑設(shè)備自動(dòng)化》課件-第6章 換熱站與供暖系統(tǒng)的控制與管理
- 鹽酸的安全管理課件
- 2025年秋數(shù)學(xué)(新)人教版三年級(jí)上課件:第1課時(shí) 曹沖稱象的故事
- 杜邦安全四大階段
- 新生兒人文關(guān)懷護(hù)理
- 非遺文化在地方高校美術(shù)教育中的應(yīng)用路徑研究
- 村委會(huì)三年來工作總結(jié)
評(píng)論
0/150
提交評(píng)論