




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第10章語(yǔ)音識(shí)別 南京工程學(xué)院
梁瑞宇第10章語(yǔ)音識(shí)別概述語(yǔ)音識(shí)別原理與系統(tǒng)構(gòu)成動(dòng)態(tài)時(shí)間規(guī)整隱馬爾可夫模型人工智能與語(yǔ)音識(shí)別性能評(píng)測(cè)第10章語(yǔ)音識(shí)別南京工程學(xué)院梁瑞宇10.1
概述語(yǔ)音識(shí)別主要指讓機(jī)器聽(tīng)懂人說(shuō)的話,即在各種情況下,準(zhǔn)確地識(shí)別出語(yǔ)音的內(nèi)容,從而根據(jù)其信息,執(zhí)行人的各種意圖。它是一門(mén)涉及面很廣的交叉學(xué)科,與計(jì)算機(jī)、通信、語(yǔ)音語(yǔ)言學(xué)、數(shù)理統(tǒng)計(jì)、信號(hào)處理、神經(jīng)生理學(xué)、神經(jīng)心理學(xué)和人工智能等學(xué)科都有著密切的關(guān)系。隨著計(jì)算機(jī)技術(shù)、模式識(shí)別和信號(hào)處理技術(shù)及聲學(xué)技術(shù)等的發(fā)展,使得能滿足各種需要的語(yǔ)音識(shí)別系統(tǒng)的實(shí)現(xiàn)成為可能。近二三十年來(lái),語(yǔ)音識(shí)別在工業(yè)、軍事、交通、醫(yī)學(xué)、民用諸方面,特別是在計(jì)算機(jī)、信息處理、通信與電子系統(tǒng)、自動(dòng)控制等領(lǐng)域中有著廣泛的應(yīng)用。當(dāng)今,語(yǔ)音識(shí)別產(chǎn)品在人機(jī)交互應(yīng)用中,已經(jīng)占到越來(lái)越大的比例。第10章語(yǔ)音識(shí)別南京工程學(xué)院梁瑞宇10.1
概述語(yǔ)音識(shí)別系統(tǒng)按照不同的角度、不同的應(yīng)用范圍、不同的性能要求有不同的分類(lèi)方法:?孤立詞/連續(xù)語(yǔ)音?Isolated
or
Continuous
speech?認(rèn)人/不認(rèn)人?Speaker-dependent
or
Independent?小詞匯量/大詞匯量?Small
or
large
vocabulary?安靜環(huán)境/噪雜環(huán)境?Environment
robustness?一般信道/電話信道?Channel
adaptability第10章語(yǔ)音識(shí)別南京工程學(xué)院梁瑞宇10.1
概述語(yǔ)音識(shí)別方法一般有模板匹配法、隨機(jī)模型法和
概率語(yǔ)法分析法三種。雖然,這三種方法都可以
說(shuō)是建立在最大似然決策貝葉斯判決的基礎(chǔ)上的,但具體做法不同。模板匹配法——簡(jiǎn)單,但實(shí)用性不強(qiáng)隨機(jī)模型法——主流的語(yǔ)音識(shí)別算法概率語(yǔ)法分析法——用于大長(zhǎng)度范圍的連續(xù)語(yǔ)音識(shí)別第10章語(yǔ)音識(shí)別 南京工程學(xué)院
梁瑞宇基于云計(jì)算服務(wù)的語(yǔ)音識(shí)別Siri和Voice
Actions分別作為當(dāng)今兩大智能陣營(yíng)蘋(píng)果
iOS
5和谷歌Android4.0的重點(diǎn)特征推出。它們都是語(yǔ)音輸入服務(wù),目的是讓生活更加輕松簡(jiǎn)單,無(wú)需手動(dòng)操作,通過(guò)說(shuō)話就可以播放音樂(lè)、上網(wǎng)搜索、發(fā)送短信郵件。南京工程學(xué)院梁瑞宇第10章語(yǔ)音識(shí)別基本原理語(yǔ)音壓縮包編碼用戶語(yǔ)音內(nèi)容云服務(wù)器互聯(lián)網(wǎng)上傳識(shí)別本機(jī)識(shí)別器分析下載可以理解的語(yǔ)言選取識(shí)別可能性最高的片段進(jìn)行優(yōu)先處理根據(jù)用戶最有可能的語(yǔ)音命令整理出一個(gè)候選列表,并陳列出來(lái)第10章語(yǔ)音識(shí)別 南京工程學(xué)院
梁瑞宇10.2
語(yǔ)音識(shí)別原理與系統(tǒng)構(gòu)成10.2.1
基本構(gòu)成第10章語(yǔ)音識(shí)別 南京工程學(xué)院
梁瑞宇基本構(gòu)成語(yǔ)音識(shí)別系統(tǒng)的本質(zhì)就是一種模式識(shí)別系統(tǒng),包括前段預(yù)處理、后端模式識(shí)別以及訓(xùn)練模型等基本單元。預(yù)處理過(guò)程包括預(yù)濾波、采樣、量化、分幀、加窗、預(yù)加重和端點(diǎn)檢測(cè)甚至降噪。特征參數(shù)的提取,特征的數(shù)量和維度呈增加的趨勢(shì)。語(yǔ)音識(shí)別系統(tǒng)分為兩個(gè)主要階段:訓(xùn)練階段:將數(shù)據(jù)庫(kù)中的語(yǔ)音樣本進(jìn)行特征參數(shù)提取,為每個(gè)詞條建立一個(gè)識(shí)別基本單元的聲學(xué)模型以及進(jìn)行文法分析的語(yǔ)言模型,并保存為模板庫(kù);識(shí)別階段:將待識(shí)別語(yǔ)音信號(hào)經(jīng)過(guò)相同的處理獲得語(yǔ)音參數(shù),然后按照一定的準(zhǔn)則和測(cè)度將待識(shí)別樣本特征與訓(xùn)練樣本特征進(jìn)行比較,通過(guò)判決后得出識(shí)別結(jié)果。第10章語(yǔ)音識(shí)別 南京工程學(xué)院
梁瑞宇10.2.1
基本構(gòu)成研究得最早也最成熟的孤立字(詞)識(shí)別系統(tǒng)的特點(diǎn)包括:?單詞之間有停頓,可使識(shí)別問(wèn)題簡(jiǎn)化?單詞之間的端點(diǎn)檢測(cè)比較容易?單詞之間的協(xié)同發(fā)音影響較小?一般孤立單詞的發(fā)音都比較認(rèn)真系統(tǒng)存在的問(wèn)題較少,較容易實(shí)現(xiàn),且其許多技術(shù)對(duì)其他類(lèi)型系統(tǒng)有通用性并易于推廣,如稍加補(bǔ)充一些知識(shí)即可用于其他類(lèi)型系統(tǒng)。第10章語(yǔ)音識(shí)別 南京工程學(xué)院
梁瑞宇10.2.1
基本構(gòu)成在語(yǔ)音識(shí)別中,孤立單詞識(shí)別是基礎(chǔ)。孤立字(詞)識(shí)別的三個(gè)主要目標(biāo):?擴(kuò)大詞匯量?提高識(shí)別精度?降低計(jì)算復(fù)雜度要達(dá)到這三個(gè)目標(biāo),關(guān)鍵問(wèn)題是:?特征的選擇和提取?失真測(cè)度的選擇?匹配算法的有效性第10章語(yǔ)音識(shí)別 南京工程學(xué)院
梁瑞宇10.2.2
前端處理語(yǔ)音特征提取的關(guān)鍵在于使語(yǔ)音識(shí)別的類(lèi)內(nèi)距離盡量小,類(lèi)間距離盡量大。特征參數(shù)提取是語(yǔ)音識(shí)別的關(guān)鍵問(wèn)題,特征參數(shù)選擇的好壞直接影響到語(yǔ)音識(shí)別的精度。識(shí)別參數(shù)可以是下面的某一種或幾種的組合:平均能量、過(guò)零率、頻譜、共振峰、倒譜、線性預(yù)測(cè)系數(shù)、偏自相關(guān)系數(shù)、聲道形狀的尺寸函數(shù),以及音長(zhǎng)、音高、聲調(diào)等超聲短信息函數(shù)。此外,美爾倒譜參數(shù)也是常用的語(yǔ)音識(shí)別特征參數(shù)。除了這些靜態(tài)參數(shù)以外,上述參數(shù)的時(shí)間變化也反映了語(yǔ)音特征的動(dòng)態(tài)特性,因此也常常被用于語(yǔ)音識(shí)別當(dāng)中。提取的語(yǔ)音特征參數(shù)有時(shí)還要進(jìn)行進(jìn)一步的變換處理,如正交變換、主元素分析等,以達(dá)到特征降維的目的,減少運(yùn)算量,提高識(shí)別性能的目的。第10章語(yǔ)音識(shí)別南京工程學(xué)院梁瑞宇10.2.3
關(guān)鍵組成*語(yǔ)音與語(yǔ)言模型語(yǔ)音模型一般指的是用于參數(shù)匹配的聲學(xué)模型。而語(yǔ)言模型一般是指在匹配搜索時(shí)用于字詞和路徑約束的語(yǔ)言規(guī)則?,F(xiàn)在公認(rèn)的較好的概率統(tǒng)計(jì)模型是隱馬爾科夫模型(HMM),可以根據(jù)環(huán)境和話者引起的特征參數(shù)的變動(dòng),實(shí)現(xiàn)非特定人的語(yǔ)音識(shí)別。對(duì)于漢語(yǔ)來(lái)說(shuō),音素、聲母—韻母、字、詞等都可以作為識(shí)別基本單元。但是,識(shí)別正確率和系統(tǒng)的復(fù)雜度(運(yùn)算量和存儲(chǔ)量等)之間總是存在矛盾。在漢語(yǔ)連續(xù)語(yǔ)音識(shí)別時(shí),采用聲母和韻母作為識(shí)別的參數(shù)基元、以音節(jié)字為識(shí)別基元,結(jié)合同音字理解技術(shù)以及詞以上的句子理解技術(shù)的一整套策略,可望實(shí)現(xiàn)漢語(yǔ)全字(詞)語(yǔ)音識(shí)別和理解的目的。第10章語(yǔ)音識(shí)別南京工程學(xué)院梁瑞宇10.2.3
關(guān)鍵組成*語(yǔ)音識(shí)別算法主流算法包括:基于參數(shù)模型的隱馬爾可夫模型(HMM)——主要用于大詞匯量的語(yǔ)音識(shí)別系統(tǒng),它需要較多的模型訓(xùn)練數(shù)據(jù),較長(zhǎng)的訓(xùn)練時(shí)間及識(shí)別時(shí)間,而且還需要較大的內(nèi)存空間基于非參數(shù)模型的矢量量化(VQ)方法——所需的模型訓(xùn)練數(shù)據(jù),訓(xùn)練與識(shí)別時(shí)間,工作存儲(chǔ)空間都很小,但是對(duì)于大詞匯量語(yǔ)音識(shí)別的識(shí)別性能不如HMM好?;趧?dòng)態(tài)時(shí)間規(guī)整(DTW)算法——應(yīng)用在小詞匯量、孤立字(詞)識(shí)別系統(tǒng)人工神經(jīng)網(wǎng)絡(luò)(ANN)、ANN/HMM法、VQ/HMM法等。第10章語(yǔ)音識(shí)別南京工程學(xué)院梁瑞宇10.2.3
關(guān)鍵組成*語(yǔ)音識(shí)別算法用于語(yǔ)音識(shí)別的距離測(cè)度有多種,如歐氏距離及其變形的歐氏距離測(cè)度、似然比測(cè)度、加權(quán)的識(shí)別測(cè)度等。選擇什么樣的距離測(cè)度與識(shí)別系統(tǒng)采用什么語(yǔ)音特征參數(shù)和什么樣的識(shí)別模型有關(guān),如線性預(yù)測(cè)系數(shù)和倒譜系數(shù)都有相應(yīng)的距離測(cè)度。對(duì)于匹配計(jì)算而得的測(cè)度值,根據(jù)若干準(zhǔn)則及專(zhuān)家知識(shí),判決選出可能的結(jié)果中最好的結(jié)果作為識(shí)別結(jié)果,由識(shí)別系統(tǒng)輸出,這一過(guò)程就是判決。在語(yǔ)音識(shí)別中,一般都采用K最鄰近(KNN)準(zhǔn)則來(lái)進(jìn)行決策。因此,選擇適當(dāng)?shù)木嚯x測(cè)度的門(mén)限值是問(wèn)題的關(guān)鍵,這往往需要大量實(shí)驗(yàn)來(lái)多次調(diào)整這些門(mén)限值才能得到滿意的識(shí)別結(jié)果。第10章語(yǔ)音識(shí)別南京工程學(xué)院梁瑞宇10.2.3
關(guān)鍵組成*語(yǔ)音識(shí)別算法模式識(shí)別部分是將輸入語(yǔ)音特征參數(shù)信息與訓(xùn)練時(shí)預(yù)存的參考模型(或模板)進(jìn)行比較匹配。由于發(fā)音速率的變化,輸出測(cè)試語(yǔ)音和參考模式間存在著非線性失真,即與參考模式相比輸入語(yǔ)音的某些音素變長(zhǎng)而另一些音素卻縮短,呈現(xiàn)隨機(jī)的變化。根據(jù)參考模式是模板或是隨機(jī)模型,最
有效的兩種時(shí)間規(guī)正策略分別是DTW技術(shù)和HMM技術(shù)。除了發(fā)音速率的變化外,相對(duì)于參考模式,測(cè)試語(yǔ)音還可能出現(xiàn)其他的語(yǔ)音變化,如連續(xù)/音渡/音變等聲學(xué)變化、發(fā)音人心理及生理變化、與話者無(wú)關(guān)的情況下發(fā)音人的變化以及環(huán)境變化等。如何提高整個(gè)系統(tǒng)對(duì)各種語(yǔ)音變化和環(huán)境變化的魯棒性,一直是研究的熱點(diǎn)。第10章語(yǔ)音識(shí)別南京工程學(xué)院梁瑞宇10.3
動(dòng)態(tài)時(shí)間規(guī)整10.3.1
基本構(gòu)成系統(tǒng)首先對(duì)語(yǔ)音進(jìn)行預(yù)處理,然后逐幀進(jìn)行特征提取。語(yǔ)音識(shí)別系統(tǒng)選用美爾頻率倒譜系數(shù)(MFCC)及其一階和二階差分作為特征參數(shù)。在識(shí)別階段,系統(tǒng)選用動(dòng)態(tài)時(shí)間規(guī)整(DTW)技術(shù)作為模式匹配算法,進(jìn)行語(yǔ)音識(shí)別。第10章語(yǔ)音識(shí)別 南京工程學(xué)院
梁瑞宇10.3.2
動(dòng)態(tài)時(shí)間規(guī)整基于模板匹配的語(yǔ)音識(shí)別算法需要解決的一個(gè)關(guān)鍵問(wèn)題是說(shuō)話人對(duì)同一個(gè)詞的兩次發(fā)音不可能完全相同,這些差異不僅包括音強(qiáng)的大小、頻譜的偏移,更重要的是發(fā)音時(shí)音節(jié)的長(zhǎng)短不可能完全相同,而且兩次發(fā)音的音節(jié)往往不存在線性對(duì)應(yīng)關(guān)系。第10章語(yǔ)音識(shí)別南京工程學(xué)院梁瑞宇10.3.2
動(dòng)態(tài)時(shí)間規(guī)整直接匹配是假設(shè)測(cè)試模板和參考模板長(zhǎng)度相等,即線性時(shí)間規(guī)整技術(shù)假設(shè)說(shuō)話速度是按不同說(shuō)話單元的發(fā)音長(zhǎng)度等比例分布的,即3)DTW是把時(shí)間規(guī)整和距離測(cè)度計(jì)算結(jié)合起來(lái)的一種非線性規(guī)整技術(shù),它尋找一個(gè)規(guī)整函數(shù) ,將測(cè)試矢量的時(shí)間軸n非線性地映射到參考模板的時(shí)間軸m上,并使該函數(shù)滿足:第10章語(yǔ)音識(shí)別南京工程學(xué)院梁瑞宇10.3.2
動(dòng)態(tài)時(shí)間規(guī)整DTW算法的實(shí)質(zhì)就是運(yùn)用動(dòng)態(tài)規(guī)劃的思想,利用局部最佳化的處理來(lái)自動(dòng)尋找一條路徑,沿著這條路徑,兩個(gè)特征矢量之間的累積失真量最小,從而避免由于時(shí)長(zhǎng)不同而可能引入的誤差。DTW算法要求參考模板與測(cè)試模板采用相同類(lèi)型的特征矢量、相同的幀長(zhǎng)、相同的窗函數(shù)和相同的幀移。為了使動(dòng)態(tài)路徑搜索問(wèn)題變得有實(shí)際意義,在規(guī)整函數(shù)上必須要加一些限制,否則找出的最優(yōu)路徑很可能使兩個(gè)根本不同的模式之間的相似性很大,從而使模式比較變得毫無(wú)意義。第10章語(yǔ)音識(shí)別 南京工程學(xué)院
梁瑞宇10.3.2
動(dòng)態(tài)時(shí)間規(guī)整通常規(guī)整函數(shù)必須滿足:1)邊界限制:規(guī)整發(fā)生在起點(diǎn)幀和端點(diǎn)幀之間,反映在規(guī)整函數(shù)上就是:?jiǎn)握{(diào)性限制:規(guī)整函數(shù)必須保證匹配路徑不違背語(yǔ)音信號(hào)各部分的時(shí)間順序,即規(guī)整函數(shù)必須滿足單調(diào)性限制:連續(xù)性限制:為了保證信息損失最小,規(guī)整函數(shù)一般規(guī)定不允許跳過(guò)任何一點(diǎn)。即:第10章語(yǔ)音識(shí)別南京工程學(xué)院梁瑞宇10.3.2
動(dòng)態(tài)時(shí)間規(guī)整DTW算法分兩步進(jìn)行,
一是計(jì)算兩個(gè)模式各幀之間的距離,即求出幀匹配距離矩陣,二是在幀匹配距離矩陣中找出一條最佳n
m路徑。搜索路徑的過(guò)程為:搜索從(1,1)點(diǎn)出發(fā),點(diǎn)
(i,i)可達(dá)到的前個(gè)點(diǎn)只可能是(in+1
m,i)、n+1
m+1
n
m+1(i
,i )
和(i
,i )
。那么一定選擇這三個(gè)距離中的最小者所對(duì)應(yīng)的點(diǎn)作為其前續(xù)格點(diǎn),這時(shí)此路徑的累積距離為:第10章語(yǔ)音識(shí)別南京工程學(xué)院梁瑞宇10.3.3
算法的改進(jìn)DTW算法雖然簡(jiǎn)單有效,但是動(dòng)態(tài)規(guī)劃方法需要
存儲(chǔ)較大的矩陣,直接計(jì)算將會(huì)占據(jù)較大的空間,計(jì)算量也比較大。因此,在實(shí)際應(yīng)用中會(huì)將DTW
算法進(jìn)行一些改進(jìn)以減少存儲(chǔ)空間和降低計(jì)算量。常見(jiàn)的改進(jìn)方法有搜索寬度限制、放寬端點(diǎn)限制
等。第10章語(yǔ)音識(shí)別 南京工程學(xué)院
梁瑞宇10.4
隱馬爾可夫模型10.4.1
隱馬爾可夫模型概述語(yǔ)音信號(hào)是時(shí)變的,所以用模型表示時(shí),其參數(shù)也是時(shí)變的。HMM既解決了用短時(shí)模型描述平穩(wěn)段信號(hào)的問(wèn)題,又解決了每個(gè)短時(shí)平穩(wěn)段是如何轉(zhuǎn)變到下一個(gè)短時(shí)平穩(wěn)段的問(wèn)題。HMM是建立在一階Markov鏈的基礎(chǔ)之上的,因此它們的概率特性基本相同。不同點(diǎn)是HMM是一個(gè)雙內(nèi)嵌式隨機(jī)過(guò)程,即HMM是由兩個(gè)隨機(jī)過(guò)程組成,一個(gè)隨機(jī)過(guò)程描述狀態(tài)和觀察值之間的統(tǒng)計(jì)對(duì)應(yīng)關(guān)系的,它解決了用短時(shí)模型描述平穩(wěn)段的信號(hào)的問(wèn)題;由于實(shí)際問(wèn)題比Markov鏈模型所描述的更為復(fù)雜,觀察到的事件并不像Markov鏈模型一樣與狀態(tài)一一對(duì)應(yīng),所以HMM通過(guò)另一組與概率分布相聯(lián)系的狀態(tài)轉(zhuǎn)移的統(tǒng)計(jì)對(duì)應(yīng)關(guān)系來(lái)描述每個(gè)短時(shí)平穩(wěn)段是如何轉(zhuǎn)變到下一個(gè)短時(shí)平穩(wěn)段的情況。第10章語(yǔ)音識(shí)別 南京工程學(xué)院
梁瑞宇10.4.1
隱馬爾可夫模型概述HMM是一個(gè)輸出符號(hào)序列的統(tǒng)計(jì)模型,具
有N個(gè)狀態(tài),它按一定的周期從一個(gè)狀態(tài)轉(zhuǎn)移到另一個(gè)狀態(tài),每次轉(zhuǎn)移時(shí),輸出一個(gè)符號(hào)。轉(zhuǎn)移到哪一個(gè)狀態(tài),轉(zhuǎn)移時(shí)輸出什么符號(hào),分別由狀態(tài)轉(zhuǎn)移概率和轉(zhuǎn)移時(shí)的輸出概率來(lái)決定。因?yàn)橹荒苡^測(cè)到輸出符號(hào)序列,而不能觀測(cè)到狀態(tài)轉(zhuǎn)移序列(即模型輸出符號(hào)序列時(shí),不能知道通過(guò)了哪些狀態(tài)路徑),所以稱(chēng)為隱藏的馬爾可夫模型。第10章語(yǔ)音識(shí)別南京工程學(xué)院梁瑞宇設(shè)有N個(gè)缸,每個(gè)缸中裝有很多彩色的球,在同一個(gè)缸中不同顏色球的多少由一組概率分布來(lái)描述。實(shí)驗(yàn)的步驟如下:根據(jù)某個(gè)初始概率分布,隨機(jī)的選擇N個(gè)缸中的一個(gè)缸,如第i個(gè)缸。再根據(jù)這個(gè)缸中彩色球顏色的概率分布,隨機(jī)地選擇一個(gè)球,記下球的顏色,記為o1,再把球放回缸中。又根據(jù)描述缸的轉(zhuǎn)移的概率分布,選擇下一個(gè)缸,如第個(gè)j缸,再?gòu)母字须S機(jī)選一個(gè)球,記下球的顏色,記為o2
。一直進(jìn)行下去,可以得到一個(gè)描述球的顏色的序列o1
,o2
,
…,由于這是觀察到的事件,因而稱(chēng)之為觀察值序列。如果每個(gè)缸中只裝有一種彩色的球,則根據(jù)球的顏色的序列o1
,
o2
,…,就可以知道缸的排列。但球的顏色和缸之間不是一一對(duì)應(yīng)的,所以缸之間的轉(zhuǎn)移以及每次選取的缸被隱藏起來(lái)了,并不能直接觀察到。而且,從每個(gè)缸中選擇什么顏色的球是由彩球顏色概率分布隨機(jī)決定的。此外,每次選取哪個(gè)缸則由一組轉(zhuǎn)移概率所決定。一個(gè)著名例子---球和缸的實(shí)驗(yàn)第10章語(yǔ)音識(shí)別南京工程學(xué)院梁瑞宇10.4.1
隱馬爾可夫模型概述一個(gè)簡(jiǎn)單的三狀態(tài)HMM(aab)S1->S1->S1->S3:0.3*0.8*0.3*0.8*0.2*1.0S1->S1->S2->S3:0.3*0.8*0.5*1.0*0.6*0.5S1->S2->S2->S3:0.5*1.0*0.4*0.3*0.6*0.5第10章語(yǔ)音識(shí)別 南京工程學(xué)院
梁瑞宇10.4.2
隱馬爾可夫模型的定義1)離散Markov過(guò)程Markov鏈?zhǔn)荕arkov隨機(jī)過(guò)程的特殊情況,即Markov鏈?zhǔn)菭顟B(tài)和時(shí)間參數(shù)都離散的Markov過(guò)程。n階Markov過(guò)程:一階Markov過(guò)程:這里,Pij(t,t+1)是從當(dāng)時(shí)刻t的狀態(tài)i到時(shí)刻t+1的狀態(tài)j的轉(zhuǎn)移概率。當(dāng)這個(gè)轉(zhuǎn)移概率是與時(shí)間無(wú)關(guān)的常數(shù)時(shí),稱(chēng)其為具有常數(shù)轉(zhuǎn)移概率的Markov過(guò)程。第10章語(yǔ)音識(shí)別 南京工程學(xué)院
梁瑞宇10.4.2
隱馬爾可夫模型的定義2)隱Markov模型HMM類(lèi)似于一階Markov過(guò)程,不同的是HMM是一個(gè)雙內(nèi)嵌式隨機(jī)過(guò)程。如前所述,HMM由兩個(gè)隨機(jī)過(guò)程組成:一個(gè)是狀態(tài)轉(zhuǎn)移序列,它對(duì)應(yīng)著一個(gè)單純Markov過(guò)程;另一個(gè)是每次轉(zhuǎn)移時(shí)輸出的符號(hào)組成的符號(hào)序列。對(duì)于隱Markov模型,把所有可能的狀態(tài)轉(zhuǎn)移序列都考慮進(jìn)去,則有:第10章語(yǔ)音識(shí)別 南京工程學(xué)院
梁瑞宇假定一段時(shí)間的氣象可由一個(gè)三狀態(tài)的馬爾可夫模型M描述,S1:雨,S2:多云,S3:晴,狀態(tài)轉(zhuǎn)移概率矩陣為:如果第一天為晴天,根據(jù)這一模型,在今后七天中天氣為O=“晴晴雨雨晴云晴”的概率為第10章語(yǔ)音識(shí)別南京工程學(xué)院梁瑞宇10.4.2
隱馬爾可夫模型的定義i
i3)HMM的基本元素語(yǔ)音識(shí)別用HMM可以用下面六個(gè)模型參數(shù)來(lái)定義,即:S:模型中狀態(tài)的有限集合,即模型由幾個(gè)狀態(tài)組成。在球與缸的實(shí)驗(yàn)中的缸就相當(dāng)于狀態(tài)。O:輸出的觀測(cè)值符號(hào)的集合,即每個(gè)狀態(tài)對(duì)應(yīng)的可能的觀察值數(shù)目。在球與缸實(shí)驗(yàn)中所選彩球的顏色就是觀察值。π:系統(tǒng)初始狀態(tài)概率的集合。π
表示初始狀態(tài)是s的概率,即在球與缸實(shí)驗(yàn)中,它指開(kāi)始時(shí)選取某個(gè)缸的概率。第10章語(yǔ)音識(shí)別南京工程學(xué)院梁瑞宇10.4.2
隱馬爾可夫模型的定義3)HMM的基本元素A:狀態(tài)轉(zhuǎn)移概率的集合。所有轉(zhuǎn)移概率可以構(gòu)成一個(gè)轉(zhuǎn)移概率矩陣,即ij
i
j其中,a
(k)是從狀態(tài)S
到狀態(tài)S
時(shí)的轉(zhuǎn)移概率。在球與缸實(shí)驗(yàn)中,其描述了選取當(dāng)前缸的條件下選取下一個(gè)缸的概率。ij
ijB:輸出觀測(cè)值概率的集合。B={b
(k)},其中b
(k)是從狀i
j態(tài)S
到狀態(tài)S
轉(zhuǎn)移時(shí)觀測(cè)值符號(hào)k的輸出概率,即缸中球的顏色k出現(xiàn)的概率。F:系統(tǒng)終了狀態(tài)的集合。第10章語(yǔ)音識(shí)別南京工程學(xué)院梁瑞宇10.4.2
隱馬爾可夫模型的定義3)HMM的基本元素嚴(yán)格來(lái)說(shuō)Markov模型是沒(méi)有終了狀態(tài)的,只是語(yǔ)音識(shí)別的Markov模型要設(shè)定終了狀態(tài)。因此,一個(gè)HMM可記為:可簡(jiǎn)寫(xiě)為:因此,HMM可分為兩部分:一個(gè)是Markov鏈,由π
、A描述,產(chǎn)生的輸出為狀態(tài)序列;另一個(gè)是一個(gè)隨機(jī)過(guò)程,由B描述,產(chǎn)生的輸出為觀察值序列。第10章語(yǔ)音識(shí)別 南京工程學(xué)院
梁瑞宇HMM的三個(gè)基本問(wèn)題評(píng)估問(wèn)題:對(duì)于給定模型,求某個(gè)觀察值序列的概率P(O|λ)解碼問(wèn)題:對(duì)于給定模型和觀察值序列,求可能性最大的狀態(tài)序列maxQ{P(S|O,λ)}學(xué)習(xí)問(wèn)題:對(duì)于給定的一個(gè)觀察值序列O,調(diào)整參數(shù)λ,使得觀察值出現(xiàn)的概率P(O|λ)最大賭場(chǎng)的欺詐某賭場(chǎng)在擲骰子時(shí)采用的作弊方法:在連續(xù)多次擲骰子的過(guò)程中,通常使用公平骰子A,偶而混入一個(gè)灌鉛骰子B。AB0.90.10.2公平骰子灌鉛骰子0.8第10章語(yǔ)音識(shí)別南京工程學(xué)院梁瑞宇骰子A骰子B1點(diǎn)1/602點(diǎn)1/61/83點(diǎn)1/61/84點(diǎn)1/63/165點(diǎn)1/63/166點(diǎn)1/63/8公平骰子A與灌鉛骰子B的區(qū)別:第第1100章章語(yǔ)語(yǔ)音音識(shí)識(shí)別別
南南京京工工程程學(xué)學(xué)院院
梁梁瑞瑞宇宇時(shí)間1234567骰子AAABAAA擲出點(diǎn)數(shù)3345162一次連續(xù)擲骰子的過(guò)程模擬隱序列明序列查封賭場(chǎng)后,
調(diào)查人員發(fā)現(xiàn)了一些連續(xù)擲骰子的記錄,其中有一個(gè)骰子擲出的點(diǎn)數(shù)記錄如下:124552646214614613613666166466163661636616361651561511514612356234
…第10章語(yǔ)音識(shí)別 南京工程學(xué)院
梁瑞宇給定:一個(gè)骰子擲出的點(diǎn)數(shù)記錄124552646214614613613666166466163661636616361651561511514612356234評(píng)估問(wèn)題:會(huì)出現(xiàn)這個(gè)點(diǎn)數(shù)記錄的概率有多大?求P(O|λ)解碼問(wèn)題:點(diǎn)數(shù)序列中的哪些點(diǎn)數(shù)是用骰子B擲出的?
求maxQ{P(S|O,λ)}學(xué)習(xí)問(wèn)題:
作弊骰子擲出各點(diǎn)數(shù)的概率是怎樣的?公平骰子擲出各點(diǎn)數(shù)的概率又是怎樣的 ? 賭場(chǎng)是何時(shí)換用骰子的 ?南京工程學(xué)院梁瑞宇第10章語(yǔ)音識(shí)別本例中HMM的定義隱狀態(tài)集:
S={骰子A,骰子B}明字符集:
V={1,2,3,4,5,6}初始狀態(tài)概率:
π1=1,
π2=0隱狀態(tài)轉(zhuǎn)移概率
:a11=0.9,
a12=0.1a21=0.8,
a22=0.2初始狀態(tài)明字符生成概率
:b11
=
b12=…=b16=1/6b21=0,
b22=b23=1/8,
b24=b25=3/16,
b26=3/81.001:1/62:1/63:1/64:1/65:1/66:1/60.80.90.21:02:1/83:1/84:3/165:3/166:3/80.1骰子A骰子B第10章語(yǔ)音識(shí)別 南京工程學(xué)院
梁瑞宇10.4.3
隱馬爾可夫模型的基本算法t1)前向-后向算法——前向算法前向算法即按輸出觀察值序列的時(shí)間,從前向后遞推計(jì)算輸出概率。計(jì)算步驟:1)給每個(gè)狀態(tài)準(zhǔn)備一個(gè)數(shù)組變量α
(j),初始化時(shí)令初始狀1
0
0態(tài)S的數(shù)組變量α
(1)為1,其它狀態(tài)數(shù)組變量α
(j)為0;t
t2)根據(jù)t時(shí)刻輸出的觀察符號(hào)o
計(jì)算α
(j):T當(dāng)狀態(tài)S
到狀態(tài)S
沒(méi)有轉(zhuǎn)移時(shí),
α
=0;i
j
ij當(dāng)t≠T時(shí)轉(zhuǎn)移到2),否則執(zhí)行4);把最終的數(shù)組變量α
(N)內(nèi)的值取出,則:第10章語(yǔ)音識(shí)別 南京工程學(xué)院
梁瑞宇10.4.3
隱馬爾可夫模型的基本算法2)前向-后向算法——后向算法后向算法即按輸出觀察值序列的時(shí)間,從后向前遞推計(jì)算輸出概率的方法。計(jì)算步驟:初始化:遞推公式:(3)最后結(jié)果:第10章語(yǔ)音識(shí)別 南京工程學(xué)院
梁瑞宇10.4.3
隱馬爾可夫模型的基本算法t2)維特比(Viterbi)算法計(jì)算步驟:1)給每個(gè)狀態(tài)準(zhǔn)備一個(gè)數(shù)組變量α
′(j),初始化時(shí)令初始1
0
0狀態(tài)S的數(shù)組變量α
′(1)為1,其它狀態(tài)數(shù)組變量α
′(j)為0;t
t2)根據(jù)t時(shí)刻輸出的觀察符號(hào)o
計(jì)算α
′(j):i
j
ij當(dāng)狀態(tài)S
到狀態(tài)S
沒(méi)有轉(zhuǎn)移時(shí),
α
=0;設(shè)計(jì)一個(gè)符號(hào)數(shù)組變量把每一次使α
′(j)最大的狀態(tài)i保存下來(lái);t3)當(dāng)t≠T時(shí)轉(zhuǎn)移到2),否則執(zhí)行4);T4)把最終的數(shù)組變量α
′(N)內(nèi)的值取出,則第10章語(yǔ)音識(shí)別 南京工程學(xué)院
梁瑞宇10.4.3
隱馬爾可夫模型的基本算法3)Baum-Welch算法利用Baum-Welch算法進(jìn)行HMM訓(xùn)練的具體步驟:1)適當(dāng)?shù)剡x擇aij和bij的初始值。常用的設(shè)定方式為:給予從狀態(tài)轉(zhuǎn)移出去的每條弧相等的轉(zhuǎn)移概率,即給予每一個(gè)輸出觀察符號(hào)相等的輸出概率初始值,即并且每條弧上給予相同的輸出概率距陣;第10章語(yǔ)音識(shí)別 南京工程學(xué)院
梁瑞宇10.4.3
隱馬爾可夫模型的基本算法t3)Baum-Welch算法2)給定一個(gè)(訓(xùn)練)觀察值符號(hào)序列O,由初始模型計(jì)算γ
(i,j)等,并且由重估公式計(jì)算以下兩種概率;t3)再給定一個(gè)(訓(xùn)練)觀察值符號(hào)序列O,把2)計(jì)算的概率作為初始模型計(jì)算γ
(i,j)等,由上述重估公式,重新計(jì)算兩種概率;4)如此反復(fù),直到兩種概率收斂為止。第10章語(yǔ)音識(shí)別 南京工程學(xué)院
梁瑞宇10.4.3
隱馬爾可夫模型的基本算法3)Baum-Welch算法模型收斂,停止訓(xùn)練的判定方法也很重要。因?yàn)椴⒉皇怯?xùn)練的越多越好,訓(xùn)練過(guò)頭反而會(huì)使模型參數(shù)精度變差。一種判定方法是前后兩次的輸出概率的差值小于一定閾值或模型參數(shù)幾乎不變?yōu)橹梗涣硪环N判定方法是采用固定訓(xùn)練次數(shù)的辦法,如對(duì)于一定數(shù)量的訓(xùn)練數(shù)據(jù),利用這些數(shù)據(jù)反復(fù)訓(xùn)練十次(或若干次)即可。另外,訓(xùn)練數(shù)據(jù)的數(shù)量也很重要,一般來(lái)講,要想訓(xùn)練一個(gè)好的HMM,至少需要同類(lèi)別數(shù)據(jù)幾十個(gè)左右。HMM訓(xùn)練(參數(shù)估計(jì)問(wèn)題)是HMM在語(yǔ)音處理中應(yīng)用的關(guān)鍵問(wèn)題,與前面討論的兩個(gè)問(wèn)題相比,這也是最困難的一個(gè)問(wèn)題。第10章語(yǔ)音識(shí)別 南京工程學(xué)院
梁瑞宇10.4.4
基于隱馬爾可夫模型的孤立字(詞)識(shí)別利用HMM進(jìn)行孤立字(詞)語(yǔ)音
識(shí)別時(shí),主要分為兩個(gè)階段,即訓(xùn)練階段和識(shí)別階段。假設(shè)總共有G個(gè)待識(shí)別的孤立字(詞),在訓(xùn)練階段,對(duì)于每一個(gè)孤立字(詞)g,進(jìn)行預(yù)處理和特征提取,得到的語(yǔ)音信號(hào)的特征矢量序列的集合作為觀察值序列O(g)。然后,利用HMM的Baum-Welch算法估計(jì)出與當(dāng)前孤立字(詞)對(duì)應(yīng)的HMM的參數(shù)M(g)。當(dāng)所有孤立字(詞)
HMM所對(duì)應(yīng)的HMM參數(shù)估計(jì)出之后,訓(xùn)練過(guò)程結(jié)束。第10章語(yǔ)音識(shí)別 南京工程學(xué)院
梁瑞宇10.4.4
基于隱馬爾可夫模型的孤立字(詞)識(shí)別在識(shí)別階段,對(duì)于任一待識(shí)別的語(yǔ)音X′,首先將其進(jìn)行預(yù)處理和特征提取,得到對(duì)應(yīng)的特征矢量序列O′。然后,利用
HMM的前向—后向算法計(jì)算該特征矢量序列在訓(xùn)練好的每個(gè)孤立字(詞)HMM上的輸出概率P(O′|M(g)),把輸出概率最大的HMM所對(duì)應(yīng)的孤立字(詞)作為識(shí)別結(jié)果。第10章語(yǔ)音識(shí)別 南京工程學(xué)院
梁瑞宇10.5
人工智能與語(yǔ)音識(shí)別2009年,學(xué)者將傳統(tǒng)的HMM-GMM中的聲學(xué)模型替換為DBN-HMM模型,成功搭建了一個(gè)單音素的語(yǔ)音識(shí)別系統(tǒng)。隨后,越來(lái)越多的神經(jīng)網(wǎng)絡(luò)架構(gòu)被挖掘出來(lái)并成功應(yīng)用在語(yǔ)音識(shí)別系統(tǒng)中,如DNN、CNN、RNN等。在語(yǔ)音深度識(shí)別領(lǐng)域中,端到端的學(xué)習(xí)模型逐漸成為這幾年研究的熱潮。與傳統(tǒng)框架相比,
端到端的語(yǔ)音識(shí)別模型省去了繁雜的發(fā)音模型、聲學(xué)模型、語(yǔ)言模型的分支,完成的是從語(yǔ)音
輸入到文字輸出的直接映射。第10章語(yǔ)音識(shí)別南京工程學(xué)院梁瑞宇10.5.1常用開(kāi)源數(shù)據(jù)集一、英文數(shù)據(jù)集
1)LibriSpeech公開(kāi)數(shù)據(jù)集中最常用的英文語(yǔ)料,其中包含了1000小時(shí)的16kHz有聲書(shū)錄音,并且經(jīng)過(guò)切割和整理成每條10秒左右的、經(jīng)過(guò)文本標(biāo)注的音頻文件,非常適合入門(mén)使用。數(shù)據(jù)取自LibriVox項(xiàng)目的已讀有聲讀物。2)2000
HUB5
English
Evaluation
Transcripts該數(shù)據(jù)集由語(yǔ)言數(shù)據(jù)協(xié)會(huì)開(kāi)發(fā),由NIST(美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院)贊助的2000
HUB5評(píng)估中使用的40個(gè)英語(yǔ)電話對(duì)話組成。Hub5系列評(píng)估的重點(diǎn)是通過(guò)電話進(jìn)行對(duì)話語(yǔ)音,其特殊任務(wù)是將對(duì)話語(yǔ)音轉(zhuǎn)錄為文本。第10章語(yǔ)音識(shí)別南京工程學(xué)院梁瑞宇二、中文數(shù)據(jù)集THCHS30是一個(gè)很經(jīng)典的中文語(yǔ)音數(shù)據(jù)集,包含了1萬(wàn)余條語(yǔ)音文件,大約40小時(shí)的中文語(yǔ)音數(shù)據(jù)。它是由清華大學(xué)語(yǔ)音與語(yǔ)言技術(shù)中心出版。ST-CMDS是由AI數(shù)據(jù)公司沖浪科技發(fā)布的中文語(yǔ)音
數(shù)據(jù)集,包含10萬(wàn)余條語(yǔ)音文件,大約100余小時(shí)的語(yǔ)音數(shù)據(jù)。AISHELL-1是由北京希爾公司發(fā)布的一個(gè)中文語(yǔ)音
數(shù)據(jù)集,其中包含178小時(shí)的開(kāi)源版數(shù)據(jù)。該數(shù)據(jù)集包含
400個(gè)來(lái)自中國(guó)不同地區(qū)、具有不同的口音的人的聲音。
4)aidatatang_1505zh是數(shù)據(jù)堂推出AI數(shù)據(jù)開(kāi)源計(jì)劃面向高校和學(xué)術(shù)機(jī)構(gòu)等非商業(yè)組織群體,首次開(kāi)源的數(shù)據(jù)集為:1505小時(shí)中文普通話語(yǔ)音數(shù)據(jù)集。第10章語(yǔ)音識(shí)別南京工程學(xué)院梁瑞宇10.5.2語(yǔ)音喚醒√語(yǔ)音喚醒技術(shù)也稱(chēng)為關(guān)鍵詞檢測(cè)技術(shù),是語(yǔ)音識(shí)別任務(wù)的一個(gè)分支,需要從一串語(yǔ)音流檢測(cè)出有限個(gè)預(yù)先定義的激活詞或者關(guān)鍵詞,而不需要對(duì)所有的語(yǔ)音進(jìn)行識(shí)別?!踢@類(lèi)技術(shù)是嵌入式設(shè)備具備語(yǔ)音交互能力的基礎(chǔ),可以被應(yīng)用到多種設(shè)備上,比如手機(jī)、智能音箱、機(jī)器人、智能家居、車(chē)載設(shè)備、可穿戴設(shè)備等?!掏ǔ?,設(shè)備喚醒詞是默認(rèn)的或者預(yù)先設(shè)定的,大部分中文喚醒詞是4個(gè)字,音節(jié)覆蓋越多,其差異越大,相應(yīng)的喚醒和誤喚醒性能越好。第10章語(yǔ)音識(shí)別南京工程學(xué)院梁瑞宇常用特征√目前最常用的語(yǔ)音特征包括語(yǔ)譜和MFCC等?!袒趯?duì)數(shù)表示的特征(如MFCC)會(huì)壓縮動(dòng)態(tài)范圍,經(jīng)過(guò)對(duì)數(shù)運(yùn)算之后,放大了小幅值的動(dòng)態(tài)范圍,而壓縮了大幅值的動(dòng)態(tài)范圍,比如安靜語(yǔ)音幅值會(huì)占據(jù)大部分動(dòng)態(tài)范圍。其次,這些特征與語(yǔ)音響度強(qiáng)相關(guān),而預(yù)期音量不應(yīng)該對(duì)喚醒結(jié)果造成影響。√Google提出信道能量歸一化的特征(per-channelenergy
normalization,PCEN):是采用一階無(wú)限濾波其中,
是原始特征,器平滑之后的特征平滑系數(shù)。第10章語(yǔ)音識(shí)別南京工程學(xué)院梁瑞宇典型深度學(xué)習(xí)模型Google在2014年提出了用深度神經(jīng)網(wǎng)絡(luò)的方法來(lái)實(shí)現(xiàn)語(yǔ)音喚醒,稱(chēng)之為Deep
KWS。喚醒分為三個(gè)步
驟:特征提取、經(jīng)過(guò)深度神經(jīng)網(wǎng)絡(luò)輸出后驗(yàn)概率和后處理判決。首先對(duì)輸入語(yǔ)音做特征提取,然后經(jīng)過(guò)DNN網(wǎng)絡(luò)得到一個(gè)三分類(lèi)的后驗(yàn)概率,三分類(lèi)分別對(duì)應(yīng)關(guān)鍵字
Okey、Google和其他,最后經(jīng)過(guò)后處理得到置信度得分,用于喚醒判決。第10章語(yǔ)音識(shí)別南京工程學(xué)院梁瑞宇2015年,Google提出基于CNN的KWS模型,典型的卷積網(wǎng)絡(luò)結(jié)構(gòu)含一層卷積層和一層最大池化層。相比DNN,CNN的優(yōu)勢(shì)在于:1)DNN不關(guān)心頻譜結(jié)構(gòu),輸入特征做任何拓?fù)渥冃我膊粫?huì)影響最終性能,然而頻譜在時(shí)頻域都有高度相關(guān)性,CNN在抓取空間信息方面更有優(yōu)勢(shì);2)CNN通過(guò)對(duì)不同時(shí)頻區(qū)域內(nèi)的隱層節(jié)點(diǎn)輸出取平均的方式,比DNN用更少的參數(shù)量,能克服不同的說(shuō)話風(fēng)格帶來(lái)的共振峰偏移問(wèn)題。但是,CNN建模的一個(gè)缺陷是:一般尺寸的卷積核不足以表達(dá)整個(gè)喚醒詞上下文,而RNN正好擅長(zhǎng)基于上下文建模。RNN的缺點(diǎn)在于無(wú)法表達(dá)連續(xù)頻譜的空間關(guān)系,而CNN正好擅長(zhǎng)基于空間關(guān)系建模。因此,語(yǔ)音任務(wù)中出現(xiàn)將CNN和RNN結(jié)合的CRNN模型結(jié)構(gòu),并以CTC作為損失函數(shù),百度將這個(gè)模型結(jié)構(gòu)應(yīng)用在喚醒任務(wù)上,并大幅縮減了模型參數(shù)量。第10章語(yǔ)音識(shí)別南京工程學(xué)院梁瑞宇10.5.3
DeepSpeechDeepSpeech
V1百度研究團(tuán)隊(duì)于2014年底發(fā)布了第一代深度語(yǔ)音識(shí)別系統(tǒng)DeepSpeech。系統(tǒng)采用了端對(duì)端的深度學(xué)習(xí)技
術(shù),也就是說(shuō),系統(tǒng)不需要人工設(shè)計(jì)組件對(duì)噪聲、混響或揚(yáng)聲器波動(dòng)進(jìn)行建模,而是直接從語(yǔ)料中進(jìn)行學(xué)習(xí)。團(tuán)隊(duì)采用7000小時(shí)的干凈語(yǔ)音語(yǔ)料,通過(guò)添加人工噪音的方法生成10萬(wàn)小時(shí)的合成語(yǔ)音語(yǔ)料,并在
SWITCHBOARD評(píng)測(cè)語(yǔ)料上獲得了16.5%的WER。當(dāng)時(shí)的實(shí)驗(yàn)顯示,百度的語(yǔ)音識(shí)別效果比起谷歌、
Bing與Apple
API而言優(yōu)勢(shì)明顯。第10章語(yǔ)音識(shí)別南京工程學(xué)院梁瑞宇Deepspeech
V1的核心是一個(gè)RNN。每個(gè)時(shí)刻RNN
輸出的是一個(gè)概率分布,表示這個(gè)時(shí)刻輸出某個(gè)字符的概率。字符集包括a-z這26個(gè)字母,空格,撇號(hào)和空字符。第10章語(yǔ)音識(shí)別南京工程學(xué)院梁瑞宇DeepSpeech的模型包含5個(gè)隱層:前3層是全連接層,對(duì)于第1層,在t時(shí)刻的輸入不只是t時(shí)刻的特征,而且還包括它的前后C幀特征,共計(jì)2C+1幀。前3層通過(guò)如下公式計(jì)算:第四層是一個(gè)雙向的遞歸層,包含了兩組隱藏單元,其中一組是前向遞歸,另一組是后向遞歸,計(jì)算公式為:第10章語(yǔ)音識(shí)別 南京工程學(xué)院
梁瑞宇第五層把第四層的前向和后向輸出加起來(lái)當(dāng)做輸入最后一層是一個(gè)全連接層(無(wú)激活函數(shù)),它使用
softmax把輸出變成對(duì)應(yīng)每個(gè)字符的概率第10章語(yǔ)音識(shí)別南京工程學(xué)院梁瑞宇(2)DeepSpeech
V22015年年底,百度推出了DeepSpeech
2,它基于
LSTM-CTC的端對(duì)端語(yǔ)音識(shí)別技術(shù),通過(guò)將機(jī)器學(xué)習(xí)領(lǐng)域的LSTM建模與CTC訓(xùn)練引入傳統(tǒng)的語(yǔ)音識(shí)別框架里,提出了具有創(chuàng)新性的漢字語(yǔ)音識(shí)別方法。并能夠通過(guò)深度學(xué)習(xí)網(wǎng)絡(luò)識(shí)別嘈雜環(huán)境下的兩種完全不同的語(yǔ)言——英語(yǔ)與普通話,而端到端的學(xué)習(xí)能夠使系統(tǒng)處理各種條件下的語(yǔ)音,包括嘈雜環(huán)境、口音及區(qū)別不同語(yǔ)種。DeepSpeech2相對(duì)于v1來(lái)說(shuō),加深了其網(wǎng)絡(luò)結(jié)構(gòu)。共有9層網(wǎng)絡(luò),其中包括了雙向RNN(或GRU),一層前瞻卷積,一層時(shí)序卷積以及三層CNN。在v2中使
用了GRU,GRU
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 化學(xué)自主訓(xùn)練第二章化學(xué)能與熱能
- 莊子與惠子游于濠梁之上(原卷版)-2024年中考語(yǔ)文之文言文對(duì)比閱讀
- 浙江省杭州市蕭山區(qū)八校2022-2023學(xué)年八年級(jí)下學(xué)期5月學(xué)情調(diào)研數(shù)學(xué)試卷(含解析)
- 2025年廣東茂名電白區(qū)村(社區(qū))后備干部選聘考試備考題庫(kù)及答案解析
- 2025年關(guān)于節(jié)能環(huán)保試題及答案
- 2025年保安員(初級(jí))模擬考試及復(fù)審考試題含答案
- 易錯(cuò)易混:函數(shù)的概念及其性質(zhì)(復(fù)習(xí)講義)-2026年高考數(shù)學(xué)一輪復(fù)習(xí)原卷版
- 乳品供應(yīng)鏈協(xié)同創(chuàng)新與乳品企業(yè)競(jìng)爭(zhēng)力評(píng)估體系構(gòu)建考核試卷
- 乙醇結(jié)構(gòu)與性質(zhì)-2023學(xué)年高一化學(xué)易混易錯(cuò)點(diǎn)(人教版)
- 體育場(chǎng)館智能監(jiān)控系統(tǒng)在環(huán)境監(jiān)測(cè)中的應(yīng)用考核試卷
- 2025便利店加盟的合同樣本
- 評(píng)職稱(chēng)老師考試題目及答案
- 2025年內(nèi)分泌風(fēng)濕免疫科進(jìn)修人員出科理論考試試題及答案
- 石油監(jiān)督考試試題及答案
- 2025年花卉栽培技術(shù)人員花卉栽培技術(shù)知識(shí)考核試卷及答案
- 2025年高一物理下學(xué)期期末考試試題及答案
- 學(xué)堂在線 高技術(shù)與現(xiàn)代局部戰(zhàn)爭(zhēng) 章節(jié)測(cè)試答案
- 2025年醫(yī)療器械倉(cāng)庫(kù)管理培訓(xùn)試題及答案
- 助焊劑存儲(chǔ)管理辦法
- 測(cè)井工崗位實(shí)習(xí)報(bào)告
- 2025至2030中國(guó)CAN收發(fā)器行業(yè)項(xiàng)目調(diào)研及市場(chǎng)前景預(yù)測(cè)評(píng)估報(bào)告
評(píng)論
0/150
提交評(píng)論