【《地方方言的語(yǔ)音識(shí)別算法與實(shí)現(xiàn)研究》15000字(論文)】_第1頁(yè)
【《地方方言的語(yǔ)音識(shí)別算法與實(shí)現(xiàn)研究》15000字(論文)】_第2頁(yè)
【《地方方言的語(yǔ)音識(shí)別算法與實(shí)現(xiàn)研究》15000字(論文)】_第3頁(yè)
【《地方方言的語(yǔ)音識(shí)別算法與實(shí)現(xiàn)研究》15000字(論文)】_第4頁(yè)
【《地方方言的語(yǔ)音識(shí)別算法與實(shí)現(xiàn)研究》15000字(論文)】_第5頁(yè)
已閱讀5頁(yè),還剩21頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

地方方言的語(yǔ)音識(shí)別算法與實(shí)現(xiàn)研究摘要目前隨著科技的迅速發(fā)展,全球化進(jìn)程加快,世界就像“縮小”了一樣,國(guó)內(nèi)各地區(qū)之間的交流也變得頻繁起來(lái),語(yǔ)音識(shí)別技術(shù)作為實(shí)現(xiàn)實(shí)時(shí)翻譯的基礎(chǔ)也得到了迅猛發(fā)展。在2002年中科院自動(dòng)化所及其所屬模式科技(Pattek)公司發(fā)布了他們共同推出的"天語(yǔ)"中文語(yǔ)音系列產(chǎn)品--PattekASR,結(jié)束了中文語(yǔ)音識(shí)別產(chǎn)品自1998年以來(lái)一直由國(guó)外公司壟斷的歷史。目前我國(guó)語(yǔ)音識(shí)別技術(shù)已經(jīng)基本上與國(guó)外同步,在漢語(yǔ)語(yǔ)音識(shí)別技術(shù)上還有自己的特點(diǎn)與優(yōu)勢(shì),并達(dá)到國(guó)際先進(jìn)水平。本文主要使用python語(yǔ)言工具,采用隱馬爾可夫模型對(duì)溫州市文成縣的方言進(jìn)行語(yǔ)音識(shí)別方法研究。首先,系統(tǒng)介紹了溫州方言的由來(lái)及分類,講述了溫州方言即甌語(yǔ)的主要流行使用地方,以及“三里不同調(diào),十里不同音”的特點(diǎn)。接著,介紹了語(yǔ)音識(shí)別主要使用的隱馬爾可夫模型的一些概念,還有使用的高斯隱馬爾可夫模型的應(yīng)用范圍,講述了MFCC梅爾特征系數(shù)的提取的原理及流程。然后,對(duì)語(yǔ)音識(shí)別原理和實(shí)現(xiàn)過(guò)程做了整體概述。實(shí)現(xiàn)語(yǔ)音識(shí)別時(shí)先通過(guò)迅捷音頻錄制工具錄制了一些wav格式的溫州方言的日常用語(yǔ)語(yǔ)音作為訓(xùn)練集,并音頻里進(jìn)行預(yù)處理,將一些不必要的雜音去除,將音頻信號(hào)轉(zhuǎn)換成計(jì)算機(jī)能識(shí)別的數(shù)字信號(hào)后,通過(guò)建立的HMM模型,對(duì)經(jīng)過(guò)MFCC特征提取的音頻數(shù)據(jù)進(jìn)行訓(xùn)練獲得訓(xùn)練集,最后使用測(cè)試集對(duì)訓(xùn)練好的模型進(jìn)行驗(yàn)證測(cè)試。關(guān)鍵詞:語(yǔ)音識(shí)別;python;HMM;溫州方言目錄15202摘要 緒論1.1研究背景及其研究意義隨著科學(xué)技術(shù)的發(fā)展,全球化進(jìn)程不斷加快,國(guó)內(nèi)各地區(qū)之間的人員、物流來(lái)往也變得頻繁起來(lái)。因此,人與人之間的交流就顯得非常重要。語(yǔ)音識(shí)別技術(shù)的成熟使人們可以使用不同的語(yǔ)言進(jìn)行交流。簡(jiǎn)單來(lái)說(shuō),語(yǔ)音識(shí)別技術(shù)實(shí)際上是一種使用計(jì)算機(jī)將語(yǔ)音信號(hào)自動(dòng)轉(zhuǎn)換為文本的技術(shù),這是將人類語(yǔ)音信號(hào)轉(zhuǎn)換為文本的過(guò)程。在現(xiàn)實(shí)生活中,大多數(shù)年輕一代較少向他們的孩子講本地方言。普通話是大眾的主流,但是老一輩仍然習(xí)慣于使用方言來(lái)和別人進(jìn)行交流。科學(xué)技術(shù)的發(fā)展,使得計(jì)算機(jī)的軟硬件也日趨成熟,加上語(yǔ)音識(shí)別技術(shù)的成熟,實(shí)時(shí)語(yǔ)音識(shí)別已經(jīng)實(shí)現(xiàn),主流的漢英翻譯已經(jīng)實(shí)現(xiàn)。基于HMM的溫州方言語(yǔ)音識(shí)別方法研究試圖通過(guò)語(yǔ)音識(shí)別技術(shù)將溫州方言翻譯成中文。語(yǔ)音識(shí)別的領(lǐng)域主要包括信號(hào)處理、模型識(shí)別、概率與信息理論、聲音和聽覺(jué)機(jī)制?;镜恼Z(yǔ)音技術(shù)主要模塊包括語(yǔ)音信號(hào)信息處理和語(yǔ)音特性信息提取技術(shù)模塊、統(tǒng)計(jì)學(xué)和聲學(xué)處理模型、發(fā)音處理字典和詞典、語(yǔ)言聲學(xué)模型等。對(duì)于來(lái)溫州游玩的旅客在和使用當(dāng)?shù)胤窖越涣鞯娜藴贤〞r(shí),他們可能會(huì)存在交流障礙,因此有必要對(duì)溫州方言語(yǔ)音識(shí)別方法進(jìn)行研究。HMM模型作為一種基本型的統(tǒng)計(jì)分析模型,是一種比較有價(jià)值和比較經(jīng)典的機(jī)器深度學(xué)習(xí)統(tǒng)計(jì)模型。它被廣泛地研究應(yīng)用于人機(jī)語(yǔ)言圖像識(shí)別、自然語(yǔ)言處理、模式識(shí)別等多個(gè)科學(xué)技術(shù)研究領(lǐng)域。使用此模型可以實(shí)現(xiàn)完整的語(yǔ)音識(shí)別功能。使用python語(yǔ)言,研究基于HMM模型的溫州方言語(yǔ)音識(shí)別方法,并對(duì)模型進(jìn)行訓(xùn)練和測(cè)試,以選擇更準(zhǔn)確的模型。它可以識(shí)別一些日常的溫州方言,減少由于交流中使用不同語(yǔ)言造成的交流障礙,促進(jìn)人與人之間的交流。1.2研究現(xiàn)狀語(yǔ)音識(shí)別技術(shù)的研究始于二十世紀(jì)五十年代,1952年,AT&Tbell實(shí)驗(yàn)室開發(fā)了Audry系統(tǒng),這是世界上第一個(gè)能夠識(shí)別十個(gè)連續(xù)英文數(shù)字的實(shí)驗(yàn)系統(tǒng)REF_Ref23368\r\h[3]。1960年代計(jì)算機(jī)的應(yīng)用加速了語(yǔ)音識(shí)別技術(shù)的發(fā)展,并提供了兩個(gè)主要發(fā)現(xiàn):動(dòng)態(tài)計(jì)劃(DP)和線性預(yù)測(cè)分析(LP)。其中LP解決了音頻信號(hào)生成的問(wèn)題,該模型的提出對(duì)語(yǔ)音識(shí)別技術(shù)的發(fā)展有重大影響。19世紀(jì)70年代,在應(yīng)用語(yǔ)音自動(dòng)識(shí)別的各領(lǐng)域的綜合應(yīng)用技術(shù)方面已經(jīng)取得了重大突破。itakura成功地將使用線性函數(shù)預(yù)測(cè)方法進(jìn)行函數(shù)編碼(LPC)應(yīng)用于語(yǔ)音識(shí)別,Saku和Chiba將動(dòng)態(tài)編程思想應(yīng)用于語(yǔ)音識(shí)別,提出了動(dòng)態(tài)時(shí)間混合算法。語(yǔ)音信號(hào)提取和不等式調(diào)整功能能有效解決長(zhǎng)時(shí)間的語(yǔ)音識(shí)別問(wèn)題;同時(shí)介紹了矢量量化理論與隱馬爾可夫模型。同時(shí),統(tǒng)計(jì)方法已開始用于解決主要的語(yǔ)音識(shí)別問(wèn)題,使用不確定組的大量詞匯為后續(xù)的連續(xù)語(yǔ)音識(shí)別技術(shù)的成熟提供重要的基礎(chǔ)。在隨著互聯(lián)網(wǎng)和多媒體技術(shù)時(shí)代的進(jìn)步而到來(lái),從實(shí)踐性轉(zhuǎn)變?yōu)楝F(xiàn)代語(yǔ)音識(shí)別系統(tǒng)的過(guò)渡成為了迫切需求。美國(guó)、韓國(guó)和日本等許多先進(jìn)國(guó)家,還有ibm、apple、at&t和ntt等一些知名公司正在將語(yǔ)音識(shí)別系統(tǒng)付諸實(shí)踐。在研究開發(fā)上投入了大量的資金。dragon的ibmviavoice和dragondectate系統(tǒng)是最為有名的。這些詞匯管理系統(tǒng)都具有新的說(shuō)話人適應(yīng)功能,因此使用者無(wú)需學(xué)習(xí)所有的詞匯表即可不斷地提高自己在使用中的詞匯辨認(rèn)率。中國(guó)從1970年代末就開始深入研究語(yǔ)音技術(shù),直到1980年代后期,中國(guó)科學(xué)院聲學(xué)研究所、清華大學(xué)自動(dòng)化研究所、四川大學(xué)、西北工業(yè)大學(xué)等科研機(jī)構(gòu)和許多科研機(jī)構(gòu)都在研究上投入了大量資金,許多研究人員致力于研究基礎(chǔ)的聲學(xué)模型及語(yǔ)音識(shí)別算法研究與改進(jìn)REF_Ref13301\r\h。雖然,我國(guó)起步基數(shù)低,計(jì)算機(jī)水平低,在1980年代語(yǔ)音識(shí)別研究中還沒(méi)有形成自己的特點(diǎn)。但是,自1990年代初以來(lái),我國(guó)對(duì)語(yǔ)音識(shí)別技術(shù)研究的發(fā)展步伐已經(jīng)越來(lái)越接近于國(guó)際上的先進(jìn)水平。在國(guó)家科學(xué)與技術(shù)研究計(jì)劃的大力支持下,以及“八五”、“九五”國(guó)家生命科學(xué)基金和“國(guó)家863計(jì)劃”等計(jì)劃的實(shí)施下,取得了多項(xiàng)成果。學(xué)習(xí)漢語(yǔ)基本語(yǔ)言能力,在文字翻譯轉(zhuǎn)換為語(yǔ)音的技術(shù)上,中國(guó)科學(xué)技術(shù)大學(xué)的iFLYTEK擁有世界上最先進(jìn)的核心技術(shù)。中國(guó)科學(xué)院聲學(xué)研究所還根據(jù)長(zhǎng)期積累而開發(fā)出獨(dú)特的產(chǎn)品:從語(yǔ)音識(shí)別技術(shù)的角度來(lái)看,中國(guó)科學(xué)院自動(dòng)化研究所具有明顯的技術(shù)優(yōu)勢(shì):社會(huì)語(yǔ)言學(xué)是中文語(yǔ)言學(xué)和實(shí)驗(yàn)語(yǔ)言學(xué)。迄今為止,語(yǔ)音識(shí)別已經(jīng)研究和開發(fā)了許多新型產(chǎn)品,并且中小型詞匯非特定語(yǔ)音識(shí)別系統(tǒng)和特定年齡人群的語(yǔ)音識(shí)別系統(tǒng)精度接近100%。目前,語(yǔ)音識(shí)別器件和計(jì)算機(jī)系統(tǒng)都已經(jīng)能夠被集成到智能化的芯片中。例如,某些手機(jī)、電話、電話交換機(jī)和其他產(chǎn)品都具有帶有語(yǔ)音撥號(hào),語(yǔ)音應(yīng)答等功能的芯片,這些都是依賴于語(yǔ)音技術(shù)的發(fā)展才得以實(shí)現(xiàn)。1.3論文結(jié)構(gòu)安排本文主要敘述了基于HMM實(shí)現(xiàn)溫州方言語(yǔ)音識(shí)別方法研究。首先介紹了溫州方言的發(fā)展歷史及特點(diǎn),然后講述了python語(yǔ)言的一些特點(diǎn)。講述了HMM的一些基本原理,闡述了MFCC梅爾倒譜系數(shù)的原理及實(shí)現(xiàn)過(guò)程。講述了進(jìn)行語(yǔ)音識(shí)別的具體流程,然后對(duì)其實(shí)驗(yàn)結(jié)果進(jìn)行分析。論文主要包括7個(gè)部分,具體的安排方案如下:第一部分主要是介紹溫州方言語(yǔ)音識(shí)別課題的研究發(fā)展背景及其意義、語(yǔ)音識(shí)別研究發(fā)展現(xiàn)狀,然后將論文結(jié)構(gòu)和工作進(jìn)行了簡(jiǎn)單闡述。第2部分主要介紹溫州方言語(yǔ)特點(diǎn)和python語(yǔ)言的特點(diǎn)。第3部分主要介紹隱馬爾可夫模型的基本原理和示例。第4部分主要介紹MFCC梅爾頻率倒譜系數(shù)的基本原理及其實(shí)現(xiàn)過(guò)程。第5部分介紹了語(yǔ)音識(shí)別的具體流程。第6部分是對(duì)該語(yǔ)音識(shí)別實(shí)驗(yàn)結(jié)果的分析。第7部分是對(duì)本次書寫論文的總結(jié)以及對(duì)接下來(lái)的展望。

2基礎(chǔ)準(zhǔn)備2.1溫州方言概述溫州方言是吳語(yǔ)的一種次方言,民間也稱甌語(yǔ)。它被當(dāng)?shù)氐臐h族人民廣泛使用。它屬于漢藏語(yǔ)系-漢語(yǔ)-吳語(yǔ)-甌江話-溫州話。它的發(fā)音和語(yǔ)法與中國(guó)通用的普通話有很大不同。不能使用溫州方言與使用北部使用吳語(yǔ)的人交流,因?yàn)樗鼘儆谀喜康膮钦Z(yǔ),北部的吳語(yǔ)與其不同。溫州方言(甌語(yǔ))可大致分為三類:純甌語(yǔ)區(qū),準(zhǔn)甌語(yǔ)區(qū)和半甌語(yǔ)區(qū)。純甌語(yǔ)區(qū)講純正口音,包括溫州鹿城,龍灣和甌海三個(gè)區(qū)以及瑞安市區(qū)。溫州方言(甌語(yǔ))具有很強(qiáng)的內(nèi)部一致性,但是區(qū)域差異也很大,包括語(yǔ)音差異和詞匯差異,因此有時(shí)很難在兩個(gè)不同的地區(qū)使用當(dāng)?shù)氐臏刂莘窖灾g進(jìn)行交流溝通REF_Ref12452\r\h[4]。溫州話的復(fù)雜性可以描述為“三里不同調(diào),十里不同音”。2013年12月,網(wǎng)民在微博上發(fā)布了“中國(guó)十大最困難的方言”排名,溫州方言在難度指數(shù)中排名第一。溫州話也有悠久的歷史,溫州最重要的一種閩語(yǔ)方言,就是溫州閩語(yǔ),這也就是吳語(yǔ)的一個(gè)重要分支。趙元任的《現(xiàn)代吳語(yǔ)研究》首次明確提出了對(duì)吳語(yǔ)的一種科學(xué)界限和定義,甌語(yǔ)自此被學(xué)界普遍認(rèn)為已經(jīng)發(fā)展成為現(xiàn)代吳語(yǔ)的一個(gè)重要分支。王力的《中國(guó)語(yǔ)文概論》則宣稱該語(yǔ)言支系為吳語(yǔ)的溫臺(tái)系。1997年由中國(guó)社會(huì)科學(xué)院、澳大利亞大學(xué)人文社會(huì)科學(xué)研究院共同主編撰寫的《中國(guó)語(yǔ)言地圖集》將吳語(yǔ)劃分劃成為六個(gè)方言大部分,甌語(yǔ)則被統(tǒng)稱為吳語(yǔ)甌江片。溫州吳語(yǔ)方言是南部吳語(yǔ)具代表性的漢語(yǔ)方言,也繼承中國(guó)民族傳統(tǒng)的舊語(yǔ)和漢語(yǔ)文明的文化遺產(chǎn),一直保存著許多古代漢語(yǔ)的發(fā)音。溫州是南戲的發(fā)源地,流傳下來(lái)的南戲創(chuàng)作作品中也包括了許多溫州方言REF_Ref12919\r\h[4]。由于使用溫州方言的南戲作品對(duì)元曲和元明小說(shuō)產(chǎn)生了巨大的影響,學(xué)者們?cè)谶M(jìn)行批注驗(yàn)證此類作品的過(guò)程中,往往會(huì)使用大量溫州方言。溫州方言中的大多數(shù)比較舊的詞匯都可以上溯到“江東方言”,這也就是溫州方言的主要起源。在秦漢時(shí)期,漢人正式發(fā)現(xiàn)和探索了吳越地區(qū),但浙南和福建仍然被認(rèn)為是越族人民的世界,由越族成員建立的東甌州和閩越州一直都是處于一個(gè)封閉的狀態(tài)。盡管漢武帝時(shí)期,整個(gè)國(guó)家都遷到江淮河之間,但眾所周知的是只有甌越的王公貴胄搬走了。在此期間,有越來(lái)越多的人使用漢語(yǔ)詞匯,不過(guò)甌越方言的主要詞匯仍是土著詞語(yǔ)。六朝十國(guó)時(shí)期,江東地區(qū)的兩個(gè)方言被重新劃分,分別為吳語(yǔ)和閩語(yǔ)。在北方發(fā)生了幾處變化之后,溫州方言仍然保留著許多古老的中國(guó)特色。因此,溫州方言的唐詩(shī)和宋詞讀起來(lái)比普通話更順暢。然而,長(zhǎng)期以來(lái),溫州方言是公認(rèn)的中國(guó)最難學(xué)習(xí)的方言之一。同時(shí),由于地理?xiàng)l件的限制,不同地區(qū)的溫州方言的差異足以使溫州人也不能完全聽懂各個(gè)地區(qū)的溫州方言。2.2python語(yǔ)言概述Python是一種面向?qū)ο?、解釋型的腳本語(yǔ)言。它具有以下特點(diǎn):學(xué)習(xí)相比其他語(yǔ)言容易很多。Python是一種注重簡(jiǎn)單思想的語(yǔ)言,它可以用十分簡(jiǎn)潔的語(yǔ)言,讓人理解這段代碼的含義。還有它的偽代碼編程功能被認(rèn)為是其最重要的技術(shù)優(yōu)勢(shì)之一,它可以使程序員可以在開發(fā)Python程序時(shí)專注于解決問(wèn)題,而無(wú)需了解該語(yǔ)言的具體實(shí)現(xiàn)原理。Python作為免費(fèi)的開源軟件之一,簡(jiǎn)單的理解是,用戶可以直接通過(guò)python語(yǔ)言來(lái)開發(fā)和制作自己的應(yīng)用程序,而不必再花錢支付或者過(guò)分擔(dān)心其版權(quán)的問(wèn)題。python還可以在商務(wù)上免費(fèi)地使用,隨著開放源代碼軟件產(chǎn)品在行業(yè)的迅速發(fā)展,許多大型的商業(yè)軟件企業(yè)現(xiàn)在已經(jīng)開始遷移其產(chǎn)品到開放源代碼(例如Java)。Python的開源是很好的理由之一,因?yàn)榇蠹叶伎梢允褂茫梢韵嗷ソ涣?,?duì)于改進(jìn)Python的想法在交流碰撞中不斷成熟發(fā)展,因此Python在不斷的創(chuàng)新和改進(jìn)。python實(shí)際上是一種高級(jí)語(yǔ)言,因此在使用python進(jìn)行程序設(shè)計(jì)時(shí),不必再過(guò)多地考慮一些底層細(xì)節(jié)。大多數(shù)編譯語(yǔ)言都是基于平臺(tái)的,而Python被定義為一種跨平臺(tái)的編譯語(yǔ)言。只要為該平臺(tái)提供一個(gè)相應(yīng)的Python解釋器,就可以在該平臺(tái)上工作。此外,Python社區(qū)也非常活躍,大量的用戶使用它,并在遇到問(wèn)題時(shí)進(jìn)行交流,所以社區(qū)中有許多學(xué)習(xí)借鑒的經(jīng)驗(yàn),也使得其中包含了許多解決方案來(lái)應(yīng)對(duì)開發(fā)中的各種環(huán)境,即使在小眾不主流的場(chǎng)景中也是如此。Python有很強(qiáng)的拓展性,除了上述特點(diǎn)外,Python還有一些缺點(diǎn)。比如說(shuō)性能低下:Python程序的運(yùn)行速度明顯低于Java,C和C++。其次,源代碼很難完全加密。與其他編譯語(yǔ)言相比,其他編譯語(yǔ)言進(jìn)行編譯的源程序更難直接地在未編譯過(guò)的目標(biāo)應(yīng)用程序上使用。實(shí)際上,這兩個(gè)缺點(diǎn)并不那么嚴(yán)重。近年來(lái),隨著計(jì)算機(jī)硬件的飛速發(fā)展,它的操作、運(yùn)行速度越來(lái)越快,因此軟件工程更多地關(guān)注軟件的可靠性和實(shí)現(xiàn)的功能,而不是軟件操作的效率。而且軟件行業(yè)的當(dāng)前趨勢(shì)就是開源,比如Java應(yīng)用程序反向編譯很簡(jiǎn)單,但不會(huì)影響他的流行使用,所以源代碼難以加密也不是什么太大的缺點(diǎn)。

3隱馬爾可夫模型3.1原理隱馬爾可夫模型的核心就是狀態(tài)這一概念,狀態(tài)本身是離散的隨機(jī)變量,用于描述隨機(jī)過(guò)程。隱馬爾可夫模型(HiddenMarkovModel,HMM)一開始是由L.E.Baum和其他一些學(xué)者在一系列統(tǒng)計(jì)論文中發(fā)表REF_Ref15541\r\h[6]。HMM是一個(gè)雙重隨機(jī)的過(guò)程,準(zhǔn)確地說(shuō),它是兩組狀態(tài)和三個(gè)矩陣。其中兩組狀態(tài)是:隱藏狀態(tài)和觀察狀態(tài)。HMM的假設(shè)是,在隱藏狀態(tài)之間存在馬爾可夫鏈,這對(duì)應(yīng)于初始狀態(tài)矩陣和狀態(tài)轉(zhuǎn)換矩陣REF_Ref15616\r\h[7]。其中的馬爾可夫鏈:設(shè)馬爾可夫鏈的狀態(tài)空間是,一個(gè)馬爾可夫鏈可被轉(zhuǎn)移概率完全表示,定義如下:(3.1)如果轉(zhuǎn)移概率和時(shí)間無(wú)關(guān),則得到齊次馬爾可夫鏈,其矩陣表示方式如下:(3.2)假設(shè)觀察狀態(tài)由隱藏狀態(tài)(混淆矩陣)通常,使用三元組的代數(shù)形式可用來(lái)直接描述一個(gè)隱馬爾可夫代數(shù)模型。隱馬爾可夫狀態(tài)模型實(shí)際上就是對(duì)所有標(biāo)準(zhǔn)馬爾可夫模型的一種系統(tǒng)的擴(kuò)展,增加了描述一組所有可以被直接觀測(cè)觀察到的其他狀態(tài)和這些其他狀態(tài)和所有隱以被觀測(cè)觀察到的其他狀態(tài)之間仍然存在著一種概率性的相互關(guān)系。矩陣是一個(gè)方矩陣,它反映了隱藏狀態(tài)之間的概率轉(zhuǎn)換,即表示從到的概率。矩陣不一定是正方形矩陣,而是反映已知的隱藏狀態(tài)。觀察狀態(tài)的條件概率,即表示從到的概率。雖然不能依靠現(xiàn)有知識(shí)來(lái)確定天氣狀況的轉(zhuǎn)移,但仍然希望獲得天氣報(bào)告。一種方法是假設(shè)此模型的每個(gè)狀態(tài)僅取決于先前的狀態(tài)。該假設(shè)稱為馬爾可夫假設(shè),可以大大簡(jiǎn)化問(wèn)題。但是,這個(gè)假設(shè)還有很多不足,比如會(huì)導(dǎo)致許多重要信息的丟失。在天氣方面,這個(gè)馬爾可夫假設(shè)被描述為:假設(shè)如果知道前幾天的天氣信息,就可以預(yù)測(cè)今天的天氣。當(dāng)然,這個(gè)例子也有些不切實(shí)際。但是,這樣一個(gè)簡(jiǎn)化的系統(tǒng)可以使的分析更輕松,因此通常接受這個(gè)假設(shè)。在談?wù)揌MM時(shí),簡(jiǎn)單介紹一下以俄羅斯數(shù)學(xué)家AndreiMarkov命名的MarkovProcess,這是一個(gè)具有馬爾可夫性質(zhì)的離散隨機(jī)過(guò)程的代表模型。在此過(guò)程中,每個(gè)狀態(tài)的轉(zhuǎn)移僅僅取決于之前的個(gè)已經(jīng)發(fā)生的狀態(tài)。此過(guò)程稱為階模型。是影響過(guò)渡的狀態(tài)數(shù)。一階模型是最簡(jiǎn)單的馬爾可夫過(guò)程,每個(gè)狀態(tài)的轉(zhuǎn)換僅取決于先前的狀態(tài),這與確定性系統(tǒng)不同,因?yàn)榇宿D(zhuǎn)換是概率性的而不是確定性的REF_Ref15616\r\h[7]。3.2示例假設(shè)是時(shí)間和狀態(tài)的離散隨機(jī)過(guò)程,如果過(guò)去狀態(tài)的的條件概率分布僅是的函數(shù),則是時(shí)間n的狀態(tài),也就是說(shuō),通常所說(shuō)的狀態(tài)僅與到先前狀態(tài),該過(guò)程是一階馬爾可夫過(guò)程REF_Ref15616\r\h[7]。公式如下:(3.3)現(xiàn)實(shí)生活中有許多這些問(wèn)題。示例:我現(xiàn)在正在寫論文。在鍵盤上鍵入的字符字符串是觀察字符串,但是實(shí)際編寫的段落是隱藏字符串。輸入法的任務(wù)是盡可能從鍵入的一系列字母開始猜猜要寫什么,然后將最可能的選擇放在開頭,這可以被認(rèn)為是HMM模型。再舉一個(gè)例子:我發(fā)出的一系列連續(xù)聲音是一系列觀察結(jié)果,而我真正想要表達(dá)的段落是一系列狀態(tài)。大腦的作用是通過(guò)連續(xù)的聲音來(lái)判斷最想表達(dá)的單詞的內(nèi)容。HMM模型能解決三個(gè)經(jīng)典問(wèn)題:觀測(cè)序列概率的計(jì)算和評(píng)估(向前向后算法)隱藏序列的最大概率解決方案預(yù)測(cè)(Viterbi算法)Viterbiargmax算法是最希望得到的搜索序列及其維特比中間變量。在此,根據(jù)前一時(shí)刻的概率和轉(zhuǎn)移的概率,搜索當(dāng)前時(shí)刻最可能的情況,然后遞歸地找到最佳解決方案。在此過(guò)程中,引入了一個(gè)變量來(lái)將經(jīng)過(guò)的節(jié)點(diǎn)存儲(chǔ)在該節(jié)點(diǎn)的前面,該變量以顯示。

4MFCC特征4.1MFCC概述語(yǔ)音識(shí)別(speechrecognition)和說(shuō)話人識(shí)別(speakerrecognition)這兩種最常用的語(yǔ)音功能就是梅爾頻率倒譜系數(shù)(MFCC)。對(duì)于有關(guān)人類雙耳的不同聽覺(jué)振動(dòng)功能和反應(yīng)機(jī)制問(wèn)題進(jìn)行深入研究結(jié)果發(fā)現(xiàn),人類的耳朵在不同聲音頻率下有不同程度的敏感度。向每個(gè)人耳朵內(nèi)部施加壓力強(qiáng)度不同的兩種高頻聲音成分,這直接使得聲音檢測(cè)困難,因?yàn)閮煞N高頻聲音成分的大量存在也會(huì)直接嚴(yán)重影響低頻聲音成分的準(zhǔn)確辨識(shí),這種現(xiàn)象被稱為掩蔽效應(yīng)。由于頻率較低的聲音在內(nèi)耳蝸基底膜上行波傳遞的距離大于頻率較高的聲音,故一般來(lái)說(shuō),低音容易掩蔽高音,而高音掩蔽低音較困難。在低頻處的聲音掩蔽的臨界帶寬較高頻要小REF_Ref8205\r\h[13]。因此,人們配置了一系列帶寬濾波器來(lái)對(duì)輸入信號(hào)進(jìn)行濾波,從低頻到高頻這一段頻帶內(nèi)按臨界帶寬的大小由密到疏安排一組帶通濾波器。從高密度帶寬到低頻稀有臨界帶寬再到高頻帶。每個(gè)通帶濾波器輸出的信號(hào)能量被認(rèn)為是信號(hào)的基本特征,經(jīng)過(guò)額外處理后可以用作語(yǔ)音輸入特征REF_Ref8205\r\h[13]。MFCC表示的梅爾頻率倒譜系數(shù),顧名思義,提取MFCC特征涉及兩個(gè)主要步驟,轉(zhuǎn)換為梅爾頻率并執(zhí)行倒譜分析。在語(yǔ)音識(shí)別系統(tǒng)中,第一步就是提取語(yǔ)音的特征。也就是說(shuō),必須通過(guò)提取可被識(shí)別為數(shù)據(jù)的音頻信號(hào)成分,并丟棄其他影響特征提取的信息,例如背景噪音和情緒。在這過(guò)程中知道聲音是如何發(fā)出的對(duì)理解語(yǔ)音識(shí)別很有幫助。人類通過(guò)聲音通道產(chǎn)生聲音,并根據(jù)聲音通道的形狀來(lái)確定產(chǎn)生的是哪種聲音,聲音通道的形狀包括鋸齒狀等。如果可以準(zhǔn)確地知道聲音的形狀,則可以準(zhǔn)確地知道語(yǔ)音所生成的音素。聲音通道的形狀顯示在短期功率譜的包絡(luò)中,MFCC是可以準(zhǔn)確描述這些范圍的功能。從那時(shí)起,在語(yǔ)音識(shí)別領(lǐng)域,MFCC以這一近人特性脫穎而出,而且永不超越。在這一點(diǎn)上,已經(jīng)提到的聲道形狀非常重要,它可能會(huì)出現(xiàn)在短期功率譜的范圍內(nèi)。聲譜圖(Spectrogram):在處理語(yǔ)音信號(hào)的過(guò)程中,如何描述它非常重要。如果描述不同,則顯示的信息也將不同。哪些解釋對(duì)聲譜圖的觀察和理解有幫助?在這里,首先了解到它是一個(gè)頻譜。在此,該語(yǔ)音被分為許多幀,每個(gè)語(yǔ)音幀對(duì)應(yīng)于一個(gè)頻譜(通過(guò)短期FFT計(jì)算),并且頻譜表示頻率和能量之間的關(guān)系。在實(shí)際使用中,頻譜有三種類型:線性幅度頻譜,對(duì)數(shù)幅度頻譜和自功率頻譜(由于對(duì)數(shù)幅度頻譜中每條頻譜線的幅度都是對(duì)數(shù)計(jì)算的,因此坐標(biāo)的單位是(分貝),轉(zhuǎn)換的目的是低振幅,是通過(guò)使該成分高于高振幅成分來(lái)觀察隱藏在低振幅噪聲中的周期信號(hào)。首先,可以在這里更好地觀察音素的特性。此外,通過(guò)觀察共振峰及其變化,可以更好地感知聲音。隱馬爾可夫模型通過(guò)對(duì)頻譜圖進(jìn)行隱式建模,可提供出色的識(shí)別性能。另一個(gè)功能是能夠直觀地評(píng)估TTS(文本到語(yǔ)音)系統(tǒng)的質(zhì)量并直接比較合成語(yǔ)音與自然語(yǔ)音頻譜的匹配能力。4.1.1梅爾頻率梅爾刻度就是一種根據(jù)人類耳朵在等距時(shí)間內(nèi)音高的改變進(jìn)行感官判別而確定的一種非線性頻率的刻度。梅爾刻度與頻率之間的赫茲關(guān)系公式:(4.1)4.1.2倒譜分析倒譜的含義是從時(shí)域信號(hào)執(zhí)行傅里葉變換,然后執(zhí)行下一個(gè)記錄的逆傅里葉逆變換。它可以分為復(fù)倒譜、實(shí)倒譜和功率倒譜。對(duì)于功率倒譜來(lái)說(shuō),倒譜分析主要是應(yīng)用于對(duì)信號(hào)進(jìn)行分解,并將兩個(gè)信號(hào)之間的卷積變換成兩個(gè)信號(hào)之間的加法運(yùn)算。然后是音頻頻譜圖,所謂的語(yǔ)音共振峰峰值表示了語(yǔ)音的主要共振頻率及其組成成分,也就是共振峰它決定了信號(hào)頻域的包絡(luò),提供了聲音的辨識(shí)屬性。因此,對(duì)于識(shí)別其他聲音,它是如此重要,需要提取頻譜的包絡(luò)信息。倒譜分析已經(jīng)將兩部分對(duì)應(yīng)的時(shí)域信號(hào)的卷積關(guān)系轉(zhuǎn)化為了線性加關(guān)系,所以只需要將倒譜通過(guò)一個(gè)低通濾波器即可獲得包絡(luò)部分對(duì)應(yīng)的時(shí)域信號(hào)。可以理解原始頻譜由兩部分組成:包絡(luò)和頻譜細(xì)節(jié)REF_Ref8205\r\h[13]。如何將它們分開?也就是說(shuō),如何根據(jù)一個(gè)給定的分別使和滿足?為了更好地實(shí)現(xiàn)這個(gè)目標(biāo),必須玩一些數(shù)學(xué)技巧。即在頻譜中進(jìn)行FFT。在頻譜上執(zhí)行傅里葉變換等效于逆傅里葉(IFFT)。實(shí)際上,由于已經(jīng)知道,因此可以獲得。是的低頻部分。接下來(lái),可以通過(guò)把通過(guò)低通濾波器濾波來(lái)得到。從此處將它們分開以獲得所需的,即頻譜包絡(luò)。其實(shí)就是倒譜,其中則是倒譜的低頻部分,它描述了頻譜包絡(luò)。倒譜是通過(guò)對(duì)信號(hào)進(jìn)行傅里葉變換后經(jīng)過(guò)對(duì)數(shù)運(yùn)算變換后再進(jìn)行逆傅里葉變換而獲得的頻譜。4.2MFCC提取流程4.2.1預(yù)加重預(yù)加重實(shí)際上是使語(yǔ)音信號(hào)經(jīng)由高通濾波器:(4.2)表達(dá)式的值是0.9?1.0,通常使用0.97。預(yù)加重的主要目的之一就是通過(guò)強(qiáng)調(diào)信號(hào)的高頻部分,來(lái)實(shí)現(xiàn)使其信號(hào)從低頻到高頻的平坦化,并且可以使其從低頻延伸到高頻的部分保持相等,并且可以使用相同的信噪比,找到信號(hào)的頻譜。同時(shí),通過(guò)在信號(hào)發(fā)生的過(guò)程中排除對(duì)聲帶及其嘴唇的干擾,并校正由于發(fā)音系統(tǒng)抑制的語(yǔ)音信號(hào)高頻段,來(lái)強(qiáng)調(diào)高頻段的共振峰。4.2.2分幀以及加窗首先,將個(gè)采樣點(diǎn)集合在稱為幀的觀測(cè)單位中。通常,值為或,范圍時(shí)間約為到毫秒。兩個(gè)相鄰幀之間有一個(gè)重疊的區(qū)域,以防止兩個(gè)相鄰幀之間發(fā)生太多變化。在一個(gè)互相重疊的采樣區(qū)域內(nèi)的它可能通常會(huì)同時(shí)包含個(gè)取樣點(diǎn),的每個(gè)取樣數(shù)值通常大致表示為一個(gè)的或REF_Ref16080\r\h[13]。通常,用于語(yǔ)音進(jìn)行高頻語(yǔ)音圖像識(shí)別的高頻語(yǔ)音圖像信號(hào)對(duì)其采樣的額定頻率一般設(shè)定為或。對(duì)于,幀長(zhǎng)度為個(gè)采樣點(diǎn),相應(yīng)的每個(gè)時(shí)間段幀寬的長(zhǎng)度大小可以通過(guò)定義公式為。在每個(gè)幀上乘上一個(gè)漢明窗,并改幀左側(cè)和右側(cè)之間的連續(xù)性。4.2.3快速傅里葉變換通常很難直接觀察或者看到不同時(shí)域中各個(gè)信號(hào)同時(shí)發(fā)生的能量變化,因此通常把它們直接轉(zhuǎn)化成作為頻域內(nèi)各個(gè)信號(hào)的射頻能量變化分布圖并用來(lái)幫助進(jìn)行射頻觀測(cè)。不同的能量強(qiáng)度分布會(huì)分別揭示其發(fā)出不同強(qiáng)度聲波的特性。因此,要精確想更好地準(zhǔn)確獲得與漢明窗相乘后的聲波頻譜和其他能量的分布,就必須對(duì)每一幀音頻進(jìn)行快速傅里葉變換。在每一個(gè)經(jīng)過(guò)分幀加窗后的信號(hào)進(jìn)行快速傅里葉變換之后,獲得的頻譜模的二次方就是一個(gè)語(yǔ)音信號(hào)的功率譜。4.2.4三角帶通濾波器將能量譜通過(guò)一組梅爾尺度的一個(gè)三角形濾波器組,并用一個(gè)有m個(gè)三角濾波器的濾波器組(這些三角濾波器的能譜數(shù)量與臨界濾波帶上的三角濾波器數(shù)量接近)。m通常至少需要20以上,30以下。每個(gè)點(diǎn)與之間的連續(xù)距離的值都會(huì)隨著它與的距離值逐漸地地減小而逐漸地變得減小,并且隨著它與的距離值逐漸地增大。三角帶寬高通信號(hào)濾波器主要設(shè)計(jì)具有兩個(gè)基本設(shè)計(jì)目的:平滑強(qiáng)調(diào)頻譜,消除其他諧波相互作用的直接影響及同時(shí)強(qiáng)調(diào)整個(gè)聲音最初的一個(gè)共振峰。(因此,mfcc的輸入?yún)?shù)中沒(méi)有任何指示要給出輸入相同語(yǔ)音的輸出聲道和輸入音高或者說(shuō)只是語(yǔ)音聲道的低低,這就可能意味著平時(shí)使用一個(gè)mfcc的輸入語(yǔ)音聲道辨認(rèn)識(shí)別系統(tǒng)有時(shí)可能根本不會(huì)直接地感受到與輸入相同語(yǔ)音的這種聲道高低差異不會(huì)產(chǎn)生任何大的影響。)也可以減小計(jì)算復(fù)雜度此值。計(jì)算每個(gè)濾波器組輸出的對(duì)數(shù)的能量。4.2.5使用離散余弦變換(DCT)獲得MFCC系數(shù)將上述的對(duì)數(shù)能量帶入離散余弦變換,求出L階的Mel-scale倒譜參數(shù)。L階指MFCC系數(shù)階數(shù),通常取12到16。這里M是三角濾波器個(gè)數(shù)。通常將一幀的基本對(duì)數(shù)信號(hào)能量乘以相加(其中定義:一幀的基本對(duì)數(shù)信號(hào)平方之和,再次乘以從相應(yīng)的對(duì)數(shù)值中計(jì)算得出的下一個(gè))。它會(huì)一點(diǎn)一點(diǎn)地增加,包括單位能量和其他倒譜參數(shù)。注意:如果需要添加其他的語(yǔ)音功能以便于測(cè)試辨別率,也可以考慮在此時(shí)間段內(nèi)添加它們。其他常見的語(yǔ)音功能主要包括音高、過(guò)零率以及共振峰。動(dòng)態(tài)差分參數(shù)(其中包括一階和二階差異)中標(biāo)準(zhǔn)倒譜參數(shù)MFCC僅反映一個(gè)語(yǔ)音參數(shù)靜態(tài)性,語(yǔ)音的動(dòng)態(tài)特性可以用這些靜態(tài)特征的差分譜來(lái)描述。實(shí)驗(yàn)證明,動(dòng)態(tài)與靜態(tài)特性的結(jié)合能夠有效提高系統(tǒng)認(rèn)知的性能。圖4-1MFCC參數(shù)提取基本流程

5語(yǔ)音識(shí)別5.1語(yǔ)音識(shí)別原理及實(shí)現(xiàn)過(guò)程語(yǔ)音識(shí)別過(guò)程包括獲取壓縮聲音的電子信號(hào)表示并通過(guò)對(duì)連續(xù)聲音進(jìn)行采樣來(lái)量化每個(gè)采樣值。采樣值主要是從重疊幀中被提取出來(lái)的,特征向量則是表示在重疊幀中被采取的頻率內(nèi)容。語(yǔ)音信號(hào)的收集方法語(yǔ)音信號(hào)的收集也是必不可少的。語(yǔ)音信號(hào)的處理,這種語(yǔ)音一般都是經(jīng)由麥克風(fēng)向計(jì)算機(jī)輸入。麥克風(fēng)把聲波信號(hào)轉(zhuǎn)換成相應(yīng)的電壓信號(hào),并使用A/D設(shè)備(包括聲卡等)對(duì)其信號(hào)進(jìn)行了采樣,以將連續(xù)的電壓信號(hào)直接轉(zhuǎn)換成一種可由電腦計(jì)算機(jī)自動(dòng)處理的數(shù)字信號(hào)。當(dāng)前,多媒體電腦和計(jì)算機(jī)非常普及流行,并且其中的聲卡,揚(yáng)聲器和麥克風(fēng)都已經(jīng)成為了個(gè)人電腦和計(jì)算機(jī)使用的標(biāo)準(zhǔn)。其中,聲卡是使用計(jì)算機(jī)技術(shù)來(lái)處理語(yǔ)音消息的重要組成部分。它還包括了一種可以把聲卡驅(qū)動(dòng)到現(xiàn)代操作系統(tǒng)中的錄音軟件,以便收集到語(yǔ)音信號(hào)并另存作為錄音文檔。接下來(lái),根據(jù)在識(shí)別語(yǔ)音中需要表達(dá)的各個(gè)單詞語(yǔ)音信號(hào)的特點(diǎn),語(yǔ)音識(shí)別的過(guò)程主要包括以下五個(gè)方面:5.1.1聲學(xué)信號(hào)預(yù)處理語(yǔ)音信號(hào)的預(yù)處理即收集到準(zhǔn)確的語(yǔ)音信號(hào)之后,在開始進(jìn)入諸如辨認(rèn)、合成、擴(kuò)展等實(shí)際應(yīng)用之前,可能還需要對(duì)其進(jìn)行濾波、A/D轉(zhuǎn)換、預(yù)加重和端點(diǎn)搜索。對(duì)其信息進(jìn)行數(shù)據(jù)過(guò)濾主要認(rèn)為有兩種工作目的。一種設(shè)計(jì)方法目的是可以用來(lái)測(cè)量抑制采樣頻率范圍大于2的整個(gè)輸入輸出信號(hào)所有源的分量,這樣更能有效防止混合式信號(hào)的干擾。另一種抑制方法就是對(duì)50hz的兩個(gè)工頻電磁干擾信號(hào)進(jìn)行工頻抑制。因此,該信號(hào)濾波器必須對(duì)所使用的器件是高頻帶狀信號(hào)濾波。預(yù)加重處理的目標(biāo)是通過(guò)對(duì)高頻或者低頻進(jìn)行強(qiáng)調(diào)來(lái)實(shí)現(xiàn)信號(hào)頻譜的平坦化,并且在整個(gè)頻帶中由低頻或者高頻保留信號(hào)的頻率。頻譜分析很容易,因?yàn)榭梢允褂孟嗤男旁氡日业筋l譜。端點(diǎn)搜索法就是在分析和確定所有包括語(yǔ)音的信號(hào)段中所有語(yǔ)音的開頭和結(jié)尾。它不但可以延長(zhǎng)和縮短對(duì)端點(diǎn)進(jìn)行檢測(cè)和處理的時(shí)間,還可以消除靜默期間產(chǎn)生的噪音干擾REF_Ref16194\n\h[15]。目前,主要采用兩種特殊類型的分析方法:時(shí)域性特征法和頻域性特征法。使用時(shí)域性特征法來(lái)實(shí)現(xiàn)對(duì)語(yǔ)音聲道的音量及其過(guò)零功率的檢測(cè)。該計(jì)算雖然很小,但是可能會(huì)由于人們呼吸聲音導(dǎo)致錯(cuò)誤的識(shí)別,并且使得在不同的呼吸聲量進(jìn)行計(jì)算都可能會(huì)導(dǎo)致不同的檢查結(jié)果。頻域性特征法將聲譜變化與熵的檢驗(yàn)應(yīng)用于語(yǔ)音檢驗(yàn),這需要大量的計(jì)算。人類數(shù)字語(yǔ)音信號(hào)數(shù)據(jù)提取系統(tǒng)特征參數(shù)的實(shí)際提取運(yùn)算頻率不得低于10khz。根據(jù)音素的需要采樣記錄頻率計(jì)算定理,為了更好地保證使得音素語(yǔ)音消息信號(hào)的需要采樣記錄數(shù)據(jù)頻率能夠準(zhǔn)確包括所需要的所有單詞語(yǔ)音信息,計(jì)算機(jī)需要采樣數(shù)據(jù)頻率至少一般應(yīng)不得大于音素需要采樣記錄的所有語(yǔ)音消息信號(hào)中所需要包含的所有語(yǔ)音信息頻率之兩倍。通常,信號(hào)被劃分為幾個(gè)塊,信號(hào)的各個(gè)塊被統(tǒng)一地稱為某一幀。為了防止發(fā)生遺漏還有保護(hù)一些丟失任何可能導(dǎo)致整個(gè)框架結(jié)構(gòu)丟失大量數(shù)據(jù)信息的一些重要信息,應(yīng)將框架重疊。例如,當(dāng)使用20khz的采樣圖像面積速率時(shí),標(biāo)準(zhǔn)幀數(shù)量約為10ms,其中包含200個(gè)樣本。圖4-1語(yǔ)音識(shí)別系統(tǒng)流程圖不同人說(shuō)話的聲音不相同,隨著頻譜的變化總是不同的,但是總有一些共同的特征使它們不同。人類語(yǔ)言受到詞匯,語(yǔ)法和含義的限制。在識(shí)別語(yǔ)音的過(guò)程中,可以充分利用這些局限性以及用于交互式環(huán)境的相關(guān)信息。因此,通過(guò)將諸如詞的形成,語(yǔ)法和語(yǔ)義之類的實(shí)質(zhì)性約束與語(yǔ)音識(shí)別專家提出的“明顯的性功能”相結(jié)合,“自下而上”或“自上而下”的交互功能可以配置形成知識(shí)系統(tǒng)。5.1.2聲學(xué)特征提取聲學(xué)特征提取就是在對(duì)信號(hào)進(jìn)行了預(yù)處理之后,這也就是接下來(lái)整個(gè)工作過(guò)程中最重要的步驟,特征性提取。目前,主流的數(shù)學(xué)特征參數(shù)有用于線性數(shù)學(xué)預(yù)測(cè)的函數(shù)倒譜系數(shù)(LPCC)和梅爾倒譜系數(shù)(MFCC)。兩個(gè)特征參數(shù)在倒譜域的語(yǔ)音信號(hào)中相互作用。前者以雙線性函數(shù)模型為其出發(fā)點(diǎn),并使用LPC技術(shù)找到倒譜系數(shù)。后者用于模擬聽覺(jué)的模型,并通過(guò)濾波器分組模型來(lái)實(shí)現(xiàn)使用語(yǔ)音傳感器輸出發(fā)聲,并且可以使用一個(gè)離散傅里葉變換(DFT)對(duì)其進(jìn)行轉(zhuǎn)換。所謂的聲高周期就是指一個(gè)聲帶振蕩頻率(基頻)下的振蕩周期。基音周期檢測(cè)技術(shù)是早期語(yǔ)音識(shí)別研究重要方法和研究重點(diǎn),因?yàn)樗梢杂行У刈R(shí)別和表征語(yǔ)音信號(hào)的基本特點(diǎn)。所謂的共振峰就是一個(gè)能量被集中到語(yǔ)音和信號(hào)上的一個(gè)區(qū)域,因?yàn)樗鼈兌际怯绊懓l(fā)音聲帶質(zhì)量和音調(diào)的主要決定性因素,其共振峰的特點(diǎn)就在于語(yǔ)音和聲帶的物理性質(zhì)。這也是一個(gè)非常重要的功能參數(shù)。此外,許多研究人員已開始將其應(yīng)用于深度學(xué)習(xí)的各種功能的提取,并取得了長(zhǎng)足的進(jìn)步。5.1.3聲學(xué)模型聲學(xué)模型在語(yǔ)音識(shí)別系統(tǒng)中占有非常重要的地位,語(yǔ)音識(shí)別在本質(zhì)上來(lái)說(shuō)就是對(duì)模式識(shí)別進(jìn)行的一個(gè)過(guò)程,而模式識(shí)別成功的關(guān)鍵在于對(duì)分類器進(jìn)行分類和決策。通常,孤立詞和中小型單詞匯識(shí)別動(dòng)態(tài)時(shí)間規(guī)整(dtw)分類器都可以幫助用戶獲得良好的識(shí)別結(jié)果,較高的識(shí)別效率,較低的系統(tǒng)費(fèi)用和開銷以及非常成功的詞匯匹配算法。語(yǔ)音識(shí)別。但是,在具有大量特定詞匯的非特定語(yǔ)音識(shí)別的應(yīng)用情況下,DTW識(shí)別的有效性迅速下降。此時(shí),由于隱馬爾可夫模型(HMM)是傳統(tǒng)語(yǔ)音,因此極大地提高了其對(duì)教學(xué)和識(shí)別效果的使用。識(shí)別通常,連續(xù)高斯混合模型GMM也稱為GMM-HMM框架,因?yàn)樗糜诿枋鰻顟B(tài)功率密度函數(shù)REF_Ref2382\r\h[15]。同時(shí),隨著現(xiàn)有的深度機(jī)器人學(xué)習(xí)技術(shù)的進(jìn)步和發(fā)展,利用先進(jìn)的深度神經(jīng)網(wǎng)絡(luò)技術(shù)完成了對(duì)聲學(xué)的建模,形成了一種被稱為DNN-HMM框架,替換了現(xiàn)有GMM-HMM框架,在語(yǔ)音識(shí)別技術(shù)方面也取得了優(yōu)異的應(yīng)用。高斯混合模型:對(duì)于隨機(jī)向量,如果同時(shí)概率密度函數(shù)服從公式5.1,則它遵循高斯分布,并寫為。(5.1)但是,高斯混合模型具有一些缺陷。高斯混合模型在向量空間附近的非線性流形中的數(shù)據(jù)建模方面非常差。例如,一些數(shù)據(jù)分散在球的兩側(cè),并且球非??拷?。使用適當(dāng)?shù)姆诸惸P?,可以使用一些參?shù)來(lái)區(qū)分球兩邊的數(shù)據(jù)。但是,當(dāng)使用高斯混合模型構(gòu)建實(shí)際分布時(shí),需要許多高斯組件才能準(zhǔn)確地描述它們。因此,能夠找到可以更有效地使用語(yǔ)音信息進(jìn)行分類的模型?,F(xiàn)在考慮離散隨機(jī)序列,如果切換概率具有如下的馬爾可夫?qū)傩?,并且未?lái)狀態(tài)和過(guò)去狀態(tài)是獨(dú)立的,則稱為馬爾可夫鏈。當(dāng)切換概率與時(shí)間無(wú)關(guān)時(shí),它被稱為一種馬爾可夫鏈。馬爾可夫鏈的輸出具有預(yù)定義的一對(duì)一對(duì)應(yīng)關(guān)系,還具有隨機(jī)性。馬爾可夫鏈的每個(gè)狀態(tài)的輸出都是概率分布函數(shù)。在這種情況下,無(wú)法直接觀察馬爾可夫鏈的狀態(tài)。只能將其推斷為遵循狀態(tài)變化影響概率分布的另一個(gè)變量。調(diào)用此模型,以使用隱馬爾可夫序列假說(shuō)將數(shù)據(jù)建模為隱馬爾可夫模型。語(yǔ)音識(shí)別系統(tǒng)隱藏的馬爾可夫模型用于解釋音素內(nèi)部子狀態(tài)的變化,以解決功能序列和多個(gè)基本語(yǔ)音單元之間的對(duì)應(yīng)關(guān)系的問(wèn)題。5.1.4語(yǔ)言模型語(yǔ)言模型主要是解釋一種人類語(yǔ)言所表達(dá)的方式和習(xí)慣,并且側(cè)重于解釋一個(gè)單詞之間的內(nèi)在聯(lián)系及其順序結(jié)構(gòu)。在語(yǔ)音識(shí)別和數(shù)字化解碼的過(guò)程中,觸發(fā)單詞典與其他單詞之間進(jìn)行通訊,參考語(yǔ)言模型將信息傳遞到其他單詞之間。將語(yǔ)言模型劃分為規(guī)律性模型與統(tǒng)計(jì)學(xué)模式,統(tǒng)計(jì)性語(yǔ)言模型利用概率學(xué)和統(tǒng)計(jì)理論方法描述對(duì)特定于某個(gè)語(yǔ)言單元的統(tǒng)計(jì)定律。最簡(jiǎn)單的語(yǔ)言模型是n-gram語(yǔ)言的模型(N-gramLM)。n-gramnn語(yǔ)言單詞模型可以假設(shè)在一個(gè)給定的語(yǔ)言上下文中當(dāng)前一個(gè)語(yǔ)言單詞的單字概率只與當(dāng)前n-1個(gè)詞的單詞概率有直接關(guān)聯(lián)。然后,單詞的發(fā)音序列為和的概率可以近似為:(5.2)為了能夠得到這個(gè)公式中的各個(gè)單詞在某些特殊情況下都是由給定的上文帶有的概率,就必須要求有一定量的這種語(yǔ)言文本進(jìn)行估算。可以通過(guò)直接利用所有包含上文的單詞對(duì)于全部的上文單詞對(duì)中的百分比來(lái)進(jìn)行計(jì)算這種概率,即(5.3)對(duì)于未出現(xiàn)在文本中的單詞堆,應(yīng)該使用諸如Good-Turing估計(jì)和Kneser-Ney平滑之類的平滑方法對(duì)它們進(jìn)行近似取值。5.1.5解碼與字典解碼器是識(shí)別階段的關(guān)鍵組成部分,要么是通過(guò)經(jīng)過(guò)訓(xùn)練的模型對(duì)語(yǔ)音進(jìn)行解碼以獲得最可能的單詞序列,或者是基于中間識(shí)別結(jié)果生成識(shí)別,以進(jìn)行后續(xù)的組成處理REF_Ref2382\n\h[16]。

6實(shí)驗(yàn)結(jié)果與分析6.1實(shí)驗(yàn)結(jié)果事先收集數(shù)據(jù):通過(guò)迅捷音頻錄制工具錄制了一些wav格式的溫州方言的日常用語(yǔ)語(yǔ)音作為訓(xùn)練集的音頻數(shù)據(jù)以及測(cè)試數(shù)據(jù)。通過(guò)使用AdobeAudition軟件對(duì)音頻文件進(jìn)行一次預(yù)處理,將其背景音等雜音過(guò)濾掉。步驟如下:下載打開AdobeAudition軟件后,在文件面板的空白處雙擊導(dǎo)入音頻文件。然后用鼠標(biāo)把文件拖拽到右邊的音頻編輯軌道上,添加之后可以看到音頻的波形。圖6-1音頻波形圖之后用時(shí)間選擇工具在波形上面拖動(dòng),選中雜音部分。圖6-2音頻雜音部分通過(guò)使用效果-修復(fù)功能里的降噪器中的“獲取特性”按鈕。并將降噪級(jí)別的數(shù)值改為80%以上100%以下,避免降噪時(shí)把對(duì)話的聲音也消除掉,然后點(diǎn)擊“保存”按鈕保存這個(gè)是噪音特性。最后再一次選擇效果-修復(fù)-降噪器在彈出的窗口點(diǎn)擊“加載”按鈕,加載剛才保存的噪音特性,再點(diǎn)擊波形全選按鈕,通過(guò)試聽按鈕,確認(rèn)降噪后的效果,無(wú)誤后點(diǎn)擊確定。圖6-3音頻使用降噪器修復(fù)后波形圖點(diǎn)擊上面的多軌按鈕切換到多軌模式,并用鼠標(biāo)把音頻拖拽到音軌1上。圖6-4調(diào)節(jié)音頻音量大小增大對(duì)話聲音的音量,把鼠標(biāo)移動(dòng)到音軌1前面調(diào)節(jié)音量的按鈕處拖動(dòng)增大說(shuō)話音量減小噪聲音量,調(diào)節(jié)到合適程度,最大程度消除噪音。使用wave模塊讀取wav音頻文件,畫圖時(shí)域圖像。pylab.plot(time,wave_data[0])pylab.subplot(212)pylab.plot(time,wave_data[1],c="g")pylab.xlabel("time(seconds)")pylab.show()圖6-5語(yǔ)音信號(hào)的波形和頻率分布打開wav文檔,文件的路徑可以根據(jù)需要進(jìn)行修改創(chuàng)建PyAudio對(duì)象,然后將波形數(shù)據(jù)轉(zhuǎn)換為數(shù)組,wave_data=numpy.fromstring(str_data,dtype=numpy.short)。將名為wave_data的數(shù)組進(jìn)行修改后成為2列,行的個(gè)數(shù)自動(dòng)與列進(jìn)行順序匹配。在使用修改名為shape的數(shù)組屬性時(shí),注意使得數(shù)組中的總長(zhǎng)度一定保持不變。將數(shù)組轉(zhuǎn)置,繪制波形圖,修改采樣位置點(diǎn)數(shù),修改后的采樣位置點(diǎn)數(shù)和修改起始長(zhǎng)度位置可以進(jìn)行不同的采樣位置和起始長(zhǎng)度圖像音頻分析波形圖像分析。常規(guī)顯示采樣頻率一半的頻譜。其中python導(dǎo)入的numpy模塊自帶了快速傅里葉變換的函數(shù)。fftdata=np.fft.fft(waveData[0,:])fftdata=abs(fftdata)hz_axis=np.arange(0,len(fftdata))plt.figure()plt.plot(hz_axis,fftdata,c='b')plt.xlabel('hz')plt.ylabel('am')對(duì)上面的音頻數(shù)據(jù)進(jìn)行傅里葉變換可以得到:圖6-6傅里葉變換后的頻域特征梅爾頻率倒譜系數(shù)(MFCC)通過(guò)分析與語(yǔ)音內(nèi)容密切相關(guān)的13個(gè)特殊頻率對(duì)應(yīng)的能量分布,確定語(yǔ)音與之對(duì)應(yīng)的文字,這些特殊頻率可以作為語(yǔ)音識(shí)別的特征。通過(guò)讀取training文件夾中的訓(xùn)練音頻樣本,使每個(gè)音頻能夠?qū)?yīng)一個(gè)MFCC矩陣,而每個(gè)MFCC矩陣都有一個(gè)類別字典,當(dāng)傳過(guò)來(lái)的directory匹配當(dāng)前的特征模型時(shí),把路徑添加到對(duì)應(yīng)的列表中,這樣所有類別相同MFCC都合并在一起,就形成訓(xùn)練集。由訓(xùn)練集樣本可以訓(xùn)練一個(gè)用于匹配的HMM模型。遍歷所有的音頻數(shù)據(jù),讀取訓(xùn)練集數(shù)據(jù)以及testing文件夾中的測(cè)試樣本,整理測(cè)試樣本后,針對(duì)每一個(gè)測(cè)試樣本:分別使用5個(gè)HMM模型,然后對(duì)測(cè)試樣本進(jìn)行評(píng)分(其語(yǔ)音識(shí)別正確率)。然后對(duì)5個(gè)模型中評(píng)分最高的模型所屬類別作為預(yù)測(cè)類別。遍歷5個(gè)模型后判斷MFCCS與哪一個(gè)HMM模型更加匹配。圖6-7MFCC特征提取圖像6.2實(shí)驗(yàn)分析在波形檔中記載了不同的采樣工作時(shí)刻之間的位移,這種音頻文件與文字并沒(méi)有太大關(guān)聯(lián)。但是如果把這種函數(shù)通過(guò)傅里葉變換,就可以把在特定時(shí)間域范圍內(nèi)的聲音函數(shù)分解成一系列頻率不同的正弦函數(shù)的疊加,并且可以通過(guò)其頻譜的特定分布方式,建立這些音頻的內(nèi)容和文本之間存在的對(duì)應(yīng)關(guān)系,這就有了語(yǔ)音識(shí)別成文字的可能。但光是這些函數(shù)不能直接變成文字,而且音頻文件中的噪音以及每次說(shuō)話的語(yǔ)氣、不同人說(shuō)話的聲音都會(huì)有差異,因此通過(guò)提取一段話的主要特征,并使用大量的數(shù)據(jù)去訓(xùn)練這個(gè)特征得到一種模型,這樣語(yǔ)音識(shí)別的成功率才會(huì)更高。梅爾頻率倒譜用于提取語(yǔ)音識(shí)別特征,然后通過(guò)HMM模型進(jìn)行模式識(shí)別,搜索與測(cè)試樣本最匹配的聲音模型,進(jìn)而識(shí)別語(yǔ)音內(nèi)容。實(shí)現(xiàn)語(yǔ)音識(shí)別需要將音頻里的一些不必要的雜音去除,這個(gè)過(guò)程可以通過(guò)AdobeAudition軟件實(shí)現(xiàn)。使用降噪器獲取噪音特性進(jìn)行降噪,再通過(guò)增大說(shuō)話音量、減小噪音音量最大程度消除噪音,在編程中通過(guò)控制采樣頻率的大小來(lái)減少噪音影響。將音頻信號(hào)轉(zhuǎn)換成計(jì)算機(jī)能識(shí)別的數(shù)字信號(hào),這個(gè)過(guò)程可以通過(guò)傅里葉變換得到實(shí)現(xiàn)??梢酝ㄟ^(guò)python官方網(wǎng)站下載需要的解釋器并使用pycharm編譯器來(lái)進(jìn)行編程。建立以HMM模型為基礎(chǔ)的訓(xùn)練模型進(jìn)行訓(xùn)練得到訓(xùn)練集,輸入測(cè)試的wav格式的音頻文件,通過(guò)對(duì)訓(xùn)練好的模型進(jìn)行對(duì)比匹配,輸出較符合的文本信息。自己通過(guò)迅捷音頻錄制工具錄制了一些wav格式的溫州方言的日常用語(yǔ)語(yǔ)音作為訓(xùn)練集的音頻數(shù)據(jù)。訓(xùn)練文件夾中的音頻來(lái)獲取訓(xùn)練集,并對(duì)測(cè)試文件夾中的音頻文件進(jìn)行分類。讀取訓(xùn)練文件夾中的音頻,使得每個(gè)音頻對(duì)應(yīng)一個(gè)有類別屬性的MFCC矩陣。合并同一類別的所有MFCC,以形成訓(xùn)練集。通過(guò)上面的訓(xùn)練集樣本訓(xùn)練可以用于匹配的HMM模型。訓(xùn)練過(guò)程中的音頻數(shù)據(jù)的不同以及音頻中噪音的影響使得訓(xùn)練集的準(zhǔn)確性不同,所以訓(xùn)練模型時(shí)的音頻數(shù)量一定程度上會(huì)影響語(yǔ)音識(shí)別的正確性。因此在錄制溫州方言音頻時(shí)將同一句話分別錄入10次為一組來(lái)增加識(shí)別的準(zhǔn)確性。

7總結(jié)與展望這次畢業(yè)論文設(shè)計(jì)的是語(yǔ)音識(shí)別方面的溫州方言語(yǔ)音識(shí)別方法研究,這是我在學(xué)校課程中沒(méi)有學(xué)到過(guò)的全新的知識(shí),在學(xué)習(xí)的過(guò)程中我逐漸

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論