




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
PAGE4一個(gè)具有身份鑒別功能的聲紋識(shí)別系統(tǒng)設(shè)計(jì)摘要隨著時(shí)代的發(fā)展和技術(shù)的進(jìn)步,傳統(tǒng)的利用個(gè)人所知道的信息作為身份確認(rèn)的依據(jù)的方法,由于賬號(hào)的逐漸增多,需要使用者記憶的密碼數(shù)量也越來(lái)越多,并且密碼本身容易被使用者遺忘等現(xiàn)實(shí)問(wèn)題,給人們的日常生活帶來(lái)了很多不便,主流地位面臨著嚴(yán)峻的挑戰(zhàn)。而利用人類生物學(xué)特性進(jìn)行身份認(rèn)證的技術(shù)正蓬勃發(fā)展,給人們的日常生活提供了新的可能性。因此一個(gè)可以基于聲紋這種生物特征進(jìn)行身份鑒別的程序設(shè)計(jì)就非常具有實(shí)際意義。本文設(shè)計(jì)了一個(gè)較為完善的具有身份鑒別功能的聲紋識(shí)別系統(tǒng),該系統(tǒng)能夠?qū)崿F(xiàn)針對(duì)單人的說(shuō)話人識(shí)別。該系統(tǒng)選擇高斯混合模型作為說(shuō)話人語(yǔ)音識(shí)別模型,功能上設(shè)計(jì)為文本相關(guān)說(shuō)話人識(shí)別,自建語(yǔ)音集,提取梅爾頻率倒譜系數(shù)(MFCC)作為說(shuō)話人語(yǔ)音特征參數(shù)對(duì)模型進(jìn)行訓(xùn)練和測(cè)試,實(shí)現(xiàn)了對(duì)目標(biāo)說(shuō)話人進(jìn)行身份鑒別的目的,為實(shí)際生活中的需要進(jìn)行身份鑒別的場(chǎng)合提供了一種新的選擇。測(cè)試結(jié)果表明,本系統(tǒng)利用聲紋對(duì)說(shuō)話人身份進(jìn)行鑒別結(jié)果達(dá)到預(yù)期目的。關(guān)鍵詞:高斯混合模型;聲紋識(shí)別;梅爾頻率倒譜系數(shù)目次TOC\o"1-2"\h\u1緒論 51.1課題背景和意義 51.2國(guó)內(nèi)外研究現(xiàn)狀 51.3課題內(nèi)容安排 72基礎(chǔ)理論與設(shè)計(jì)方案 82.1聲紋識(shí)別介紹 82.2生理學(xué)依據(jù) 82.3聲紋識(shí)別基本過(guò)程 92.4系統(tǒng)總體方案設(shè)計(jì) 103系統(tǒng)運(yùn)行與設(shè)計(jì) 113.1語(yǔ)音集建立 113.2采樣和量化 113.3語(yǔ)音預(yù)處理 113.4說(shuō)話人特征提取 153.5GMM聲紋模型 184功能實(shí)現(xiàn) 274.1軟硬件環(huán)境 274.2語(yǔ)音識(shí)別測(cè)試 27結(jié)論 30參考文獻(xiàn) 321緒論1.1課題背景和意義語(yǔ)音處理技術(shù)在最近幾十年中不斷地進(jìn)步和發(fā)展,也因此語(yǔ)音識(shí)別使得逐漸在人們的生活中占有一席之地,它使人們的各項(xiàng)日常和生活變得更加方便和便利的同時(shí),也逐漸代替了許多人工服務(wù)領(lǐng)域,使人們的生活中的許多事項(xiàng)從動(dòng)手轉(zhuǎn)變?yōu)閯?dòng)嘴[1],省時(shí)又省力。目前主流的身份確認(rèn)系統(tǒng)仍舊使用預(yù)先設(shè)定的個(gè)人信息進(jìn)行身份確認(rèn)和鑒別,最常見(jiàn)的密碼就屬于這種身份確認(rèn)系統(tǒng)。但隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展和人們?nèi)粘I罘绞降淖兓藗兪褂玫馁~號(hào)也逐漸增多,需要使用者記憶的密碼數(shù)量也越來(lái)越多,并且密碼本身在使用過(guò)程中就很容易被使用者遺忘,生活中因忘記密碼而進(jìn)行身份確認(rèn)的狀況屢見(jiàn)不鮮,給人們的日常生活帶來(lái)了很多麻煩,因此它的主流地位正面臨嚴(yán)峻挑戰(zhàn)。而利用人類生物學(xué)特性進(jìn)行身份鑒別就可以省去預(yù)先設(shè)定個(gè)人信息或后續(xù)記憶密碼的步驟,讓人們的日常生活更加高效便捷[2]。人類生物學(xué)特性包含很多方面,最常見(jiàn)的也是最常使用的就是指紋,除此之外還有視網(wǎng)膜、聲音、人臉等。與其他人類生物學(xué)特性相比,聲紋非常容易產(chǎn)生和獲得,是人類最自然的特征之一,同時(shí)由于遺傳信息決定的每個(gè)人的生理特征不同,每個(gè)人的聲音也各不相同,從而可以作為身份鑒別的依據(jù)對(duì)不同的人進(jìn)行一個(gè)區(qū)分。相對(duì)于傳統(tǒng)的身份確認(rèn)系統(tǒng),以聲音為依據(jù)進(jìn)行身份鑒別不需要特意去進(jìn)行密碼的記憶,從而讓人們的日常生活變得更加輕松和開(kāi)放,利用聲紋進(jìn)行身份鑒別在實(shí)際應(yīng)用過(guò)程中對(duì)硬件的精度要求也并不高,成本低廉,相比較于其他的人類生物學(xué)特征,使用聲音進(jìn)行身份鑒別也更容易被用戶所接受。因此本課題基于聲紋識(shí)別的身份鑒定設(shè)計(jì)具有深刻的現(xiàn)實(shí)意義,同時(shí)也具有廣闊的發(fā)展空間。1.2國(guó)內(nèi)外研究現(xiàn)狀聲紋(Voiceprint)是語(yǔ)音特征的總稱,它根據(jù)那些穩(wěn)定、獨(dú)特和可測(cè)量的特征來(lái)描述和識(shí)別說(shuō)話者的聲音和語(yǔ)音模型。語(yǔ)音特征是指從說(shuō)話人的聲音中提取的用以描述該說(shuō)話人的聲音的個(gè)性參數(shù)。近年來(lái),以指紋、聲紋、人臉和虹膜等生理特征識(shí)別為目標(biāo)的生物識(shí)別技術(shù)得到迅速發(fā)展,并在許多領(lǐng)域得到應(yīng)用,特別是在人類識(shí)別方面。它還被廣泛應(yīng)用于刑事偵查、犯罪追蹤、國(guó)防監(jiān)控、證券交易、銀行交易、語(yǔ)音解鎖等領(lǐng)域,具有很大的潛力[3]。語(yǔ)音識(shí)別,也可以稱作說(shuō)話人識(shí)別,它本質(zhì)上可以說(shuō)是一個(gè)分類問(wèn)題,從身份確認(rèn)的形式上來(lái)說(shuō),可以把它分為兩類,一類是對(duì)說(shuō)話人的確認(rèn),即某一段話是否是某個(gè)人所說(shuō)的“是”或“否”的問(wèn)題,另一類是對(duì)說(shuō)話人的識(shí)別,即在多個(gè)說(shuō)話人中最終確認(rèn)說(shuō)話人是哪個(gè)的“多選”問(wèn)題[4]。語(yǔ)音識(shí)別需要解決的核心問(wèn)題是提取采集的語(yǔ)音中的表征說(shuō)話人身份的語(yǔ)音特征,利用該特征進(jìn)行訓(xùn)練。然后處理待識(shí)別的語(yǔ)音信號(hào),將其與模型集中的數(shù)據(jù)進(jìn)行比較,并計(jì)算出一個(gè)分?jǐn)?shù)從而對(duì)說(shuō)話者的身份進(jìn)行確認(rèn)[5]。語(yǔ)音識(shí)別系統(tǒng)的組成部分可以簡(jiǎn)單的概括為三個(gè)部分:提取語(yǔ)音特征、模型構(gòu)建、相似度判斷,語(yǔ)音識(shí)別系統(tǒng)流程圖如圖1.1所示。圖1.1語(yǔ)音識(shí)別系統(tǒng)流程圖回顧聲紋識(shí)別技術(shù)的發(fā)展經(jīng)過(guò),可以分為四個(gè)階段。第一個(gè)階段為上世紀(jì)四十至七十年代。這個(gè)階段的代表人物為勞倫斯·科斯塔?!奥暭y”(Voiceprint)這一概念也在這一時(shí)期正式出現(xiàn)[6]。第二個(gè)階段為上世紀(jì)四十年代至七十年代。在這個(gè)時(shí)期,聲紋識(shí)別技術(shù)上升到一個(gè)新的階段,這個(gè)階段的研究大多將重點(diǎn)放在語(yǔ)音信號(hào)的特征參數(shù)上。探究如何提取特征參數(shù),如何選擇合適的特征參數(shù)是這一時(shí)期的研究重點(diǎn)。在S.Pruzansky的貢獻(xiàn)下,聲紋識(shí)別理論體系在這個(gè)時(shí)期初步建立起來(lái),同時(shí)也出現(xiàn)了一大批聲紋特征[4],如線性預(yù)測(cè)倒譜系數(shù)(LPC)、梅爾頻率倒譜系數(shù)(MFCC)。這個(gè)時(shí)期研究的聲紋特征在如今提取說(shuō)話人特征,進(jìn)行后續(xù)身份鑒別中仍發(fā)揮著至關(guān)重要的作用[7]。第三階段為上世紀(jì)七十年代至九十年代。這一時(shí)期有關(guān)聲紋識(shí)別模型的研究飛速發(fā)展,出現(xiàn)了許多模式匹配模型,如矢量量化技術(shù)(VQ)、動(dòng)態(tài)時(shí)間規(guī)整(DTW)、隱馬爾科夫模型(HMM)等模式匹配模型[8]。第四階段為九十年代至今。經(jīng)歷了之前幾個(gè)階段的發(fā)展,此時(shí)聲紋識(shí)別技術(shù)已經(jīng)變得比較成熟,逐漸發(fā)展到實(shí)際應(yīng)用方面,研究的重心轉(zhuǎn)向如何提高聲紋識(shí)別系統(tǒng)的可靠性和實(shí)用性問(wèn)題。為解決這個(gè)問(wèn)題,在這個(gè)階段一方面需要尋找更能代表說(shuō)話人特征的參數(shù),另一方面也產(chǎn)生了新的模式匹配理論[9]。在語(yǔ)音處理技術(shù)方面,相較于國(guó)外,我國(guó)技術(shù)發(fā)展較晚,水平也比較落后,但在中科院的主持和領(lǐng)導(dǎo)下以及863計(jì)劃的執(zhí)行下得到了快速發(fā)展,基本與國(guó)外先進(jìn)水平持平。但研究方向比較單一,大多偏向于語(yǔ)音識(shí)別方向[10]。近些年的說(shuō)話人識(shí)別的研究方向更加多元化,但總體來(lái)說(shuō)可以歸納為兩個(gè)方向:一個(gè)方向?yàn)榛谔囟ㄈ后w的嵌入式方向語(yǔ)音識(shí)別,此方向側(cè)重于“與文本無(wú)關(guān)”;另一個(gè)方向則更為高級(jí),注重于說(shuō)話人所說(shuō)的內(nèi)容。目前在國(guó)內(nèi),聲紋識(shí)別技術(shù)已經(jīng)廣泛應(yīng)用到軍事、國(guó)防、政府、金融等多個(gè)領(lǐng)域。因此本課題基于GMM聲紋識(shí)別的身份鑒別設(shè)計(jì),不僅具有重要的現(xiàn)實(shí)意義,也具有一定的研究?jī)r(jià)值。1.3課題內(nèi)容安排本文的課題安排為:第一章為緒論,系統(tǒng)地介紹了本課題的研究背景,應(yīng)用前景以及國(guó)內(nèi)外研究現(xiàn)狀,第二章為基礎(chǔ)理論和設(shè)計(jì)方案,系統(tǒng)論證了聲紋識(shí)別的依據(jù)和過(guò)程以及實(shí)現(xiàn)聲紋識(shí)別身份鑒定的關(guān)鍵問(wèn)題,并給出整體設(shè)計(jì)方案。第三章為系統(tǒng)運(yùn)行和設(shè)計(jì),對(duì)系統(tǒng)如何處理語(yǔ)音信號(hào)、如何提取特征參數(shù)、如何對(duì)模型進(jìn)行訓(xùn)練和識(shí)別進(jìn)行設(shè)計(jì)和論述。第四章為語(yǔ)音識(shí)別功能測(cè)試,測(cè)試設(shè)計(jì)的程序是否能夠?qū)崿F(xiàn)目標(biāo)功能。2.基礎(chǔ)理論與設(shè)計(jì)方案2.1聲紋識(shí)別介紹聲紋(Voiceprint)本質(zhì)上是一種聲波頻譜,具有特定性和相對(duì)穩(wěn)定性,包含著能夠表征說(shuō)話人個(gè)性信息的語(yǔ)音特征參數(shù),每個(gè)人的聲紋都是獨(dú)一無(wú)二的,同時(shí)隨著年齡的增長(zhǎng)也能保持相對(duì)的穩(wěn)定性,不會(huì)發(fā)生很大的變化,因此可以用它作為區(qū)分不同人的依據(jù),來(lái)進(jìn)行身份鑒別。聲紋識(shí)別(VoiceprintRecognition,VPR),也稱說(shuō)話人識(shí)別(SpeakerRecognition),即利用人的生理學(xué)特征——聲音,對(duì)說(shuō)話人進(jìn)行區(qū)分,從而實(shí)現(xiàn)身份鑒別的目的。聲紋識(shí)別技術(shù)經(jīng)常與語(yǔ)音識(shí)別技術(shù)搞混,這兩種技術(shù)的區(qū)別在于它們的側(cè)重點(diǎn)不同。語(yǔ)音識(shí)別技術(shù)的側(cè)重點(diǎn)放在了語(yǔ)音的內(nèi)容上,關(guān)心點(diǎn)在說(shuō)了什么話有什么內(nèi)容上;而聲紋識(shí)別的側(cè)重點(diǎn)放在了語(yǔ)音中包含的能夠表征說(shuō)話人身份的特征參數(shù)上,從結(jié)果上看并不關(guān)心究竟說(shuō)了什么話,而是關(guān)心是誰(shuí)說(shuō)了這句話[11]。根據(jù)聲紋識(shí)別的結(jié)果是否需要用戶錄制內(nèi)容特定的語(yǔ)音文本,聲紋識(shí)別可以被劃分為兩類:文本相關(guān)或文本無(wú)關(guān)。如果限定了用戶的語(yǔ)音內(nèi)容,用戶的語(yǔ)音只能為一段由設(shè)定者提前設(shè)定好的文本,則將這種識(shí)別方法稱之為文本相關(guān)說(shuō)話人識(shí)別。這種識(shí)別方法排除了語(yǔ)音內(nèi)容這個(gè)輸入變量,而將變量?jī)H僅限定為說(shuō)話人,從而提高了整體的識(shí)別率[12]。本設(shè)計(jì)采取的就是這種聲紋識(shí)別方法,從而提高了識(shí)別準(zhǔn)確率。而若不對(duì)用戶的語(yǔ)音內(nèi)容進(jìn)行限制,則輸入的變量就并不單一,而是多變量輸入。多變量的輸入提高了對(duì)系統(tǒng)的要求,需要更為復(fù)雜的模型,但相比較于本文提及的文本相關(guān)的識(shí)別方法,文本無(wú)關(guān)的識(shí)別方法明顯泛用度更高,使用者也有更高的自由度。2.2生理學(xué)依據(jù)人類語(yǔ)音的產(chǎn)生過(guò)程是一個(gè)非常復(fù)雜的過(guò)程,簡(jiǎn)單來(lái)說(shuō)人體中負(fù)責(zé)管理語(yǔ)音的中樞和發(fā)聲器官承擔(dān)著使人類發(fā)聲的作用,而發(fā)聲的具體經(jīng)過(guò)則可以簡(jiǎn)要地概括為下文描述的過(guò)程:在呼氣和吸氣的過(guò)程中肺部會(huì)產(chǎn)生氣流,氣流經(jīng)過(guò)聲門聲道時(shí)會(huì)引起聲帶的震動(dòng),從而產(chǎn)生語(yǔ)音。在整個(gè)過(guò)程中,肺部相當(dāng)于發(fā)聲的信號(hào)源,喉部則承擔(dān)了調(diào)制器的作用,聲道和聲道在聲音的形成過(guò)程中起著決定性的作用[13]。語(yǔ)音產(chǎn)生的機(jī)理圖如圖2.1所示。圖2.1語(yǔ)音產(chǎn)生機(jī)理圖同樣是聲音,根據(jù)是否引起聲帶的共振也被分成兩類,如果氣流引起了聲帶的震動(dòng)而發(fā)聲,這類聲音被稱為濁音(voice)。而如果氣流僅僅只是通過(guò)聲帶,而沒(méi)有引起聲帶的震動(dòng)而發(fā)出聲音,這類聲音則被歸類于清音(unvoice)。決定聲音中的個(gè)人特性從而區(qū)分不同的說(shuō)話人的依據(jù)從生理學(xué)上來(lái)說(shuō),與聲帶的特性有關(guān)系,并且濁音具有一定的周期性[14]。所以濁音是語(yǔ)音是語(yǔ)音識(shí)別技術(shù)中主要使用的部分。清音本身因?yàn)椴⒉唤?jīng)過(guò)聲帶振動(dòng)產(chǎn)生,因此并不具有周期性,從頻譜上看更接近于噪聲,特點(diǎn)也與隨機(jī)噪聲非常接近,在語(yǔ)音識(shí)別技術(shù)中屬于干擾部分。2.3聲紋識(shí)別基本過(guò)程聲紋識(shí)別實(shí)質(zhì)上是一個(gè)分類問(wèn)題,大致上可以劃分成兩個(gè)階段:訓(xùn)練階段和識(shí)別階段,具體結(jié)構(gòu)如圖2.2所示。圖2.2聲紋識(shí)別系統(tǒng)結(jié)構(gòu)圖訓(xùn)練階段的工作是利用采集到的語(yǔ)音數(shù)據(jù),通過(guò)聲紋識(shí)別相關(guān)的算法為語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的說(shuō)話人建立特定的模型,模型的種類也有很多,如GMM模型,HMM模型等都是聲紋識(shí)別常用的模型。這些建立起來(lái)的與說(shuō)話人相關(guān)的模型被存放在聲紋模型庫(kù)中,將在識(shí)別階段中使用。識(shí)別階段的工作是按照一定的相似度規(guī)則或概率似然率,將從待識(shí)別的語(yǔ)音中提取的特征參數(shù)與訓(xùn)練階段建立起來(lái)的模型參數(shù)進(jìn)行對(duì)比,根據(jù)兩者之間的距離大小或得分高低來(lái)判斷對(duì)應(yīng)哪個(gè)說(shuō)話人模型,距離最小或者得分最高的為識(shí)別結(jié)果[11]。觀察圖2.2可以發(fā)現(xiàn),如果想要利用聲紋實(shí)現(xiàn)身份鑒別的目的,有兩個(gè)關(guān)鍵性的問(wèn)題需要解決:(1)語(yǔ)音信號(hào)的特征提取(2)說(shuō)話人模型的建立。2.4系統(tǒng)總體方案設(shè)計(jì)本設(shè)計(jì)總體分成四個(gè)部分,第一部分是對(duì)語(yǔ)音進(jìn)行預(yù)處理,第二部分是提取特征參數(shù),第三部分是模型的訓(xùn)練,第四部分為識(shí)別階段。首先輸入語(yǔ)音信號(hào),建立訓(xùn)練語(yǔ)音集;其次需要對(duì)輸入的語(yǔ)音信號(hào)進(jìn)行預(yù)處理,為后續(xù)的特征提取做準(zhǔn)備;然后是特征提取,這部分的目的是提取出語(yǔ)音信號(hào)中能夠區(qū)分不同說(shuō)話人的語(yǔ)音特征,把處理過(guò)的語(yǔ)音特征保存在模板庫(kù)中;最后將需要識(shí)別的語(yǔ)音提取出的語(yǔ)音參數(shù)與模板庫(kù)里的語(yǔ)音匹配;最終得到識(shí)別結(jié)果。系統(tǒng)運(yùn)行與設(shè)計(jì)3.1語(yǔ)音集建立本設(shè)計(jì)為文本相關(guān)說(shuō)話人語(yǔ)音識(shí)別,受客觀條件限制選擇自建語(yǔ)音集,采集的語(yǔ)音信號(hào)為一段固定的數(shù)字,語(yǔ)音采集工具為安卓手機(jī)內(nèi)置的錄音APP。采集的文件格式為m4a。m4a是MPEG-4音頻標(biāo)準(zhǔn)的文件的延展名,支持式設(shè)備多,也很容易獲取,但缺點(diǎn)是文件較大。本設(shè)計(jì)采集了10人的說(shuō)話人語(yǔ)音信號(hào),性別比為1:1,將采集的這10人的語(yǔ)音作為訓(xùn)練語(yǔ)音集使用。采集需要識(shí)別的目標(biāo)說(shuō)話人的不同語(yǔ)速的語(yǔ)音作為測(cè)試語(yǔ)音集使用。3.2采樣和量化從信號(hào)類型上來(lái)看,語(yǔ)音信號(hào)是用隨時(shí)間變化的物理量所表達(dá)的信息,因而是模擬信號(hào)的一種,但從計(jì)算機(jī)的功能考慮,它能夠處理的0跟1相關(guān)的數(shù)據(jù),也就是數(shù)字信號(hào)。因此在對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)加重、加窗、分幀、端點(diǎn)檢測(cè)等一系列預(yù)處理之前,需要先對(duì)其數(shù)字化,即采樣和量化。采樣的作用是將采樣的目的是將模擬信號(hào)轉(zhuǎn)化為離散信號(hào),量化則是將其轉(zhuǎn)化為數(shù)字信號(hào)。根據(jù)奈奎斯特采樣原理,即若頻帶寬度有限的,要從抽樣信號(hào)中無(wú)失真地恢復(fù)原信號(hào),抽樣頻率應(yīng)大于2倍信號(hào)最高頻率,語(yǔ)音信號(hào)的頻帶約為300~3400HZ,采樣頻率至少要為6800Hz[15]。在實(shí)際采樣中,采樣頻率fs取8K或11K。本設(shè)計(jì)中將采樣頻率設(shè)置為8K。由于本設(shè)計(jì)使用的語(yǔ)音信號(hào)都是基于手機(jī)麥克風(fēng)和錄音APP錄制的,錄音后直接得到語(yǔ)音文件,其格式為m4a,因此實(shí)際上采樣和量化的工作已經(jīng)完成了。3.3語(yǔ)音預(yù)處理語(yǔ)音預(yù)處理分為預(yù)加重、分幀和加窗、端點(diǎn)檢測(cè)三個(gè)部分,它的目的是對(duì)讀入的語(yǔ)音信號(hào)進(jìn)行處理,為后續(xù)提取表征說(shuō)話人身份信息的特征參數(shù)做準(zhǔn)備。3.3.1預(yù)加重語(yǔ)音信號(hào)的高頻區(qū)含有大量的表征說(shuō)話人個(gè)體特征的信息,這也正是進(jìn)行說(shuō)話人身份鑒別所需要的關(guān)鍵信息。但由于人類特殊的發(fā)聲生理結(jié)構(gòu)導(dǎo)致頻率在800Hz以上的語(yǔ)音信號(hào)會(huì)隨著頻率的升高而加快衰減。由于人類語(yǔ)音具有這樣的特征,因此如果我們想要從語(yǔ)音信號(hào)中提取特征,必須要對(duì)語(yǔ)音信號(hào)的高頻部分進(jìn)行增強(qiáng)處理,即預(yù)加重處理。預(yù)加重的目的是提高高頻部分,使信號(hào)的頻譜變得平坦,并保持在從低頻到高頻的整個(gè)頻段,能夠以相同的信噪比尋求頻譜。預(yù)加重是為了補(bǔ)償語(yǔ)音信號(hào)中被發(fā)音系統(tǒng)抑制的高頻部分,通過(guò)消除聲帶和嘴唇在發(fā)生時(shí)的影響,也是為了突出高頻的共振峰。本設(shè)計(jì)采用軟件實(shí)現(xiàn)方式完成預(yù)加重,通過(guò)軟件設(shè)計(jì)一個(gè)一階FIR高通數(shù)字濾波器,將語(yǔ)音信號(hào)通過(guò)該高通濾波器,從而實(shí)現(xiàn)預(yù)加重的目的。高通濾波器的傳輸函數(shù)如3-1所示:H(z)=1?z一般來(lái)說(shuō)加重系數(shù)μ的取值為0.9~1.0,在本設(shè)計(jì)中μ取0.95。3.3.2分幀與加窗由于語(yǔ)音信號(hào)隨時(shí)間的變化而變化,本身并不平穩(wěn)并且容易受發(fā)聲情形、周圍環(huán)境、聲道特點(diǎn)、系統(tǒng)因素等諸多要素的影響,為了對(duì)語(yǔ)音信號(hào)進(jìn)行處理,需要對(duì)語(yǔ)音信號(hào)進(jìn)行分幀處理。分幀指認(rèn)為語(yǔ)音信號(hào)在極短的時(shí)間范圍內(nèi)保持平穩(wěn),利用特定的窗函數(shù),對(duì)語(yǔ)音信號(hào)進(jìn)行分段,每一段被認(rèn)為是一個(gè)分析幀,簡(jiǎn)稱一幀。這個(gè)極其短的時(shí)間范圍通常為10~30ms。分幀的常見(jiàn)方法有兩種,一種是連續(xù)分幀,一種是交疊分幀。連續(xù)分幀指將語(yǔ)音信號(hào)分成一定長(zhǎng)度的幀,這種分幀方法幀與幀之間無(wú)重疊部分,而采用交疊分幀的方法,幀與幀之間有一定的重疊部分,重疊部分被稱為幀移,其長(zhǎng)度大約是一幀長(zhǎng)度的1/3~1/2。語(yǔ)音信號(hào)交疊分幀的示意圖如圖3.1所示。本設(shè)計(jì)采用交疊分幀的方法對(duì)語(yǔ)音信號(hào)進(jìn)行分幀處理。圖3.1語(yǔ)音信號(hào)交疊分幀加窗指與窗函數(shù)相乘。若用x(n)表示初始的原始數(shù)字信號(hào),用w(n)表示加窗時(shí)使用的窗函數(shù),則加窗過(guò)程如式3-2所示: x(n)=x(n)?w(n)在數(shù)字信號(hào)處理領(lǐng)域中常用的窗函數(shù)有矩形窗(RectangularWindow)、漢寧窗(HanningWindow)、漢明窗(HammingWindow):w(n)=1,0≤n≤N?10,n<0∥n>N?1圖3.2矩形窗及其頻譜w(n)=0.54?0.46cos[2πn/(N?1)],0≤n≤N?1圖3.3漢明窗及其頻譜w(n)=0.5[1?cos(2πn/(N?1))],0≤n≤N?1圖3.4漢寧窗及其頻譜以上三種窗函數(shù)中,矩形窗的旁瓣太高,易產(chǎn)生頻譜泄露現(xiàn)象,所以該窗函數(shù)一般不建議使用。而漢明窗相對(duì)于其他窗函數(shù)的主瓣寬、旁瓣低,能量主要集中在主瓣,在三種窗函數(shù)中性能最佳,因此本設(shè)計(jì)中采用漢明窗函數(shù)對(duì)語(yǔ)音信號(hào)進(jìn)行加窗處理。3.3.3端點(diǎn)檢測(cè)從現(xiàn)實(shí)角度考慮,采集到的語(yǔ)音信號(hào)不可能全部都是有用信息,不可避免的會(huì)含有靜音成分,若能找到靜音段并剔除,只對(duì)有效聲音段進(jìn)行特征參數(shù)的提取,將有利于數(shù)據(jù)的處理。因此需要進(jìn)行端點(diǎn)檢測(cè)。端點(diǎn)檢測(cè)的目的是找到語(yǔ)音信號(hào)中有效的部分,定位出一段語(yǔ)音的開(kāi)始點(diǎn)與結(jié)束點(diǎn),同時(shí)對(duì)于靜音部分和噪聲部分等影響語(yǔ)音有效部分提取的部分將其去除。由于語(yǔ)音信號(hào)為時(shí)變信號(hào),并不是一直不變,且各個(gè)音之間的能量存在差異,因此可以利用短時(shí)能量對(duì)語(yǔ)音信號(hào)的個(gè)性與特點(diǎn)判斷和研究。用En代表第n幀語(yǔ)音信號(hào)x(m)的短時(shí)能量,其計(jì)算公式如式3-6:En本設(shè)計(jì)中頻率設(shè)置為16KHz,幀長(zhǎng)設(shè)置為256,通過(guò)音量進(jìn)行檢測(cè),確定語(yǔ)音信號(hào)的開(kāi)頭和結(jié)尾,同時(shí)剔除靜音幀,短于0.05s的聲音片段將被刪除。3.4說(shuō)話人特征提取實(shí)現(xiàn)說(shuō)話人身份鑒別的關(guān)鍵點(diǎn)在于對(duì)說(shuō)話人的語(yǔ)音信號(hào)提取能夠表征其身份的、具有個(gè)體差異的特征參數(shù),消除無(wú)用的干擾信息。因此選取什么樣的特征參數(shù)、怎樣提取特征參數(shù)是設(shè)計(jì)是關(guān)鍵問(wèn)題。3.4.1特征參數(shù)的選取用來(lái)表征說(shuō)話人個(gè)性信息的特征參數(shù)很多,由于存在如噪聲信號(hào)的對(duì)特征參數(shù)的干擾、用來(lái)進(jìn)行訓(xùn)練樣本的語(yǔ)音數(shù)量的不確定性等問(wèn)題,提取聲紋識(shí)別系統(tǒng)特征參數(shù)的方法也有很多種,但從它們對(duì)特征參數(shù)提取的本質(zhì)屬性上來(lái)說(shuō),我們可以將其歸為三類:(1)線性預(yù)測(cè)系數(shù)及其衍生。這類特征參數(shù)主要包含這幾種常用特征參數(shù):線性預(yù)測(cè)系數(shù)(LPC)、線性預(yù)測(cè)倒譜系數(shù)(LPCC)。(2)由語(yǔ)音頻譜直接導(dǎo)出的參數(shù)。如共振峰、梅爾頻率倒譜系數(shù)(MFCC)、感知線性預(yù)測(cè)系數(shù)(PLP)。(3)混合參數(shù)?;旌蠀?shù)由上述的各種不同的特征參數(shù)組成,是表征說(shuō)話人身份的特征矢量。特征參數(shù)本身對(duì)聲紋識(shí)別系統(tǒng)影響非常大,甚至影響整個(gè)系統(tǒng)的性能,選取一個(gè)合適系統(tǒng)的特征參數(shù)可以提升整個(gè)聲紋識(shí)別系統(tǒng)的識(shí)別率,而且可以增強(qiáng)系統(tǒng)的穩(wěn)定性。隨著聲紋識(shí)別技術(shù)的發(fā)展和不斷進(jìn)步,目前聲紋識(shí)別技術(shù)中主流的表征身份的聲紋識(shí)別特征包括線性預(yù)測(cè)系數(shù)(LPC),線性預(yù)測(cè)倒譜系數(shù)(LPCC),梅爾頻率倒譜系數(shù)(MFCC)。線性預(yù)測(cè)系數(shù)(LPC)將需要分析的語(yǔ)音信號(hào)設(shè)定為一個(gè)模型的輸出,利用模型的各項(xiàng)參數(shù)對(duì)語(yǔ)音信號(hào)進(jìn)行描述和分析。線性預(yù)測(cè)倒譜系數(shù)(LPCC)則是在線性預(yù)測(cè)系數(shù)(LPC)的基礎(chǔ)上,分離丟棄信號(hào)生成過(guò)程中的激勵(lì)信息。梅爾頻率倒譜系數(shù)(MFCC)是基于人的耳朵的聽(tīng)覺(jué)原理的一種特征參數(shù),相比較于上述兩種參數(shù),它的識(shí)別效果最好,應(yīng)用也最廣泛。大量的研究數(shù)據(jù)表明,與其他特征參數(shù)相比,MFCC參數(shù)能夠更好地提高系統(tǒng)的識(shí)別性能?;诿窢栴l率倒譜系數(shù)(MFCC)的優(yōu)勢(shì),本設(shè)計(jì)選擇梅爾頻率倒譜系數(shù)(MFCC)作為特征參數(shù)。3.4.2MFCC特征參數(shù)的提取梅爾頻率倒譜系數(shù)(MFCC)是一種基于Mel頻率域的倒譜系數(shù),可以與實(shí)際頻率通過(guò)一定的運(yùn)算進(jìn)行轉(zhuǎn)換,相互之間的轉(zhuǎn)換關(guān)系如3-7所示:Mel(f)=2595lg(1+f/700)(3-7)MFCC參數(shù)的提取過(guò)程可以概括為如圖3.6所示:圖3.5MFCC參數(shù)提取MFCC參數(shù)提取過(guò)程如下:(1)語(yǔ)音信號(hào)s(n)經(jīng)過(guò)預(yù)處理后,變?yōu)闀r(shí)域信號(hào)x(n)。將時(shí)域信號(hào)x(n)后補(bǔ)若干0以形成長(zhǎng)為N(通常取N=512)的序列,再用離散傅里葉變換(DFT)或快速傅里葉變換(FFT),將這些時(shí)域信號(hào)轉(zhuǎn)化為線性頻譜X(k),變換公式為式3-8:X(k)=n=0N?1x(n)為了縮短運(yùn)算時(shí)間,本設(shè)計(jì)選擇快速傅里葉變換(FFT)??焖俑盗⑷~變換(FFT)是離散傅立葉變換(DFT)的一種快速算法。該算法的基本思想是將一個(gè)長(zhǎng)度為N的序列的DFT分解成較短的DFT來(lái)計(jì)算。對(duì)DFT算法分解的依據(jù)是WN(1)周期性:W(2)對(duì)稱性:W(3)可約性:W由上述特性可得出:W利用WN(2)將得到的線性頻譜X(k)通過(guò)梅爾(Mel)頻率濾波器組,這樣線性頻譜就轉(zhuǎn)換為Mel頻譜,再對(duì)其取對(duì)數(shù)能量,得到對(duì)數(shù)頻譜S(m)。梅爾(Mel)頻率濾波器組是一組三角帶通濾波器,0≤m≤M,M為濾波器的個(gè)數(shù)。這些濾波器具有三角形濾波特性,對(duì)應(yīng)的中心頻率為f(m),當(dāng)m值增大時(shí),f(m)的距離也增大,當(dāng)m值減小時(shí),f(m)之間的距離也減小,如圖3.6所示。每個(gè)帶通濾波器的傳遞函數(shù)如式3-9。本設(shè)計(jì)選擇三角帶通濾波器,數(shù)量M設(shè)定為20。Hm0(k<f(m?1))k?f(m?1)圖3.6Mel頻率濾波器組由于我們的耳朵對(duì)聲音的認(rèn)知不是線性的,這就需要經(jīng)過(guò)對(duì)數(shù)運(yùn)算使之變成人耳更好識(shí)別的非線性,從而提高聲紋識(shí)別系統(tǒng)的魯棒性。對(duì)Mel頻譜取對(duì)數(shù),進(jìn)而由線性頻譜X(k)到對(duì)數(shù)頻譜S(m)的總傳遞函數(shù)為式3-10:Sm=ln通過(guò)這樣的計(jì)算,我們就可以得到語(yǔ)音信號(hào)的重要特征,即每一幀的能量。(3)將S(m)經(jīng)過(guò)離散余弦變換(DCT),即可以得到MFCC參數(shù)C(n),如式3-11所示:C(n)=m=13.5GMM聲紋模型3.5.1模型選擇聲紋識(shí)別模型在聲紋識(shí)別過(guò)程中起著非常重要的作用,提取的說(shuō)話人特征參數(shù)需要使用恰當(dāng)?shù)哪P蛠?lái)表征,從而使其具有足夠的可信度,能夠代表說(shuō)話人。因此,模型的選擇應(yīng)從語(yǔ)音信號(hào)的類型、期望的性能、計(jì)算量及存儲(chǔ)量等方面考慮。目前主流的聲紋識(shí)別模型為以下幾種:(1)概率統(tǒng)計(jì)方法由于可以將非常短一段時(shí)間中的語(yǔ)音信號(hào)看作穩(wěn)定的,選用概率密度函數(shù)和均值、方差等相關(guān)的統(tǒng)計(jì)量這些特性,利用對(duì)語(yǔ)音信號(hào)擁有的穩(wěn)定的特性如基音、共振頻率等,通過(guò)數(shù)學(xué)分析進(jìn)行分類判決,這種方式被稱為概率統(tǒng)計(jì)方法。該模型體現(xiàn)了語(yǔ)音信號(hào)的各項(xiàng)統(tǒng)計(jì)信息,利用某種概率密度函數(shù),通過(guò)描述語(yǔ)音信號(hào)特征在特征空間的分布情況,來(lái)表征說(shuō)話人。該概率密度函數(shù)的一組參數(shù)作為語(yǔ)音模型。這種方法的優(yōu)勢(shì)在于不需要對(duì)特征參數(shù)進(jìn)行時(shí)域上的規(guī)整,其中最具代表性的模型為隱馬爾可夫模型(HMM)和高斯混合模型(GMM)。(2)動(dòng)態(tài)時(shí)間規(guī)整方法(DTW)由于說(shuō)話人的語(yǔ)音信號(hào)隨時(shí)間不斷變化,若利用語(yǔ)音信號(hào)的這種時(shí)變性,對(duì)比識(shí)別模型與參考模型的時(shí)間,從而根據(jù)一定的距離測(cè)量得出兩模型間的相似程度,這種方法被稱為動(dòng)態(tài)時(shí)間規(guī)整方法(DTW)。但是在實(shí)際使用過(guò)程中利用DTW進(jìn)行聲紋識(shí)別也暴露出一些問(wèn)題,如由于該方法識(shí)別依賴于端點(diǎn)檢測(cè)的情形過(guò)多,卻并不能有效利用語(yǔ)音信號(hào)中所包含的時(shí)序信息,從而導(dǎo)致計(jì)算量過(guò)大,識(shí)別時(shí)間較長(zhǎng)。在實(shí)際使用過(guò)程中體驗(yàn)并不好。(3)人工神經(jīng)網(wǎng)絡(luò)方法(ANN)ANN與其他方法最大的不同在于,它是一種模擬生物特征的方法。ANN為并行分布系統(tǒng),可以自組織、自學(xué)習(xí),同時(shí)克服了傳統(tǒng)人工智能的諸多不足之處,如在直覺(jué)處理、非結(jié)構(gòu)化信息等方面,性能優(yōu)秀。但在實(shí)際使用過(guò)程中依舊存在一定的問(wèn)題,其訓(xùn)練樣本的時(shí)間相比較于其他方法較長(zhǎng),并且隨著樣本數(shù)目的增加,不僅訓(xùn)練的時(shí)間會(huì)增加,并且訓(xùn)練的難度也隨著增加。目前常用的神經(jīng)網(wǎng)絡(luò)有多層感知器(MLP)、徑向基函數(shù)(RBF)網(wǎng)絡(luò)、自組織映射(SOM)網(wǎng)絡(luò)等。(4)支持向量機(jī)方法(SVM)除人工神經(jīng)網(wǎng)絡(luò)方法(ANN)外,還有一種新的機(jī)器學(xué)習(xí)方法,即支持向量機(jī)方法(SVN)。相較于其他方法,該方法在有關(guān)小樣本的學(xué)習(xí)問(wèn)題上有比較好的表現(xiàn),它的基礎(chǔ)是統(tǒng)計(jì)學(xué)習(xí)理論。(5)動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(DBN)動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(DBN)是在貝葉斯網(wǎng)絡(luò)(BN)基礎(chǔ)上的拓展。貝葉斯網(wǎng)絡(luò)(BN)本身的優(yōu)勢(shì)在于在面對(duì)在多種控制因素下,事物存在有條件的依賴性時(shí),能夠很好地解決問(wèn)題。它本質(zhì)上是描述變量間連接概率的圖形模式,非常適合描述不確定性和概率性的事物。但貝葉斯網(wǎng)絡(luò)只能在靜態(tài)系統(tǒng)中使用,而聲紋識(shí)別系統(tǒng)為時(shí)變的動(dòng)態(tài)系統(tǒng),為了解決不能適用的問(wèn)題,對(duì)貝葉斯網(wǎng)絡(luò)擴(kuò)展成動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(DBN)。動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)將靜態(tài)的網(wǎng)絡(luò)結(jié)構(gòu)與時(shí)間信息結(jié)合起來(lái),將概率基礎(chǔ)作為模型,從而使拓展后的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)可以處理時(shí)序數(shù)據(jù)。(6)融合方法融合方法是把以上分類方法與不同參數(shù)進(jìn)行組合,這樣可以使系統(tǒng)的性能有所提升。目前常用的有維數(shù)約簡(jiǎn)與識(shí)別方法結(jié)合以及識(shí)別方式的結(jié)合。維數(shù)約簡(jiǎn)與識(shí)別方法結(jié)合是局部PCA和GMM結(jié)合的聲紋識(shí)別系統(tǒng),局部PCA可以約簡(jiǎn)特征矢量的維數(shù),減少了GMM模型的訓(xùn)練時(shí)間,提高了識(shí)別率。識(shí)別方式的結(jié)合主要是指SVM分類器與其他的識(shí)別方式結(jié)合,如與GMM結(jié)合的聲紋識(shí)別系統(tǒng),GMM可以處理連續(xù)信號(hào),SVM比較適合分類,同時(shí)GMM的結(jié)果代表了同類樣本的相似度,并且SVM的輸出結(jié)果可以體現(xiàn)出異類樣本間的差異,二者充分利用各自的優(yōu)點(diǎn),識(shí)別效果比較好。本設(shè)計(jì)對(duì)說(shuō)話人身份的鑒別選定為文本相關(guān)的方式,并且受到條件的限制,無(wú)法大規(guī)模采集多人的語(yǔ)音信號(hào)。對(duì)比上述聲紋識(shí)別的模型和方法,高斯混合模型(GMM)訓(xùn)練時(shí)間短,識(shí)別成功率高。因此本設(shè)計(jì)選擇高斯混合模型(GMM)作為聲紋識(shí)別的模型,對(duì)其進(jìn)行訓(xùn)練。3.5.2理論依據(jù)GMM模型又被稱為高斯混合模型,是一種概率統(tǒng)計(jì)模型。GMM模型之所以能夠應(yīng)用在聲紋識(shí)別技術(shù)中,是因?yàn)槲覀冋J(rèn)為不同的音素構(gòu)成說(shuō)話人的語(yǔ)音,而相同的音素可以被分類進(jìn)一個(gè)組,因此就可以基于不同音素對(duì)從一系列語(yǔ)音幀提取的特征參數(shù)序列進(jìn)行分類。而如果我們從概率分布的角度來(lái)看,說(shuō)話人的特征參數(shù)在特征空間中的分布由表示不同音階的特征向量的列的分布的集合構(gòu)成,其中某一類特征向量間遵循相同的高斯分布[17]。其次,在統(tǒng)計(jì)學(xué)中,任意分布可以用若干高斯分布的線性組合來(lái)表示。因此,高斯混合模型可以在理論上描述各種聲音特性的統(tǒng)計(jì)分布?;贕MM模型的聲紋識(shí)別的基本原理是構(gòu)建基于每個(gè)說(shuō)話者的特征向量的分布來(lái)確定模型參數(shù)的GMM模型。由于表示說(shuō)話人特征的特征向量的概率分布不同,GMM模型的參數(shù)也不同。高斯混合模型的本質(zhì)是多維概率密度函數(shù),一個(gè)具有M個(gè)混合成分的d維GMM,可以用M個(gè)高斯成員的加權(quán)和表示,如式3-12所示:P(x∣λ)=i=1Mω上式中,x為d維觀測(cè)矢量;wi(i=1,2,?,M)為混合權(quán)值,滿足i=1Mwi=1;pi(x;μ基于上述的描述,高斯混合模型(GMM)可以用圖3.7表示[16]:圖3.7高斯混合模型(GMM)通常用均值矢量、協(xié)方差矩陣、混合分量的權(quán)值來(lái)表示GMM,所以會(huì)得到一個(gè)GMM參數(shù)λ,如式3-14所示:λ={ωi,3.5.3模型訓(xùn)練算法GMM參數(shù)的訓(xùn)練通常采用最大似然估計(jì)的方法。若觀察矢量序列X={xt,t=1,2,?,T}中各個(gè)觀察矢量xt為獨(dú)立不相關(guān),參數(shù)λ的似然度為式L(λ∣X)=P(X∣λ)=t=1TP(xt訓(xùn)練的目的就是估計(jì)一個(gè)新的模型參數(shù)λ^,使得L(λ∣X)最大,即式3-16λ^=argmaxλL(λ∣X)=而GMM參數(shù)的估計(jì)基于最大似然準(zhǔn)則,通過(guò)期望最大化算法(EM)迭代實(shí)現(xiàn)。其算法框圖如圖3.8所示。圖3.8EM算法框圖加入輔助函數(shù)Q(λ,λ')可以更清晰明確的表述EM算法。輔助函數(shù)Q(Q(λ,λ其中y={yt,t=1,2,?T},稱之為隱狀態(tài)號(hào),如果xt由第i個(gè)高斯分量產(chǎn)生,則yQ(λ,λ定義了Q函數(shù)以后,EM算法的具體實(shí)現(xiàn)過(guò)程如下[17]:E-Step:求訓(xùn)練樣本落在假定的隱狀態(tài)yt=i的概率Pyt=ixM-Step:求Q(λ,λ')相對(duì)于ωi=1μi=t=1Σi=t=1利用上述EM算法估計(jì)GMM參數(shù)時(shí),需要首先設(shè)定GMM的混合數(shù)M和模型的初始參數(shù)。利用EM算法估計(jì)GMM參數(shù)時(shí)必須確定GMM的混合數(shù)M和模型的初始參數(shù)。在聲紋識(shí)別的系統(tǒng)的實(shí)際運(yùn)行過(guò)程中,應(yīng)該根據(jù)訓(xùn)練語(yǔ)音的長(zhǎng)度確定M的取值。因?yàn)槿绻鸐的取值太大,那么在實(shí)際運(yùn)行過(guò)程中會(huì)在系統(tǒng)中建立很多模型參數(shù),同時(shí)也會(huì)造成訓(xùn)練和識(shí)別運(yùn)算量的增加,使整體識(shí)別時(shí)間變長(zhǎng);如果M的取值太小,那么在運(yùn)行過(guò)程中會(huì)出現(xiàn)無(wú)法準(zhǔn)確表征說(shuō)話人語(yǔ)音信息的情況,在為說(shuō)話人建立模型之后,也會(huì)因此導(dǎo)致系統(tǒng)識(shí)別誤差的出現(xiàn)。所以M的取值一般為16或32,而考慮到本設(shè)計(jì)的數(shù)據(jù)和運(yùn)算量,在本次設(shè)計(jì)中M的取值為12。GMM參數(shù)的初始化方法的常用方法有兩種,一種為隨機(jī)抽取法,即從樣本中隨機(jī)抽取M個(gè)特征矢量,將其定義為GMM的均值μi(i=1,2,?,M)的初始值,同時(shí)相應(yīng)的協(xié)方差矩陣本設(shè)計(jì)選擇聚類選擇法初始化GMM參數(shù),采取K-均值聚類算法,該算法通過(guò)最小化各個(gè)點(diǎn)到中心點(diǎn)的距離的平方和來(lái)實(shí)現(xiàn),流程圖如圖3.9。圖3.9K-均值聚類算法流程圖具體步驟為:(1)將樣本劃分成互補(bǔ)相交的k個(gè)子集,計(jì)算每個(gè)子集的均值m1,m2,?mk和Je,若第i個(gè)子集有NiJe=i=1k式3-21為誤差準(zhǔn)則,表示k個(gè)聚類中心m1,m2,?mk(2)隨機(jī)抽取一個(gè)x,設(shè)x∈S如果Ni計(jì)算ρj如果存在某個(gè)t(t≠i)對(duì)全體的j,有ρt<ρi,則把x從重新計(jì)算mi,m如果連續(xù)迭代N次Je依照上述分析,訓(xùn)練模型在說(shuō)話人模型建立之后進(jìn)行,在GMM聲紋識(shí)別基礎(chǔ)之上建立,訓(xùn)練流程如圖3.10所示。圖3.10聲紋識(shí)別訓(xùn)練流程圖首先需要對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理,預(yù)處理的基本內(nèi)容包含有預(yù)加重、分幀加窗、端點(diǎn)檢測(cè),從而在預(yù)處理的基礎(chǔ)上針對(duì)不同說(shuō)話人的語(yǔ)音信號(hào)提取出相其對(duì)應(yīng)的特征參數(shù)。預(yù)處理以及如何進(jìn)行預(yù)處理已經(jīng)在上文論述過(guò),此處不再贅述。其次利用GMM將提取到的特征參數(shù)初始化,隨后開(kāi)始說(shuō)話人GMM訓(xùn)練,在此需要注意在初始化過(guò)程中應(yīng)將GMM的混合數(shù)設(shè)定為12。本設(shè)計(jì)為實(shí)現(xiàn)運(yùn)行過(guò)程的持續(xù)循環(huán)進(jìn)而達(dá)到收斂界限,引入EM算法對(duì)GMM參數(shù)進(jìn)行預(yù)估,即為利用初始模型參數(shù)λ去估計(jì)一個(gè)新的模型參數(shù)λ^,進(jìn)而使得式3-16成立。新的模型參數(shù)會(huì)成為下一次估計(jì)的初始模型參數(shù),此過(guò)程持續(xù)循環(huán)到達(dá)到收斂界限,從而得到每一個(gè)說(shuō)話人的GMM3.5.4身份鑒別算法如果事先假定一共存在S個(gè)說(shuō)話人,與其相照應(yīng)的GMM就是λ1,λ2,…,S^基于上述分析,那么基于GMM聲紋識(shí)別說(shuō)話人識(shí)別系統(tǒng)的運(yùn)行結(jié)構(gòu)框圖如圖3.11所示。圖3.11說(shuō)話人識(shí)別系統(tǒng)結(jié)構(gòu)框圖假設(shè)每個(gè)說(shuō)話人出現(xiàn)的先驗(yàn)概率相等,即P(λkS^=arg在實(shí)際使用過(guò)程中,為了簡(jiǎn)化計(jì)算,通常對(duì)上式3-19兩邊分別取對(duì)數(shù)。假設(shè)在不同時(shí)間的觀察矢量xt,(t=1,2,…,T)是獨(dú)立提取的,那么依據(jù)對(duì)GMM的定義,說(shuō)話人辨認(rèn)的目標(biāo)將變?yōu)橛?jì)算式3-26:S^=其中高斯混合模型λk通過(guò)該算法,確定與識(shí)別語(yǔ)音對(duì)應(yīng)的最大后驗(yàn)概率模型,推斷出識(shí)別語(yǔ)音確定為測(cè)試語(yǔ)音集中的某位說(shuō)話人,完成身份鑒定。功能實(shí)現(xiàn)該識(shí)別系統(tǒng)的整體功能流程為:1.系統(tǒng)開(kāi)始后,讀取訓(xùn)練語(yǔ)音集,進(jìn)行對(duì)應(yīng)的預(yù)處理、分幀、加窗、端點(diǎn)檢測(cè)等預(yù)處理操作,等待使用者進(jìn)行下一步操作。在這個(gè)階段,系統(tǒng)輸出還未經(jīng)過(guò)處理和預(yù)處理過(guò)后的語(yǔ)音信號(hào)的頻譜圖像供使用者觀察;2.進(jìn)入特征參數(shù)提取部分,系統(tǒng)提取梅爾頻率倒譜系數(shù)(MFCC)作為說(shuō)話人特征參數(shù),輸出訓(xùn)練語(yǔ)音庫(kù)中語(yǔ)音的12階,26階,39階MFCC圖像;3.進(jìn)入訓(xùn)練部分,利用提取的MFCC對(duì)GMM模型進(jìn)行訓(xùn)練;輸出GMM模型參數(shù)及示意圖4.進(jìn)入身份鑒別部分,程序運(yùn)行暫停,等待使用者選擇需要識(shí)別的語(yǔ)音文件,瑞后系統(tǒng)會(huì)將該語(yǔ)音文件的特征參數(shù)MFCC與模型利用身份前文所述身份鑒別算法進(jìn)行對(duì)比,然后輸出辨識(shí)結(jié)果,確認(rèn)該語(yǔ)音為測(cè)試語(yǔ)音庫(kù)中的哪位說(shuō)話人,完成身份驗(yàn)證。4.1軟硬件環(huán)境本設(shè)計(jì)全部設(shè)計(jì)和測(cè)試均在個(gè)人計(jì)算機(jī)上完成,處理器為IntelCorei5,基于Windows10操作系統(tǒng),語(yǔ)音數(shù)據(jù)利用手機(jī)麥克風(fēng)和錄音APP采集,編程和數(shù)據(jù)處理在matlabR2016a上完成,同時(shí)借助語(yǔ)音信號(hào)處理工具箱Voicebox中的一部分專用函數(shù)和工具完成相關(guān)設(shè)計(jì)。Voicebox不是matlabR2016a中自帶的工具箱,需要自行下載安裝。4.2語(yǔ)音識(shí)別測(cè)試運(yùn)行程序,讀入語(yǔ)音數(shù)據(jù)并對(duì)其進(jìn)行預(yù)處理,程序輸出預(yù)處理前語(yǔ)音波形與處理后音量圖像供使用者觀察。訓(xùn)練語(yǔ)音集中共有10個(gè)說(shuō)話人語(yǔ)音數(shù)據(jù),分別以“1”到“10”命名,性別比例為1:1,以訓(xùn)練語(yǔ)音庫(kù)中說(shuō)話人“3”為例,圖像如圖4.1所示。圖4.1說(shuō)話人“3”語(yǔ)音波形隨后提取特征參數(shù),依舊以訓(xùn)練語(yǔ)音庫(kù)中說(shuō)話人“3”為例,其13階、26階、39階MFCC圖像如圖4.2所示,圖中x軸為維數(shù),y軸為幀數(shù),z軸為MFCC參數(shù)。圖4.2說(shuō)話人“3”的特征參數(shù)MFCC使用提取的特征參數(shù)MFCC訓(xùn)練GMM模型,命命令行窗口顯示模型訓(xùn)練似然概率變化。以訓(xùn)練語(yǔ)音庫(kù)中說(shuō)話人“3”為例,如下圖4.3所示:圖4.3說(shuō)話人“3”GMM模型訓(xùn)練似然概率值所有高斯混合模型結(jié)束后,系統(tǒng)提示訓(xùn)練結(jié)束,讓用戶選擇需要識(shí)別的說(shuō)話人語(yǔ)音,選擇的語(yǔ)音對(duì)應(yīng)訓(xùn)練語(yǔ)音集中的說(shuō)話人3。系統(tǒng)對(duì)待測(cè)語(yǔ)音與模型庫(kù)匹配,命令行窗口提示用戶等待10s,輸出結(jié)果“說(shuō)話人是3”,程序運(yùn)行結(jié)束,達(dá)成預(yù)期目的。結(jié)論基于GMM的聲紋識(shí)別是一種利用聲音這一人的生物特性實(shí)現(xiàn)身份鑒別的技術(shù),它能夠利用聲音就實(shí)現(xiàn)對(duì)人身份的確認(rèn),省去了使用者記憶密碼的工作,能夠給人們的生活帶來(lái)便利。本文對(duì)聲紋識(shí)別的原理、特征參數(shù)的選擇和提
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025廣東韶關(guān)市新豐縣國(guó)有資產(chǎn)管理集團(tuán)有限公司第一批專業(yè)技術(shù)人員招聘有關(guān)事項(xiàng)模擬試卷附答案詳解(黃金題型)
- 2025北京大興區(qū)舊宮鎮(zhèn)紅星派出所流動(dòng)人口和出租房屋管理員招錄1人模擬試卷及答案詳解(奪冠系列)
- 2025年功能輸注裝置項(xiàng)目建議書(shū)
- 2025廣東深圳市龍崗區(qū)第五人民醫(yī)院第二批招聘14人模擬試卷有答案詳解
- 2025年拉擠樹(shù)脂項(xiàng)目合作計(jì)劃書(shū)
- 2025廣西玉林市北流市西埌鎮(zhèn)招聘村級(jí)網(wǎng)格管理員1人模擬試卷及完整答案詳解
- 2025年蚌埠國(guó)鈦納米材料有限公司公開(kāi)招聘工作人員50人模擬試卷及答案詳解一套
- 2025福建三明明溪縣公安局招聘警務(wù)輔助人員13名考前自測(cè)高頻考點(diǎn)模擬試題附答案詳解(模擬題)
- 2025內(nèi)蒙古喀喇沁旗錦山第三中學(xué)“綠色通道”引進(jìn)教師3人第二次考前自測(cè)高頻考點(diǎn)模擬試題及參考答案詳解
- 2025廣東云浮市羅定市市場(chǎng)監(jiān)督管理局招用青年見(jiàn)習(xí)人員2人模擬試卷及一套完整答案詳解
- 【公開(kāi)課】重力與彈力+課件人教版(2019)必修第一冊(cè)
- 護(hù)理倫理與法律
- 網(wǎng)賭網(wǎng)貸專題教育
- 物業(yè)出納培訓(xùn)課件內(nèi)容
- 急性闌尾炎護(hù)理診斷及措施
- 教育是喚醒的
- 商務(wù)局退休干部活動(dòng)方案
- GB/T 32910.6-2025數(shù)據(jù)中心資源利用第6部分:水資源使用效率
- 2025年教師資格證面試結(jié)構(gòu)化面試真題卷:小學(xué)信息技術(shù)教學(xué)案例分析
- 中醫(yī)美容科管理制度
- 家鄉(xiāng)介紹課件英文
評(píng)論
0/150
提交評(píng)論