



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
基于高維空間連續(xù)神經(jīng)元覆蓋的基音頻率識別
隨著計算機硬件技術(shù)的發(fā)展,語音識別技術(shù)也取得了很大進步。但是,由于語音信號的復雜性和多樣性,以及連續(xù)語音識別中的協(xié)同發(fā)音現(xiàn)象廣泛存在,目前的語音識別算法在一定程度上還不能滿足人們使用的需要。以漢語為例,漢語的發(fā)音音節(jié)很短,一般只有一個音節(jié),由聲母和韻母組成,因此在語音信號中的信息量很小,給識別帶來很大困難。另外,漢語是一種有調(diào)語言,不同音調(diào)的音節(jié)之間的混淆是識別中最常見的替代錯誤。因此,針對漢語的特有性質(zhì),有人利用不同的特征在不同的空間分別建模,但勢必造成系統(tǒng)的結(jié)構(gòu)過于復雜。實驗表明,如果在進行語音識別之前,事先知道待識別語音的性別,則會大大提高最后的識別效果。在進行語音識別之前,先對識別樣本進行性別識別,再用不同的模型對不同的性別進行語音識別,這樣不僅訓練出來的模型更加精確,而且也可以減小模型的混合次數(shù),降低模型的復雜度。仿生模式識別是王守覺院士于2002年提出的一種新的模式識別的方法和理論,在此理論基礎(chǔ)上提出一種高維空間覆蓋算法,通過不同樣本在高維空間中覆蓋的不同區(qū)域?qū)颖具M行劃分,并將該算法應用于語音信號的性別識別。1語音的性別特征語音信號中有很多特征參數(shù),如時域中的短時能量,短時過零率,短時自相關(guān),以及頻率域中的頻譜,基音頻率等。要想對語音信號進行性別劃分,就要抓住最能體現(xiàn)語音性別特征的參數(shù)。圖1(a)和圖1(b)分別為男性和女性說話人發(fā)出漢語讀音“元素”時的波形圖,語譜圖以及有效基音頻率的曲線。從圖中可以看到,男性和女性的基音頻率分布在不同的區(qū)域。圖2中通過對比發(fā)現(xiàn),女性基頻值明顯高于男性。語音中的濁音是準周期信號,基音頻率的物理含義是濁音的聲帶振動基頻。統(tǒng)計顯示,不同性別的說話人,基音頻率具有不同的分布。男性說話者的基頻大部分集中在60~200Hz之間,女性大部分在200~450Hz。2自殺檢測2.1類模式類的基本框架模式識別是通過對具體的事物進行觀測所得到的具有時間與空間分布的信息,模式所屬的類別或同一類中的模式的總稱為模式類,其中個別具體的模式稱為樣本。其基本框架如圖3所示。其中,起決定作用的是分類器的設(shè)計?,F(xiàn)存的分類方法有很多種,如基于統(tǒng)計決策分類理論的統(tǒng)計識別,起源于生物神經(jīng)系統(tǒng)研究的神經(jīng)網(wǎng)絡,事先設(shè)定模版的模版匹配識別,以及基于知識向量機理論的模式識別等。2.2仿生模式的概念傳統(tǒng)模式識別中,人們考慮模式識別問題的主要出發(fā)點都是若干類別的最佳劃分問題;而仿生模式識別的基本出發(fā)點是把模式識別問題看成對各種各樣模式的“認識”過程,而不是劃分。正如人類能很快地分辨出周圍的物體,是因為人類很好的認識了每一種事物的特征,并不是以對每種事物的分類為前提的。仿生模式識別的基點為:特征空間中同類樣本全體的連續(xù)性規(guī)律。傳統(tǒng)的模式識別的所有知識都存在于訓練樣本中,因此基本上都是基于大數(shù)據(jù)量的訓練樣本。而仿生模式識別則認為,自然界任何預被認識的事物(包括事物,圖像,聲音,語言,狀態(tài)等等)若存在兩個“同源”同類而不完全相等的事物,而這兩個事物的差別是可以漸變的或非量子化的,則這兩個同類事物之間必至少存在一個漸變的過程,在這個漸變過程中間的各事物都是屬于同一類的,以數(shù)學公式描述為:特征空間Rn中,設(shè)所有屬于A類事物的全體所構(gòu)成的點集為A,若集合A中存在任意兩個元素x與y,則對ε為任意大于零的值時,必定存在集合B使:即在樣本足夠多的情況下,所有同類模式所構(gòu)成的樣本在高維空間中應構(gòu)成一個或多個閉合的區(qū)域,其中任意兩個樣本之間是連續(xù)的。也就是說,如果一個待識別樣本出現(xiàn)在某一類模式的這個閉合區(qū)域,則該樣本應該是屬于這類模式。仿生模式識別抓住任兩個相近同類樣本之間的相似性,通過對訓練樣本的“認識”過程來為每一種模式建立模型。這樣建立起來的模型不僅能夠反映出訓練樣本中所攜帶的信息,也能通過連續(xù)的思想,將鄰近的兩個同類樣本之間的信息保存在模型中。3模擬識別適用于性別識別3.1第三,基音頻率的估計特征提取的目的是從語音信號中抽取出能完全,精確的表達語音信號所攜帶的全部的用于識別的信息參數(shù)。特征提取是該系統(tǒng)的第一步,也是至關(guān)重要的一步,因為有的語音特征在反映性別特征的過程中沒有積極作用,反而造成系統(tǒng)數(shù)據(jù)的冗余?;纛l率在語音信號中是區(qū)分男女性別的主要特征,而且結(jié)構(gòu)簡單,每一幀數(shù)據(jù)只有一維基頻,能夠簡化分類識別過程。本文中實驗數(shù)據(jù)采樣頻率為8kHz,位深度16bit,采用文獻中的幅度差和函數(shù)方法對樣本進行基音頻率的估計,并用Viterbi算法進行后處理。將不存在基音的幀舍棄。3.2平均幀數(shù)及方向函數(shù)仿生模式識別基本出發(fā)點是對一類一類樣本的“認識”,利用神經(jīng)元建立高維空間復雜幾何形體,完成對某類樣本的最佳覆蓋過程。本文采用一種類高斯混合模型的神經(jīng)元:其中,d為樣本的維數(shù),在性別識別中為樣本的幀數(shù),即一個樣本代表高維空間中的一個點,th為設(shè)定門限值,R=[r1,r2,…,rd]為每一個神經(jīng)元的核心權(quán)值,表示每一維數(shù)據(jù)在高維空間中的中心;V=[v1,v2,…,vd]為方向權(quán)值,表示在每一個方向上距離中心的大小。其中:M為訓練樣本的個數(shù),δ為調(diào)整大小的參數(shù)。訓練時,首先計算所有訓練樣本之間的距離:m、n代表任意兩個訓練樣本。從中選擇距離最大的兩個樣本,即一類模式的兩個邊緣,從任意一個邊緣處開始對樣本進行高維空間的覆蓋。尋找平均距離最小的M個樣本,完成一個神經(jīng)元的訓練,直至所有的樣本都被覆蓋,這時所有的神經(jīng)元就形成對該類別所有樣本在高維空間的覆蓋。3.3分類識別樣本首先,對待識別樣本進行和訓練樣本同樣過程的特征提取,將與訓練樣本相同幀數(shù)的基音頻率保存下來。對待識別樣本進行性別識別的過程,就是判斷被識別樣本是否落在代表男性或是女性的訓練樣本所圍成的高維有限空間的并集中。識別時的判別函數(shù)為:其中,Ymi代表所有的由男性訓練樣本得出的神經(jīng)元,Yfi代表所有由女性樣本得出的神經(jīng)元,f為判別函數(shù)。4仿生模式實驗該實驗采用的數(shù)據(jù)庫為WSJ英文語音數(shù)據(jù)庫。為了突出仿生模式識別的性能優(yōu)勢,減少實驗結(jié)果受隨機因素的影響,本次實驗主要采取小數(shù)據(jù)集訓練,大數(shù)據(jù)集測試的原則。訓練數(shù)據(jù)和測試數(shù)據(jù)均提取前30幀有效基頻,男女各用50條數(shù)據(jù)進行訓練,850條數(shù)據(jù)進行測試。由于訓練數(shù)據(jù)比較少,可能會出現(xiàn)由于數(shù)據(jù)采集時不同人的不同聲音特征不具代表性,而影響最后統(tǒng)計結(jié)果的普遍性,因此該實驗共進行6次,分別使用不同的數(shù)據(jù)進行訓練,相同的數(shù)據(jù)進行測試。實驗結(jié)果如表1所示。同時,使用相同的數(shù)據(jù)采用HMM的方法進行實驗。實驗使用HTK工具箱,分別為男女建模,模型中狀態(tài)數(shù)為5,混合數(shù)為6,同樣對以上6組數(shù)據(jù)進行識別,實驗對比結(jié)果如表2所示。仿生模式識別的算法設(shè)計結(jié)果不僅受訓練樣本的影響,高維空間的維數(shù)也會影響識別結(jié)果。因此,接下來的實驗,依次增大高維空間的維數(shù),從5維增加到100維。訓練數(shù)據(jù)100個,測試數(shù)據(jù)500個。不同實驗的訓練數(shù)據(jù)和測試數(shù)據(jù)為相同的語料,提取其中的不同幀數(shù)的基音頻率用于識別。實驗結(jié)果如表3所示。該實驗中,男性女性識別率具體的變化趨勢如圖4所示。本文分析了
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年中考物理高頻考點復習:物體的內(nèi)能 講義(含練習題及答案)
- 2025年長沙市中考道德與法治試卷(含答案解析)
- 2025年人教版新高一物理專項提升:實驗:探究加速度與力、質(zhì)量的關(guān)系(學生版)
- 《紅星照耀中國》核心素養(yǎng)導學
- 2025年體育教師招聘考試專業(yè)知識考試題庫390題(含答案)
- 2025年廣元市中考生物試題卷(含答案解析)
- 2025年武漢市中考數(shù)學試卷(含答案解析)
- 商業(yè)銀行金融科技人才2025年培養(yǎng)與金融行業(yè)人才培養(yǎng)模式創(chuàng)新
- 基層醫(yī)療衛(wèi)生機構(gòu)信息化建設(shè)中的醫(yī)療信息化與醫(yī)療服務可及性報告
- 辦事處消防知識培訓內(nèi)容課件
- TD-T 1044-2014 生產(chǎn)項目土地復墾驗收規(guī)程
- 附件1:中國聯(lián)通動環(huán)監(jiān)控系統(tǒng)B接口技術(shù)規(guī)范(V3.0)
- GB/T 1185-2006光學零件表面疵病
- 保育員三級理論知識考核試題題庫及答案
- 化學品作業(yè)場所安全警示標志-鹽酸
- 畫冊設(shè)計工作計劃模板
- (完整版)劍橋通用五級PET考試練習題
- 鋼絲繩課件-圖文
- 模板匹配課件
- 健康照護教材課件匯總完整版ppt全套課件最全教學教程整本書電子教案全書教案課件合集
- 2021年度計算機審計初級網(wǎng)絡培訓測試題(參考答案)
評論
0/150
提交評論