基于SDA語音情感識別方法的研究_第1頁
基于SDA語音情感識別方法的研究_第2頁
基于SDA語音情感識別方法的研究_第3頁
基于SDA語音情感識別方法的研究_第4頁
基于SDA語音情感識別方法的研究_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于SDA語音情感識別方法的研究C

NTENTS01研究背景02知識準備03使用方法04下一步計劃

科技改變著人類的日常生活,人機交互的每一次革命都會引起巨大的變革。因此,設計更人性化的人機交互方式得到了眾多研究者的重視。傳統(tǒng)的人機交互方式主要依賴鍵盤、鼠標及現(xiàn)在流行的觸摸屏等。然而,這樣的人機交互方式忽略了人類情感的理解和表達能力,無法準確捕捉語音的精確內(nèi)涵,為此人機交互迫切需要情感交流。目前設計具有人類智能的計算機,使之能夠擬人化地與人類進行自然的交流將具有巨大的市場價值,這就要求現(xiàn)代計算機必須具有情感處理的能力,識別理解情感并作出具有情感力的回應。因此,情感處理技術(shù)獲得了極大的關(guān)注,關(guān)于情感信息處理的研究也在此種背景下產(chǎn)生。研究背景01語音情感由一些語音參數(shù)表征,然而這些特征參數(shù)內(nèi)在的復雜性決定了情感特征提取的困難。國內(nèi)外研究者們從語音學和心理學方面對情感特征進行了大量的研究。一般提取的情感特征主要分為韻律特征、音質(zhì)特征和譜特征。情感描述模型1.1韻律特征:是主要的語音情感參數(shù),是對整個語音片段的表述。例如:音節(jié)重音,語調(diào)模式,說話速率和節(jié)奏。音質(zhì)特征:主要指語譜和音色方面的特性,取決于說話的音波形式。情感不同,同一人的音質(zhì)也會有差異,與情感的關(guān)聯(lián)性也很大。頻譜特征:反映了信號的頻域特性。不同頻譜區(qū)間的頻譜能量分布和情感狀態(tài)有很大相關(guān)性。例如:高頻段離興情感能量較高,悲傷情感能量很低?;厩楦械膭澐?.2本文將基本情感劃分為:快樂、憤怒、悲哀、驚恐四種狀態(tài)。

知識準備02語音情感識別流程語音情感信號的預處理

2.1預加重:預加重是一種在發(fā)送端對輸入信號高頻分量進行補償?shù)男盘柼幚矸绞?。隨著信號速率的增加,信號在傳輸過程中受損很大,為了在接收終端能得到比較好的信號波形,就需要對受損的信號進行補償,預加重技術(shù)的思想就是在傳輸線的始端增強信號的高頻成分,以補償高頻分量在傳輸過程中的過大衰減。一般使用階數(shù)為1的濾波器。2.1.1

X(n)注:濾波器的階數(shù)是指在濾波器的傳遞函數(shù)中有幾個極點。2.1.2加窗分幀:語音信號在短時間內(nèi)近似于平穩(wěn)的過程,所以語音信號通常假設短時平穩(wěn)。為了利用語音這一特性,在語音處理中,

把語音劃分成許多短時幀。

2.1.3端點檢測:語音信號端點檢測技術(shù)就是從包含語音的一段信號中準確地確定語音的起始點和終止點,區(qū)分語音和非語音信號是語音處理的一項重要技術(shù)。語音信號的短時平均幅度為:2.1.3.1短時能量:語音和噪聲的區(qū)別可以體現(xiàn)在它們的能量上,語音段的能量比噪聲段的能量大,語音段的能量是噪聲段能量疊加語音聲波能量的和。在信噪比很高時,那么只要計算輸入短時能量或短時平均幅度就能夠把語音段和噪聲背景區(qū)分開。短時能量定義為一幀采樣點值的加權(quán)平方和,信號{x(n)}的短時能量定義為:

W(n)為窗函數(shù)短時平均過零率:指一幀語音信號通過零值的次數(shù)。單位時間內(nèi)過零的次數(shù)就稱為過零率。一段長時間內(nèi)的過零率稱為平均過零率。

信號{x(n)}的短時平均過零率定義為:2.1.3.2Sgn為符號函數(shù),即:短時平均過零率運算圖:檢測方法:利用過零率檢測清音(聲帶不振動的音),用短時能量檢測濁音(聲帶振動的音),兩者配合。首先為短時能量和過零率分別確定兩個門限,一個是較低的門限數(shù)值較小,對信號的變化比較敏感,很容易超過;另一個是比較高的門限。低門限被超過未必是語音的開始,有可能是很短的噪聲,高門限被超過并且接下來的自定義時間段內(nèi)的語音超過低門限,意味著信號開始。2.1.3.2語音情感特征參數(shù)的提取與分析

2.22.2.1語音幀能量語音信號的能量特征與情感密切相關(guān),實驗中將采用短時能量、短時幅度及其部分統(tǒng)計特征參數(shù)作為情感特征參數(shù)。短時能量定義為一幀采樣點值的加權(quán)平方和,如下所示:

2.2.2短時過零率

短時過零率從一定程度上體現(xiàn)了發(fā)音人語速的快慢,主要表征一幀語音中語音信號取零電平的次數(shù)。用處:區(qū)分無聲和有聲語音。2.2.3基音頻率

基音頻率指的是人發(fā)聲時聲帶振動的基本頻率,簡稱基頻。研究表明,基頻參數(shù)與情感的變化關(guān)系密切。圖中的橫軸是頻率,縱軸是幅度。StackedDenoising

AutoEncoder(棧式去噪自編碼SDA)033.1自編碼網(wǎng)絡自編碼網(wǎng)絡包含兩個過程:(1)從輸入層-》隱藏層的原始數(shù)據(jù)X的編碼過程:(2)從隱藏層-》輸出層的解碼過程:

那么數(shù)據(jù)X的重構(gòu)誤差損失函數(shù)就是:m表示樣本的個數(shù)稀疏自編碼(SparseAutoencoder)3.2

m表示樣本的個數(shù)

棧式自編碼算法

同理,就是,按照從后向前的順序執(zhí)行每一層自編碼器的解碼步驟:

棧式自編碼算法降燥自編碼(Denoising

Autoencoders)

一,加入噪聲二,隨機的把輸入層節(jié)點的值置為0(使輸入節(jié)點的激活值置0)具體做法是首先按照上述方法確定第一層的權(quán)重參數(shù),然后固定第一層的參數(shù),對第二層的參數(shù)進行訓練,以此類推,直到得到所有權(quán)重值。

+1+1+1+1P(y=0|x)P(y=1|x)P(y=2|x)InputFeature1Feature2Feature3SoftmaxclassifierSoftmax回歸該模型是四分類(四種情感)問題,所以是一個多分類模型,而Softmax回歸是處理多分類問題的函數(shù)。

下一步計劃1,目前已經(jīng)從網(wǎng)上找到一個棧式去燥自編碼用來做圖像的代碼,正在改進里面的參數(shù),來匹配當前我的語音分類模型。2,從査老師那兒獲取了一些語音庫資料,接下來用這些語音庫來做訓練數(shù)據(jù)。3,先用這個模型跑出情感分類結(jié)果,后期再改進模型,在輸出層前加一層可視化自編碼器,使網(wǎng)絡結(jié)構(gòu)輸出的特征獲得最大激勵,使想要輸出的特征更加明顯。04THANK

YOUFOR

WATCHING感謝聆聽信號數(shù)字‘4’的短時能量和平均過零率檢測方法:利用過零率檢測清音(聲帶不振動的音),用短時能量檢測濁音(聲帶振動的音),兩者配合。首先為短時能量和過零率分別確定兩個門限,一個是較低的門限數(shù)值較小,對信號的變化比較敏感,很容易超過;另一個是比較高的門限。低門限被超過未必是語音的開始,有可能是很短的噪聲,高門限被超過并且接下來的自定義時間段內(nèi)的語音超過低門限,意味著信號開始。2.1.3.2整個端點檢測可分為四段:靜音段、過渡段、語音段、結(jié)束。實驗時使用一個變量表示當前狀態(tài)。靜音段,如

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論