




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
CS330MIP–Lecture11音頻信息處理Audio
ProcessingLecture11ContentsReview
ofLecture10語音合成之PSOLA語音壓縮之MP3技術(shù)說話人識別之GMM語音通用深度神經(jīng)網(wǎng)絡(luò)6語音大模型之Whisper音頻語音信息處理7個(gè)里程碑語音合成基音同步疊加算法1990語音壓縮MP31991語音特征分析梅爾頻率倒譜系數(shù)1980語音識別隱馬爾可夫模型1980s說話人識別高斯混合模型1993語音通用深度神經(jīng)網(wǎng)絡(luò)2014語音大模型Whisper2022語音數(shù)字化之采樣、量化和編碼音頻信號的數(shù)字化過程主要包括采樣、量化和編碼三個(gè)步驟:采樣將連續(xù)的模擬音頻信號轉(zhuǎn)換為離散數(shù)字信號。在采樣過程中,音頻信號在時(shí)間上進(jìn)行數(shù)字化,即按照固定的時(shí)間間隔抽取模擬信號的值。這個(gè)采樣間隔稱為采樣周期,其倒數(shù)就是采樣頻率。采樣頻率越高,聲波就越精確。采樣得到的每個(gè)時(shí)間點(diǎn)的信號幅值會轉(zhuǎn)換為數(shù)字信號。量化對采樣得到的信號幅度進(jìn)行數(shù)字化處理。在量化過程中,模擬音頻信號的幅度在最大值和最小值之間被劃分為多個(gè)量化區(qū)間,每個(gè)區(qū)間對應(yīng)一個(gè)離散的數(shù)字值。量化位數(shù)決定了量化區(qū)間的數(shù)量,量化位數(shù)越多,聲波幅度越精確,誤差越小,但數(shù)據(jù)量也會相應(yīng)增大。編碼將量化后的信號轉(zhuǎn)換成二進(jìn)制數(shù)字碼流,便于計(jì)算機(jī)存儲和傳輸。在這個(gè)過程中,每個(gè)量化值被表示為一個(gè)或多個(gè)二進(jìn)制數(shù)。這種轉(zhuǎn)換是通過某種編碼方法(如波形編碼、參數(shù)編碼或混合編碼等)完成的。編碼完成后,原始的模擬音頻信號就被完全轉(zhuǎn)化為數(shù)字形式,可以進(jìn)行后續(xù)的處理、存儲和傳輸。Nyquist奈奎斯特采樣理論為了正確采樣并恢復(fù)信號頻率,我們必須使用的采樣率至少應(yīng)等于信號中最大頻率內(nèi)容奈奎斯特頻率的兩倍。它是特定采樣率下可以編碼的最高頻率,以便能夠重建信號。
最低采樣率=2*奈奎斯特頻率如果你的系統(tǒng)采樣率為10Ms/s(每秒10,000,000個(gè)樣本),那么你的系統(tǒng)奈奎斯特頻率將為5MHz。由于人類聽覺范圍在20Hz至20KHz之間,因此采樣率通常設(shè)置為44.1KHz。對于電話語音(300-3400Hz),采樣率通常設(shè)置為8KHz。量化誤差-SQNR量化的質(zhì)量的特征在于模數(shù)轉(zhuǎn)換器(ADC)的信噪比SignaltoQuantizationNoiseRatio(SQNR)量化噪聲:模擬信號的實(shí)際值與最近的量化間隔值之間的差值。這個(gè)誤差最多可以達(dá)到間隔的一半。對于每個(gè)樣本N位的量化精度,SQNR可以表示為(簡單均勻信號):脈沖編碼調(diào)制PulseCodeModulation(PCM)1937年,法國數(shù)學(xué)家A.H.Reeves(里夫斯)提出了脈沖編碼調(diào)制(PCM)理論方法,這是音頻數(shù)字化的早期理論基礎(chǔ)脈沖編碼調(diào)制(PCM)簡單地說就是通過采樣和量化,將模擬信號轉(zhuǎn)換為數(shù)字信號。量化包括選擇幅度上的斷點(diǎn),然后將區(qū)間內(nèi)的任何值重新映射到其中一個(gè)代表性的輸出電平。PCM采樣通常與其他數(shù)字音頻處理技術(shù)結(jié)合使用,如位深度調(diào)整和通道配置等,以進(jìn)一步優(yōu)化音頻信號的質(zhì)量和傳輸性能。例如:PCM對信號每秒鐘取樣8000次;每次取樣為8個(gè)位,總共64kb采樣點(diǎn)(PCM間隔)梅爾頻率計(jì)算公式MEL頻率是基于人耳聽覺特性提出來的,它與Hz頻率成非線性對應(yīng)關(guān)系。人類對不同頻率語音的感知能力并不相同:對1kHz以下的頻率,感知能力與頻率成線性關(guān)系;而對1kHz以上的頻率,感知能力與頻率則成對數(shù)關(guān)系。隨著頻率的提高,人耳的感知能力逐漸下降。1000
Mel=1000
Hz倒譜的數(shù)學(xué)公式倒譜(cepstrum)就是將頻譜(spectrum)的英文前四個(gè)字母反過來寫。通過傅立葉變換得到。我們得到倒譜C的流程為:
聲音信號X(t)->功率譜F(X(t))
->對數(shù)功率譜Log(F(X(t))->倒頻譜F-1[Log(F(X(t))]
Mel頻率倒譜系數(shù)梅爾頻率倒譜系數(shù)(MelFrequencycepstrumcoefficient,MFCC)是一種語音特征提取方式,它的主要目的是模仿人耳的聽覺特性并兼顧了語音的產(chǎn)生機(jī)制,因此大多數(shù)語音識別系統(tǒng)中廣泛使用這種特征。預(yù)處理分幀、加窗DCTMel濾波器組logDFT線性譜域Mel譜域?qū)?shù)譜域MFCC語音信號基于MFCC的ASR自動語音識別音頻信號預(yù)處理:對音頻信號進(jìn)行預(yù)處理,包括采樣率轉(zhuǎn)換、分幀、加窗和端點(diǎn)檢測等MFCC特征提?。豪肕FCC算法從預(yù)處理后的音頻信號中提取特征。特征向量構(gòu)建:將每幀的MFCC系數(shù)組合成一個(gè)特征向量,這些特征向量將代表音頻信號的聲學(xué)特性。模型訓(xùn)練:使用大量標(biāo)注的語音數(shù)據(jù)訓(xùn)練一個(gè)識別模型。這個(gè)模型可以是基于機(jī)器學(xué)習(xí)的方法(如支持向量機(jī)、隱馬爾可夫模型等),也可以是深度學(xué)習(xí)模型(如循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)或Transformer等)。訓(xùn)練過程中,模型會學(xué)習(xí)如何將MFCC特征映射到對應(yīng)的語音標(biāo)簽。語音識別:在模型訓(xùn)練完成后,將待識別的音頻信號通過相同的預(yù)處理和特征提取步驟,得到其MFCC特征。然后,將這些特征輸入到訓(xùn)練好的模型中,模型會輸出識別結(jié)果,即音頻信號對應(yīng)的文本內(nèi)容。音頻語音信息處理7個(gè)里程碑語音合成基音同步疊加算法1990語音壓縮MP31991語音特征分析梅爾頻率倒譜系數(shù)1980語音識別隱馬爾可夫模型1980s說話人識別高斯混合模型1993語音通用深度神經(jīng)網(wǎng)絡(luò)2014語音大模型Whisper2022語音識別語音識別是指讓機(jī)器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的,從而實(shí)現(xiàn)與機(jī)器進(jìn)行語音交流的能力。在21世紀(jì)的今天,語音識別已經(jīng)有了大量的應(yīng)用,如智能音箱、智能車載設(shè)備、語音助手Siri、語音輸入法等等。語音識別的發(fā)展早期的語音識別大多是按照簡單的模版匹配構(gòu)造的特定人、小詞匯量、孤立詞識別系統(tǒng)。在訓(xùn)練階段,用戶將詞匯表中的每一個(gè)詞讀一遍,并提取特征向量存入模版庫。在識別階段,將輸入語音的特征向量序列依次與模板庫中的每個(gè)模板庫進(jìn)行相似度比較,將相似度最高者作為識別結(jié)果輸出。語音識別模版匹配法的代表算法是日本學(xué)者板倉提出的動態(tài)時(shí)間規(guī)整(DynamicTimeWarping,
DTW)算法,它將動態(tài)規(guī)劃的概念用于解決孤立詞識別時(shí)的說話速度不均勻的難題。模版匹配法的缺點(diǎn)是:如果需要識別較長的語段,并需要使用詞、甚至是句來作為模板,那么可能需要大量的模版,這時(shí)候匹配算法將會非常耗時(shí)。語音識別的發(fā)展20世紀(jì)80年代,基于隨機(jī)模型法的語音識別方法逐漸成為了主流。語音信號可以看成是一種信號過程,它在足夠短的時(shí)間段上的信號特性近似于穩(wěn)定,而總的過程可看成是依次從相對穩(wěn)定的某一特性過渡到另一特性。隨機(jī)模型法中的代表算法就是隱馬爾可夫模型(HiddenMarkovModels,HMM),它利用概率統(tǒng)計(jì)的方式來描述上述的時(shí)變過程。自HMM被Baker和Jelinek等人引入語音識別技術(shù)以來,隨機(jī)模型法已成為語音識別研究領(lǐng)域的主流研究方法。馬爾可夫模型馬爾可夫模型(MarkovModel)是一種統(tǒng)計(jì)模型,它基于馬爾可夫性質(zhì),即一個(gè)給定過程的未來狀態(tài)僅取決于其當(dāng)前狀態(tài),而與過去的狀態(tài)無關(guān)。馬爾可夫模型有多種形式,如馬爾可夫鏈、隱馬爾可夫模型(HMM)、馬爾可夫決策過程(MDP)和部分可觀測馬爾可夫決策過程(POMDP)等。這些模型根據(jù)系統(tǒng)狀態(tài)是否完全可觀測以及系統(tǒng)是自動的還是受控的而有所不同。馬爾可夫模型在語音識別中的成功應(yīng)用使其成為實(shí)現(xiàn)快速精確的語音識別系統(tǒng)的最成功的方法之一。通過隱馬爾可夫模型,復(fù)雜的語音識別問題可以非常簡單地被表述和解決。隱馬爾可夫模型
HMM用于孤立字詞語音識別
輸入語音語音分析概率計(jì)算比較判斷矢量量化HMM訓(xùn)練各語音的HMM模型識別結(jié)果訓(xùn)練識別作業(yè)11計(jì)算以下頻率的Mel頻率700Hz1400Hz5800Hz2600Mel對應(yīng)的頻率是多少?Lecture11ContentsReview
ofLecture10語音合成之PSOLA語音壓縮之MP3技術(shù)說話人識別之GMM語音通用深度神經(jīng)網(wǎng)絡(luò)6語音大模型之Whisper音頻語音信息處理7個(gè)里程碑之3語音合成基音同步疊加算法1990語音壓縮MP31991語音特征分析梅爾頻率倒譜系數(shù)1980語音識別隱馬爾可夫模型1980s說話人識別高斯混合模型1993語音通用深度神經(jīng)網(wǎng)絡(luò)2014語音大模型Whisper2022里程碑3:語音合成之PSOLA基音同步疊加算法(Pitch-SynchoronousOverlap-Add,
PSOLA)是一種用于語音合成中對合成語音的韻律進(jìn)行語音轉(zhuǎn)換(Voice
Conversion)算法的算法。80年代末到1990年由法國研究人員F.Charpentier和E.Moulines等人提出。該算法的核心思想是在不改變語音信號的基本音質(zhì)的前提下,將語音信號分成不同的基音周期,并通過移動、增減這些基音周期并重新疊加,通過調(diào)整語音信號的基頻和時(shí)長來改變語音的韻律音高和持續(xù)時(shí)間。它的優(yōu)點(diǎn)在于能夠方便地控制合成語音的韻律參數(shù)。PSOLA包括時(shí)域PSOLA(TD-PSOLA)頻域PSOLA(FD-PSOLA)線性預(yù)測PSOLA(LP-PSOLA)等語音合成語音合成技術(shù)是利用電子計(jì)算機(jī)或其他裝置模擬人說話的技術(shù),主要包括文本到語音(TTS:TextToSpeech)和語音轉(zhuǎn)換(VC:VoiceConversion)兩種技術(shù)路線.
語音轉(zhuǎn)換是為了實(shí)現(xiàn)對合成語音中的韻律調(diào)整。韻律控制主要是修改單個(gè)語音波形的時(shí)長和音調(diào),以達(dá)到韻律控制的目的。使用的主要算法是基音同步疊加(PSOLA)算法PSOLA算法步驟1-5具體描述窗函數(shù)與信號分割使用窗函數(shù)將輸入的語音信號分割成多個(gè)幀,每一幀包含一個(gè)完整的基音周期基音同步分析和標(biāo)注對于每一幀,算法會進(jìn)行基音周期的分析。語音信號可以分為清音段和濁音段,這兩者的標(biāo)注方式是不同的。對于濁音段,算法會進(jìn)行正常的基音周期標(biāo)注。而對于清音段,由于它們?nèi)狈Ψ€(wěn)定的基音周期,算法通常將其基音周期設(shè)定為一個(gè)固定的常數(shù)時(shí)間擴(kuò)展或壓縮根據(jù)需要改變語音信號的長度,算法可以對幀進(jìn)行時(shí)間擴(kuò)展或壓縮。這通常是通過改變幀之間的間隔來實(shí)現(xiàn)的音高調(diào)整為了改變語音信號的音高,算法會調(diào)整每一幀的基音周期大小。更長的基音周期會導(dǎo)致更低的音高,而更短的基音周期則會導(dǎo)致更高的音高。重疊和相加在完成了上述所有調(diào)整后,算法會將調(diào)整后的幀進(jìn)行重疊并相加,以生成新的語音信號。這個(gè)新的信號會具有所需的音高和時(shí)間長度的調(diào)整,而其他語音特性則保持不變。Lecture11ContentsReview
ofLecture10語音合成之PSOLA語音壓縮之MP3技術(shù)說話人識別之GMM語音通用深度神經(jīng)網(wǎng)絡(luò)6語音大模型之Whisper音頻語音信息處理7個(gè)里程碑之4語音合成基音同步疊加算法1990語音壓縮MP31991語音特征分析梅爾頻率倒譜系數(shù)1980語音識別隱馬爾可夫模型1980s說話人識別高斯混合模型1993語音通用深度神經(jīng)網(wǎng)絡(luò)2014語音大模型Whisper2022里程碑4:語音壓縮之MP3語音壓縮是對編碼后的數(shù)字語音進(jìn)行壓縮的方法。MP3算法(MPEGAudioLayer-3)是一種廣泛使用的數(shù)字音頻壓縮格式,其全稱是動態(tài)影像專家壓縮標(biāo)準(zhǔn)音頻層面3。它是在1991年由德國的的一組工程師發(fā)明和標(biāo)準(zhǔn)化的。它被設(shè)計(jì)用來大幅度地降低音頻數(shù)據(jù)量。利用MPEGAudioLayer3的技術(shù),將音樂以1:10甚至1:12的壓縮率,壓縮成容量較小的文件,而對于大多數(shù)用戶來說重放的音質(zhì)與最初的不壓縮音頻相比沒有明顯的下降。用MP3形式存儲的音樂就叫作MP3音樂,能播放MP3音樂的機(jī)器就叫作MP3播放器。MP3算法的核心原理是基于人耳聽覺特性的心理聲學(xué)模型,通過去除人耳不易察覺的聲音信息來實(shí)現(xiàn)數(shù)據(jù)壓縮。MP3算法步驟步驟描述采樣率轉(zhuǎn)換將輸入音頻信號的采樣率轉(zhuǎn)換為固定的值,通常為44.1kHz。這是為了匹配人耳對于音頻的感知范圍,削弱或刪除高于人耳感知范圍的頻率。分幀將音頻信號分成一系列短時(shí)窗口,通常為23.2ms至46.4ms的長度。每個(gè)窗口內(nèi)的音頻數(shù)據(jù)被視為一個(gè)幀。使用重疊窗口技術(shù)減少幀之間的不連續(xù)性??焖俑道锶~變換(FFT)對每個(gè)幀應(yīng)用FFT變換,將時(shí)域中的音頻信號轉(zhuǎn)換為頻域中的頻譜表示。聲學(xué)模型基于人耳的聽覺特性,使用心理聲學(xué)模型來確定哪些頻率成分對人耳更重要,并舍棄部分人耳感知不靈敏的部分以進(jìn)行更多的壓縮。量化和編碼使用掩蔽模型為每個(gè)頻率成分確定對應(yīng)的量化器步長。然后,將量化后的頻譜系數(shù)進(jìn)行熵編碼,通常使用霍夫曼編碼?;舴蚵幋a是一種無損數(shù)據(jù)壓縮算法,它基于頻率較高的字符用較短的編碼表示,而頻率較低的字符用較長的編碼表示的原理,實(shí)現(xiàn)對數(shù)據(jù)的高效壓縮。MP3原理來源:mp3是如何騙過你耳朵的?【差評君】UP主:差評君/video/BV1D5411S71K/Q1:
MP3的心理聲學(xué)壓縮占了壓縮的60%,MP3壓縮的另外40%靠什么?
MP3壓縮全流程Lecture11ContentsReview
ofLecture10語音合成之PSOLA語音壓縮之MP3技術(shù)說話人識別之GMM語音通用深度神經(jīng)網(wǎng)絡(luò)6語音大模型之Whisper音頻語音信息處理7個(gè)里程碑之5語音合成基音同步疊加算法1990語音壓縮MP31991語音特征分析梅爾頻率倒譜系數(shù)1980語音識別隱馬爾可夫模型1980s說話人識別高斯混合模型1993語音通用深度神經(jīng)網(wǎng)絡(luò)2014語音大模型Whisper2022說話人識別Automatic
Speaker
Recognition說話人識別,也稱聲紋(Voiceprint)識別,是一種利用說話人的語音特征進(jìn)行身份辨認(rèn)或確認(rèn)的技術(shù),屬于生物識別技術(shù)的一種。它的原理是通過分析處理說話人的語音信號,提取出包含在其中的個(gè)性因素,如發(fā)音器官和發(fā)音習(xí)慣的差異,從而將不同人的聲音進(jìn)行有效區(qū)分。在實(shí)際應(yīng)用中,說話人識別可以分為說話人確認(rèn)和說話人辨認(rèn)兩個(gè)應(yīng)用范疇。說話人識別的理論基礎(chǔ)是每一個(gè)聲音都具有獨(dú)特的特征,通過該特征能將不同人的聲音進(jìn)行有效的區(qū)分。這種獨(dú)特的特征主要由兩個(gè)因素決定,第一個(gè)是聲腔的尺寸,具體包括咽喉、鼻腔和口腔等,這些器官的形狀、尺寸和位置決定了聲帶張力的大小和聲音頻率的范圍。因此不同的人雖然說同樣的話,但是聲音的頻率分布是不同的,聽起來有的低沉有的洪亮。每個(gè)人的發(fā)聲腔都是不同的,就像指紋一樣,每個(gè)人的聲音也就有獨(dú)特的特征。第二個(gè)決定聲音特征的因素是發(fā)聲器官被操縱的方式,發(fā)聲器官包括唇、齒、舌、軟腭及腭肌肉等,他們之間相互作用就會產(chǎn)生清晰的語音。而他們之間的協(xié)作方式是人通過后天與周圍人的交流中隨機(jī)學(xué)習(xí)到的。人在學(xué)習(xí)說話的過程中,通過模擬周圍不同人的說話方式,就會逐漸形成自己的聲紋特征。說話人識別與語音識別從目的上看,說話人識別是通過分析處理說話人的語音信號,提取出包含在其中的個(gè)性因素,如發(fā)音器官和發(fā)音習(xí)慣的差異,從而進(jìn)行身份鑒別與認(rèn)證。而語音識別技術(shù)的目標(biāo)則是將人類語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,即讓機(jī)器“聽懂”人類口述的語言,包括理解口述語言中的要求或詢問并做出正確響應(yīng)。從原理上看,說話人識別是基于聲紋識別的一種生物識別技術(shù),通過分析語音信號中的個(gè)性因素來識別說話人的身份。而語音識別則是將語音信號轉(zhuǎn)變?yōu)槲谋?,然后將理解轉(zhuǎn)變?yōu)橹噶畹募夹g(shù)。里程碑5:說話人識別之GMM高斯混合模型(GaussianMixtureModel,GMM)是一種概率模型,它假設(shè)數(shù)據(jù)集是由多個(gè)高斯分布混合而成的。每個(gè)高斯分布被稱為一個(gè)“成分”或“簇”,由其均值(mean)和協(xié)方差(covariance)定義。在說話人識別任務(wù)中,GMM通過訓(xùn)練為每個(gè)目標(biāo)說話人語音建立一個(gè)特征模型,再通過匹配處理來獲得最終的識別結(jié)果。在語音識別任務(wù)中,GMM也可以與HMM結(jié)合來提高語音識別的準(zhǔn)確性。GMM說話人識別在說話人識別中,GMM的核心設(shè)定是將每個(gè)說話人的音頻特征用一個(gè)高斯混合模型來表示。這種設(shè)定基于一個(gè)直觀的理解:每個(gè)說話人的聲紋特征可以分解為一系列簡單的發(fā)音子概率分布,這些子概率分布可以近似的認(rèn)為是正態(tài)分布(高斯分布)。GMM如需要訓(xùn)練出每個(gè)說話人的聲音模型,因此需要大量的訓(xùn)練數(shù)據(jù)和時(shí)間成本。此外,如果針對開集新人員進(jìn)行識別,需要重新訓(xùn)練模型,限制了GMM實(shí)用性。GMM-UBM(高斯混合模型-通用背景模型)主要用于開集的說話者辨認(rèn)。UBM是從大量不同的說話人的背景數(shù)據(jù)中訓(xùn)練而來的,用于建模整個(gè)數(shù)據(jù)集中存在的變異性。然后,通過使用UBM的信息,對特定說話者的GMMs進(jìn)行調(diào)整以更好地匹配其特征。UBM不會受到訓(xùn)練數(shù)據(jù)不足以及隱性數(shù)據(jù)(unseendata)的影響。Lecture11ContentsReview
ofLecture10語音合成之PSOLA語音壓縮之MP3技術(shù)說話人識別之GMM語音通用深度神經(jīng)網(wǎng)絡(luò)6語音大模型之Whisper音頻語音信息處理7個(gè)里程碑之6語音合成基音同步疊加算法1990語音壓縮MP31991語音特征分析梅爾頻率倒譜系數(shù)1980語音識別隱馬爾可夫模型1980s說話人識別高斯混合模型1993語音通用深度神經(jīng)網(wǎng)絡(luò)2014語音大模型Whisper2022里程碑6:語音通用深度神經(jīng)網(wǎng)絡(luò)語音通用深度神經(jīng)網(wǎng)絡(luò)(通常簡稱為語音深度神經(jīng)網(wǎng)絡(luò)或DNN)是深度學(xué)習(xí)領(lǐng)域中的一種模型,專門用于處理和分析語音數(shù)據(jù)。這些網(wǎng)絡(luò)利用大量的參數(shù)和復(fù)雜的結(jié)構(gòu)來捕獲語音信號中的復(fù)雜模式,并在各種語音處理任務(wù)中取得顯著的效果。DNN可以與HMM結(jié)合,DNN學(xué)習(xí)特征表示和預(yù)測HMM中的狀態(tài)轉(zhuǎn)移概率,而HMM則描述語音信號的時(shí)序結(jié)構(gòu)和狀態(tài)轉(zhuǎn)移關(guān)系。DNN-HMM模型使用深度神經(jīng)網(wǎng)絡(luò)對語音信號進(jìn)行特征提取和轉(zhuǎn)換,并輸入到HMM中進(jìn)行建模和解碼,提高語音識別的性能。語音通用深度神經(jīng)網(wǎng)絡(luò)RNN循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)是一種專門用來處理序列數(shù)據(jù)的通用深度神經(jīng)網(wǎng)絡(luò)。與傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)不同,RNN能夠處理變長的序列輸入,這使得它在處理諸如語言文本、時(shí)間序列數(shù)據(jù)、語音信號等連續(xù)數(shù)據(jù)時(shí)表現(xiàn)出色。語音處理領(lǐng)域中,RNN在語音處理的廣泛應(yīng)用的出現(xiàn)標(biāo)志著語音識別等語音通用任務(wù)進(jìn)入了深度學(xué)習(xí)時(shí)代。RNN語音處理RNN通過引入循環(huán)連接,使得每個(gè)時(shí)間步的輸出不僅取決于當(dāng)前的輸入,還取決于之前的隱藏狀態(tài)。這種機(jī)制使得RNN能夠捕捉序列數(shù)據(jù)中的上下文信息和時(shí)序依賴關(guān)系,從而在處理語音信號時(shí)具有優(yōu)勢。在語音識別方面,RNN模型通常接收語音信號的聲學(xué)特征序列作為輸入,如MFCC(Mel頻率倒譜系數(shù))等。然后,RNN通過迭代計(jì)算每個(gè)時(shí)間步的隱藏狀態(tài)和輸出,將語音信號轉(zhuǎn)換為對應(yīng)的文本序列。同時(shí)基于注意力機(jī)制的RNN模型能夠自動關(guān)注重要的語音片段,并忽略無關(guān)的信息。在語音合成方面,RNN模型可以接收文本序列作為輸入,并生成對應(yīng)的語音信號。這通常涉及到使用RNN來建模文本到語音的映射關(guān)系,并通過生成算法來合成語音。同時(shí),基于序列生成模型的RNN方法可以提高語音的自然度和流暢性,能夠生成更加逼真的語音信號RNN還可以結(jié)合其他通用深度學(xué)習(xí)模型來提高性能使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來提取語音信號的局部特征,并將其作為RNN的輸入。使用雙向RNN(Bi-RNN)或長短期記憶網(wǎng)絡(luò)(LSTM)等改進(jìn)版的RNN模型來增強(qiáng)對長序列的建模能力,進(jìn)一步提高語音處理的性能。Lecture11ContentsReview
ofLecture10語音合成之PSOLA語音壓縮之MP3技術(shù)說話人識別之GMM語音通用深度神經(jīng)網(wǎng)絡(luò)6語音大模型之Whisper音頻語音信息處理7個(gè)里程碑之7語音合成基音同步疊加算法1990語音壓縮MP31991語音特征分析梅爾頻率倒譜系數(shù)1980語音識別隱馬爾可夫模型1980s說話人識別高斯混合模型1993語音通用深度神經(jīng)網(wǎng)絡(luò)2014語音大模型Whisper2022里程碑7:語音大模型之WhisperWhisper模型是2022年OpenAI公司開發(fā)的一種的基于Transformer模型的預(yù)訓(xùn)練端到端模型,它集成了多語種ASR、語音翻譯、語種識別的功能。在預(yù)處理階段,它使用25毫秒的窗口和10毫秒的步幅計(jì)算80通道的logMel譜圖表示。在訓(xùn)練階段,超過68萬小時(shí)的標(biāo)記多語言和多任務(wù)監(jiān)督訓(xùn)練數(shù)據(jù)使其能夠適應(yīng)不同的口音、背景噪音和技術(shù)術(shù)語。在識別階段,Whisper模型使用的CTC(ConnectionistTemporalClassification)解碼算法將神經(jīng)網(wǎng)絡(luò)輸出的概率分布映射到最可能的文本序列。在后處理階段,它通過語言模型糾正拼寫糾錯(cuò),進(jìn)一步提高識別準(zhǔn)確率,其轉(zhuǎn)譯效果已經(jīng)接近人類專家。ASR與TTS的端到端模型傳統(tǒng)的語音識別ASR系統(tǒng)需要首先提取聲學(xué)特征,語音或者音素特征,語音統(tǒng)計(jì)特征構(gòu)建聲學(xué)模型/語言模型/語音模型3個(gè)步驟。傳統(tǒng)的語音生成TTS系統(tǒng)需要構(gòu)建文本分析,聲學(xué)模型,語音合成幾個(gè)步驟。這些步驟需要大量的行業(yè)知識。端到端的技術(shù)將以上的每個(gè)步驟直
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025屆春季中國融通集團(tuán)校園招聘模擬試卷及答案詳解(名校卷)
- 未載有消費(fèi)者權(quán)益保護(hù)承諾書5篇
- 教室里的那一幕記敘文13篇
- 家庭裝飾美化承諾書6篇
- 2025年蕪湖安徽工程大學(xué)碩士專職輔導(dǎo)員招聘8人考前自測高頻考點(diǎn)模擬試題及參考答案詳解一套
- 2025河南省中醫(yī)院(河南中醫(yī)藥大學(xué)第二附屬醫(yī)院)招聘博士研究生64人模擬試卷及答案詳解(考點(diǎn)梳理)
- 企業(yè)員工發(fā)展目標(biāo)設(shè)置及跟進(jìn)模板
- 2025廣西梧州學(xué)院高層次人才引進(jìn)考前自測高頻考點(diǎn)模擬試題及一套答案詳解
- 我和動物的故事作文(8篇)
- 2025廣東佛山市中心血站南海血站招聘公益一類事業(yè)編制工作人員2人考前自測高頻考點(diǎn)模擬試題附答案詳解(考試直接用)
- 六年級道德與法治上冊 (公民意味著什么)新課件
- 短視頻創(chuàng)作PPT完整全套教學(xué)課件
- 2023年中國出版集團(tuán)公司集團(tuán)總部招聘考試題庫及答案
- 民用航空航行情報(bào)工作規(guī)則
- 初中物理-初三物理模擬試卷講評課教學(xué)課件設(shè)計(jì)
- 電力監(jiān)控系統(tǒng)安全分區(qū)一覽表及安全防護(hù)總體邏輯結(jié)構(gòu)示意圖
- GB 16325-2005干果食品衛(wèi)生標(biāo)準(zhǔn)
- FZ/T 73001-2016襪子
- 曾奇峰精神分析初級50講講義
- 卡爾曼(Kalman)濾波課件
- 非居民金融賬戶涉稅信息盡職調(diào)查管理辦法專題培訓(xùn)廣州課件
評論
0/150
提交評論