




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
《數(shù)據(jù)標(biāo)注實訓(xùn)》課程教案課題:語音合成——拼音停頓標(biāo)注教學(xué)目的:認(rèn)識語音合成技術(shù)及其中的標(biāo)注類型,了解拼音停頓標(biāo)注在語音合成中的地位。熟練掌握拼音停頓標(biāo)注規(guī)范,通過案例分析掌握標(biāo)注技巧,能準(zhǔn)確進(jìn)行拼音停頓標(biāo)注。課型:新授課課時:本章安排8個課時。教學(xué)重點:重點:認(rèn)識語音合成技術(shù)及其中的標(biāo)注類型,了解拼音停頓標(biāo)注在語音合成中的地位。教學(xué)難點:難點:熟練掌握拼音停頓標(biāo)注規(guī)范,通過案例分析掌握標(biāo)注技巧,能準(zhǔn)確進(jìn)行拼音停頓標(biāo)注。教學(xué)過程:教學(xué)形式:講授課,教學(xué)組織采用課堂整體講授和分組演示。教學(xué)媒體:采用啟發(fā)式教學(xué)、案例教學(xué)等教學(xué)方法。教學(xué)手段采用多媒體課件、視頻等媒體技術(shù)。板書設(shè)計:本課標(biāo)題語音合成——拼音停頓標(biāo)注課次4授課方式理論課□討論課□習(xí)題課□其他□課時安排8學(xué)分共2分授課對象普通高等院校學(xué)生任課教師教材及參考資料1.《數(shù)據(jù)標(biāo)注實訓(xùn)》;電子工業(yè)出版社。2.本教材配套視頻教程及學(xué)習(xí)檢查等資源。3.與本課程相關(guān)的其他資源。教學(xué)基本內(nèi)容教學(xué)方法及教學(xué)手段課程引入語音合成技術(shù)讓機(jī)器能夠“開口說話”,為人們帶來便捷的交互體驗。而拼音停頓標(biāo)注在其中起著關(guān)鍵作用,影響著語音合成的自然度與流暢度。從有聲讀物到智能語音助手,本章將深入語音合成中的拼音停頓標(biāo)注,探索讓機(jī)器語音更“人性化”的奧秘。參考以下形式:1.銜接導(dǎo)入2.懸念導(dǎo)入3.情景導(dǎo)入4.激疑導(dǎo)入5.演示導(dǎo)入6.實例導(dǎo)入7.其他形式5.1認(rèn)識語音合成及其相關(guān)標(biāo)注類型語音合成是語音智能的主要技術(shù)方向之一,目前也是人工智能領(lǐng)域較為成熟的技術(shù),在諸多場景中都得到了廣泛的應(yīng)用。例如,個性化的明星導(dǎo)航,仿佛讓我們離自己的偶像更近;又如,數(shù)字電臺的智能播音不僅打破了AI與播音員的界限,而且激發(fā)了AI時代廣播行業(yè)的無限可能。類似的場景,似乎使我們的生活充滿了奇幻。與其他AI技術(shù)一樣,語音合成技術(shù)的落地也遵循著人工智能技術(shù)的定律,即離不開數(shù)據(jù)標(biāo)注。本節(jié)將詳細(xì)介紹語音合成技術(shù)及其應(yīng)用所需的數(shù)據(jù)標(biāo)注類型。5.1.1語音合成技術(shù)語音合成(TTS)技術(shù)與自動語音識別(ASR)的研究方向恰好相對。語音合成技術(shù)是將文字轉(zhuǎn)化為語音的一種技術(shù)。這種技術(shù)類似于給機(jī)器安上了嘴巴,通過不同的音色、方式等說出想要表達(dá)的內(nèi)容。語音合成技術(shù)也有前后端之分。前端的主要任務(wù)是進(jìn)行語音分析,也就是根據(jù)輸入的文字信息進(jìn)行分析,按照語言學(xué)的邏輯特點解決如何讀的問題。常見的工作內(nèi)容包括文本結(jié)構(gòu)分析與語種判斷、文本標(biāo)準(zhǔn)化判斷、文本音素轉(zhuǎn)換、句讀韻律分析等。后端的主要任務(wù)是解決發(fā)聲問題,也就是根據(jù)語音分析的結(jié)果生成對應(yīng)的音頻。語音合成的方式有多種,常見的有按照音節(jié)進(jìn)行拼接;通過數(shù)學(xué)方法進(jìn)行頻譜特性參數(shù)建模,生成參數(shù)合成器;以及通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)實現(xiàn)端到端的合成等。語音合成技術(shù)雖看似簡單且容易理解,但其也存在亟待攻關(guān)的技術(shù)難點。這些技術(shù)難點目前主要集中在情感表達(dá)、擬人及定制化等方面。通過日??山佑|到的智能語音客服等場景不難發(fā)現(xiàn),當(dāng)前的語音合成機(jī)器人在情緒、停頓、氣息、對話流暢度、定制聲音等方面尚無法達(dá)到與真人一樣自然、真實且聽感舒適的程度。針對這些問題的攻堅克難,語音合成技術(shù)還有很長的路要走。任何AI技術(shù)都有評價指標(biāo),語音合成也不例外。語音合成產(chǎn)品的評價主要包括效果和性能。效果,即與發(fā)音本身相關(guān)的特征情況。例如,音色、情緒、語氣等。效果的評價通常以mos值為指標(biāo),這也是行業(yè)內(nèi)普遍認(rèn)可的方式。mos值是指聘請業(yè)內(nèi)專家,對合成的音頻效果進(jìn)行打分,分值范圍為1~5分,通過平均計算得到最后的分?jǐn)?shù)。語音合成產(chǎn)品效果的評價還可以通過ABX測評(合成效果對比性測試)進(jìn)行?;静僮髟硎沁x擇相同的文本及相同場景下的音色,使用不同的TTS系統(tǒng)合成,對比哪個合成效果更好。雖然是人為主觀判斷,但依然具有一定的參考性。語音合成產(chǎn)品另一個需要評價的要點是性能,主要包括實時率(文字合成語音所需的時間與合成音頻時長的比值)、首段音頻的傳回時間、線數(shù)、每秒合成字?jǐn)?shù)等。目前,語音合成技術(shù)已經(jīng)可以滿足市場上大部分需求,但在不同的場景下也會不可避免地出現(xiàn)問題。為了解決這些問題,研究者也在進(jìn)行大量嘗試,如力求使語音合成模型具有自我糾錯和學(xué)習(xí)的能力。這些努力也為未來的產(chǎn)品設(shè)計提供了方向。1335.1.2語音合成技術(shù)中的標(biāo)注類型語音合成技術(shù)的落地應(yīng)用需要大量的數(shù)據(jù)標(biāo)注工作支持。語音合成涉及的工作內(nèi)容繁多,其中需要的標(biāo)注類型主要有以下4種。(1)拼音音調(diào)標(biāo)注。即按照音頻中的發(fā)音情況標(biāo)注每個字的拼音和音調(diào)。在拼音音調(diào)標(biāo)注中,音調(diào)通常包括1、2、3、4聲和輕聲,但在方言中,也可能會存在特有的其他聲調(diào),所以在標(biāo)注過程中,通常需要特別關(guān)注因地域差異導(dǎo)致的變音、變調(diào)等情況。例如,將“我”標(biāo)注成“wo3”,在陜西方言中,將“我”讀音寫成“e3”等。拼音音調(diào)標(biāo)注樣式如圖5-1所示。(2)停頓韻律標(biāo)注。即按照音頻中的發(fā)音節(jié)奏來標(biāo)注停頓時間的長短。停頓一般包括長停頓、中長停頓、短停頓及結(jié)尾停頓。需要注意的是,停頓韻律標(biāo)注并非簡單地按照停頓時長來標(biāo)注,而是需要在標(biāo)注過程中充分考慮同類音頻及說話人本身的韻律特點,從而動態(tài)判斷停頓類別。(3)情感語氣標(biāo)注。即按照音頻中說話人的語氣標(biāo)注情感語氣類別,如平靜、開心、悲傷、憤怒、感嘆等。情感語氣標(biāo)注樣式如圖5-3所示。(4)其他標(biāo)注。語音合成標(biāo)注還包括許多其他類型,如音頻角色、音頻逼134語音合成——拼音停頓標(biāo)注真度、是否真人發(fā)音、音頻是否可用等,這里不再進(jìn)行詳細(xì)介紹。情感語氣標(biāo)注樣式對于語音合成技術(shù)下的標(biāo)注任務(wù),需要明確的是,想成為一名優(yōu)秀的標(biāo)注人員并非易事。當(dāng)同一種任務(wù)類型應(yīng)用于不同場景時,其規(guī)則通常會發(fā)生細(xì)微變化,這就需要我們不斷探索,并深刻理解場景,進(jìn)行周密思考。接下來將以拼音停頓標(biāo)注為例來進(jìn)行實戰(zhàn)講解。5.2拼音停頓標(biāo)注實戰(zhàn)為了使學(xué)習(xí)者能夠盡快理解標(biāo)注目標(biāo),本節(jié)以較為基礎(chǔ)的普通話拼音停頓標(biāo)注為例進(jìn)行講解。需要說明的是,本實戰(zhàn)任務(wù)僅為了使學(xué)習(xí)者了解拼音停頓標(biāo)注的基本操作步驟及方法,所以本規(guī)范僅代表當(dāng)前實戰(zhàn)任務(wù)的需求,并不能代表所有拼音停頓標(biāo)注任務(wù)。針對特定場景下的任務(wù)需求,還需要根據(jù)實際情況進(jìn)行安排和討論。5.2.1拼音停頓標(biāo)注規(guī)范(一)任務(wù)目標(biāo)給目標(biāo)文本、拼音分別增加停頓和音調(diào)等標(biāo)簽,使得文本、拼音的內(nèi)容與對應(yīng)的音頻做到:拼音與音頻中的發(fā)音一致、停頓與音頻中讀的停頓一致。其中,文本模塊打?qū)?yīng)的停頓標(biāo)簽;拼音模塊打?qū)?yīng)的音調(diào)標(biāo)簽。(二)基本標(biāo)注原則(1)文本停頓及拼音的標(biāo)注要與音頻一致,音頻中將這個讀成“zhei4ge5”,拼音預(yù)處理結(jié)果應(yīng)用“zhei4”,不應(yīng)算作預(yù)處理錯誤。(2)本任務(wù)將一條音頻的轉(zhuǎn)寫結(jié)果視為一句,只在末尾加^4,因此即使是句子中間有句號也不能加^4(使用^3代替)。(3)如果文本中出現(xiàn)兒化音,對應(yīng)的拼音與前面的文字合并出現(xiàn),音調(diào)應(yīng)標(biāo)在“××+er”后。例如,“好玩兒”對應(yīng)的拼音及其標(biāo)注結(jié)果應(yīng)該是“hao3waner2”。(4)當(dāng)遇到兒化音時,拼音模塊的音調(diào)標(biāo)簽應(yīng)該在兒化音后。(5)當(dāng)多個發(fā)音為三聲的字連讀時,會產(chǎn)生變音(三聲轉(zhuǎn)為二聲),要確保拼音中的變音正確。當(dāng)音頻語音與變音規(guī)則不符時,以音頻中的發(fā)音為準(zhǔn)。(6)停頓標(biāo)簽要遵循語音中的實際停頓來標(biāo)注。(三)具體說明(1)音調(diào)標(biāo)簽類別(2)停頓標(biāo)簽類別四)注意事項(1)^1標(biāo)簽一般標(biāo)注在句中不明顯的停頓處,除短停頓的形容詞、副詞、名詞等詞語需要標(biāo)注^1外,一些連詞、介詞等單個字后即使與其他詞語連接后也需要標(biāo)注^1。(2)停頓標(biāo)注最重要的地方就是中長停頓,請仔細(xì)聽音頻,當(dāng)碰到明顯的停頓,停的時間又不是很長時,標(biāo)注為^2。(3)^3停頓的長度,基本上屬于在讀句子時遇到逗號的停頓長度。(4)如果發(fā)現(xiàn)句子的結(jié)尾沒有^4,則需要加上。(5)如果文本中有標(biāo)點,則停頓標(biāo)注在標(biāo)點的前面。(6)初始文本中每個字及每組拼音都用空格隔開,標(biāo)點前面無空格。注意在需要標(biāo)注的文字及拼音組后面添加標(biāo)簽,不要在空格或標(biāo)點后面添加標(biāo)簽。例如,“在^1家里^3”不要標(biāo)注為“在^1家里^3”。以上參考示例見教材配套音頻1:該鐘^1重^1約^1十四噸^3,每走^1一小時^2就^1發(fā)出^1深沉^1鏗鏘的^1報時聲^3,裊裊余音^2遙遠(yuǎn)^1可聞^4。(7)兒化音在拼音中會與前面的文字合并出現(xiàn)。例如,“一點兒”拼音為“yi4dianer3”。正常的單獨的“兒”字拼音不變。例如,“我的兒子學(xué)習(xí)好”拼音為“wo3de5er2zi5xue2xi2hao3”。(五)系統(tǒng)使用本實訓(xùn)任務(wù)通過數(shù)據(jù)標(biāo)注實訓(xùn)平臺完成。本規(guī)范僅對進(jìn)入實訓(xùn)任務(wù)的步驟及具體的頁面操作過程進(jìn)行講解。本實訓(xùn)任務(wù)從登錄系統(tǒng)后到一條任務(wù)完成的操作流程及步驟如下。1.進(jìn)入任務(wù)實施頁面(1)進(jìn)入實訓(xùn)練習(xí)頁面。當(dāng)前實訓(xùn)平臺已將該頁面設(shè)置為學(xué)員端默認(rèn)首頁,因此登錄系統(tǒng)后選擇“高級數(shù)據(jù)標(biāo)注”選項,即可自動進(jìn)入實訓(xùn)練習(xí)頁面,如圖5-4所示。(2)進(jìn)入拼音停頓標(biāo)注任務(wù)列表頁面。進(jìn)入實訓(xùn)練習(xí)頁面后,單擊頁面上拼音停頓標(biāo)注模塊下的“進(jìn)入學(xué)習(xí)”鏈接,如圖5-5所示,進(jìn)入拼音停頓標(biāo)注任務(wù)列表頁面。(3)進(jìn)入拼音停頓標(biāo)注實施頁面。在拼音停頓標(biāo)注任務(wù)列表頁面中單擊任意一個任務(wù)模塊下的“進(jìn)入學(xué)習(xí)”按鈕,如圖5-6所示,進(jìn)入拼音停頓標(biāo)注實施頁面,如圖5-7所示。138139第5章語音合成——拼音停頓標(biāo)注圖5-6單擊“進(jìn)入學(xué)習(xí)”按鈕圖5-7拼音停頓標(biāo)注實施頁面拼音停頓標(biāo)注實施頁面大致可以分為3個區(qū):黃色線框的音頻操作區(qū)包括待轉(zhuǎn)寫音頻的“回跳”、“播放”、“重置”與“后跳”等按鈕;綠色線框的任務(wù)列表區(qū)呈現(xiàn)的是待完成的題目;紅色線框的標(biāo)注實施區(qū)包括音頻所對應(yīng)的文本標(biāo)注區(qū)和拼音標(biāo)注區(qū)、標(biāo)簽工具、規(guī)范查看,以及結(jié)果的保存與提交等。2.標(biāo)注頁面操作詳解在本任務(wù)中,如果想要針對一個題完成標(biāo)注操作,則需要用到以下按鈕和步驟,按順序說明如下。(1)標(biāo)注任務(wù)領(lǐng)取。(2)“回跳”按鈕、“播放”按鈕、“后跳”按鈕。(3)音頻重置。(4)文本及拼音標(biāo)注。(5)刪除標(biāo)記。(6)保存。(7)提交。(8)切換到下一題。(9)查看答案。(10)查看標(biāo)注規(guī)范。(六)標(biāo)注樣例5.2.2案例分析本節(jié)以“教材配套音頻3”為例,按照上述規(guī)范和標(biāo)準(zhǔn)進(jìn)行標(biāo)注練習(xí)和案例分析,如圖5-25所示。案例分析解析:我們可以先把文本部分進(jìn)行句子拆分,“不久/就/穩(wěn)定了/周朝/在/東方的/統(tǒng)治?!薄F渲?,“不久”有一個明顯的中長停頓,可以使用“^2”標(biāo)簽;“就”與前面“不久”連做副詞用,由于音頻停頓單獨標(biāo)為短停頓“^1”;“穩(wěn)定了”為名詞+助詞,連貫起來可以組在一起標(biāo)為短停頓;“周朝”為名詞,有明顯中長停頓標(biāo)記為“^2”;“在”為介詞,標(biāo)注為短停頓“^1”;“
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 十類化工考試試題及答案
- 復(fù)合函數(shù)試題及答案
- 新學(xué)員叉車考試試題及答案
- 北京窗簾布料知識培訓(xùn)課件
- 北京社保公積金知識培訓(xùn)課件
- 2025年廣豐區(qū)農(nóng)村高中學(xué)校教師區(qū)內(nèi)選調(diào)工作考試筆試試題(含答案)
- 2025年甘南事業(yè)單位招聘考試筆試試題(含答案)
- 2025年中式烹調(diào)師高級理論知識試題庫及答案
- 2024年山東省“安全生產(chǎn)月”知識考試試題含參考答案
- 《醫(yī)療器械質(zhì)量管理規(guī)范》試卷以及答案
- 固定資產(chǎn)編碼規(guī)則(范文)
- 數(shù)字經(jīng)濟(jì)學(xué)導(dǎo)論-完整全套課件
- MissionPlanner地面站操作使用文檔
- 中級采氣工操作技能鑒定要素細(xì)目表
- 油水氣井帶壓井作業(yè)操作規(guī)程及工藝技術(shù)要求
- (33)-鈉鉀泵細(xì)胞生物學(xué)
- 配電室巡檢記錄表
- GB/T 242-2007金屬管擴(kuò)口試驗方法
- 政治理論水平任職資格考試題庫
- 路基壓實度匯總表
- 【食品生產(chǎn)加工技術(shù)】香腸的加工技術(shù)
評論
0/150
提交評論