大模型概念、技術與應用實踐 課件 第10章 語音類AIGC應用實踐_第1頁
大模型概念、技術與應用實踐 課件 第10章 語音類AIGC應用實踐_第2頁
大模型概念、技術與應用實踐 課件 第10章 語音類AIGC應用實踐_第3頁
大模型概念、技術與應用實踐 課件 第10章 語音類AIGC應用實踐_第4頁
大模型概念、技術與應用實踐 課件 第10章 語音類AIGC應用實踐_第5頁
已閱讀5頁,還剩25頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

大模型概念、技術與應用實踐第10章

語音類AIGC應用實踐目錄10.1語音類AIGC應用場景10.2案例1:豆包大模型的語音類功能用法10.3案例2:使用騰訊智影進行文本配音10.4案例3:使用米可智能進行語音克隆10.1語音類AIGC應用場景10.1語音類AIGC應用場景應用場景01智能語音助手07智能駕駛艙與車載語音助手02智能客服06語音分析與情感識別03語音合成與轉(zhuǎn)換05語音翻譯04虛擬人物與數(shù)字人10.2案例1:豆包大模型的語音類功能用法10.2案例1:豆包大模型的語音類功能用法一般情況下,普通用戶在手機上使用語音類AIGC大模型的場景比較多,因此,這里介紹手機版豆包的使用方法。在智能手機上下載并安裝“豆包APP”。啟動進入豆包APP,會出現(xiàn)如圖所示的對話界面,按住“語音按鈕”(圖中箭頭指向的位置)不要松開,然后就可以對著手機說話,把自己的需求說出來,比如,可以說“請介紹一下廈門大學”,然后松開“語音按鈕”,豆包就可以立即開始回答你提出的問題。豆包可以支持實時翻譯,你可以語音輸入“廈門大學的英文名稱是什么”,豆包會馬上給出翻譯結果。10.2案例1:豆包大模型的語音類功能用法豆包不僅支持語音輸入,也可以支持文字輸入,只要在文字輸入框內(nèi)輸入提示詞,豆包就會給出回答。豆包也支持AI繪圖功能,你可以用手指點擊圖左所示界面左上角的“<”按鈕,進入“對話”頁面,在頁面中點擊“AI圖片生成”按鈕,然后輸入提示詞,比如通過文字或者語音輸入“請幫我繪制一張圖片,一個9歲的小女孩在海邊沙灘上玩沙子”,然后,豆包就會自動繪制生成滿足你要求的圖片,并且可以把圖片保存到手機中。豆包還有一個很實用的功能,就是可以幫助你進行英語口語對話練習。你可以用手指點擊圖7-10所示界面左上角的“<”按鈕,進入“對話”頁面(如圖左所示),在頁面中選擇“英語口語聊天搭子”就可以進入英語口語聊天界面(如圖右所示),按住界面右下角的“語音按鈕”,就可以開始用英語語音聊天了,你說完一句英語,松開語音按鈕,豆包就會自動用英語語音回答你,然后你可以繼續(xù)輸入語音進行后續(xù)對話。10.3案例2:使用騰訊智影進行文本配音10.3案例2:使用騰訊智影進行文本配音這里借助騰訊智影創(chuàng)作工具,將文本內(nèi)容自動轉(zhuǎn)換為高質(zhì)量的音頻輸出。步驟1:登錄騰訊智影平臺。在瀏覽器地址欄中輸入網(wǎng)址“/”,進入“騰訊智影”平臺,如圖所示。點擊登錄,可使用微信登錄、手機號登錄或QQ登錄,任選一種方式登錄,也可以選擇“賬號密碼”登錄,按照提示完成賬號的創(chuàng)建。10.3案例2:使用騰訊智影進行文本配音步驟2:輸入文本內(nèi)容。登錄后,在平臺的首頁,找到“文本配音”的工具入口,如圖所示。10.3案例2:使用騰訊智影進行文本配音點擊“文本配音”,開始一個文本轉(zhuǎn)音頻的任務。在頁面中(如圖所示),有一個文本輸入框,最高支持8000字以內(nèi)的文本配音。10.3案例2:使用騰訊智影進行文本配音在此處可以選擇粘貼或輸入你想要轉(zhuǎn)換成音頻的文本內(nèi)容(如圖所示),也可以通過導入文件的方法來輸入文本內(nèi)容,導入的文件支持doc、docx和txt等多種格式。需要注意的是,要確保文本內(nèi)容清晰、準確,符合創(chuàng)作需求。10.3案例2:使用騰訊智影進行文本配音步驟3:選擇音色。在文本輸入完成后,在左側(cè)工具欄點擊“選擇音色”,進入全部主播的音色界面,如圖所示,可以點擊“全部場景”菜單里的不同場景,選擇合適的音色和配音主播,也可以通過音色搜索框來搜索適配的音色,用這個音色完成配音。10.3案例2:使用騰訊智影進行文本配音其中,在音色場景的功能選擇里,支持的場景包括但不限于對話閑聊、新聞資訊、影視綜藝、知識科普、游戲動漫、生活vlog和紀錄片等等,而且可以支持多語種配音。點擊每種音色的主播配音進行試聽,聆聽不同風格的音頻樣本,根據(jù)需求選擇最合適的音色。本次配音我們選擇“熱門”場景中的“康哥-親切中正青年男音”,來為本段文本配音,如圖所示。同時,可以根據(jù)需要在文本框上方工具欄,調(diào)整主播語速、音量等參數(shù),來滿足文本配音需求。

需要特別說明的是,部分VIP主播的音色,需要充值或者成為會員才可以使用,這里選擇非VIP主播音色,可以免費配音。10.3案例2:使用騰訊智影進行文本配音步驟4:試聽與微調(diào)。選擇確認好音色后,點擊文本框下方的“試聽”按鈕,試聽配音效果,并可以對“停頓”、“局部變速”、“詞組連讀”、“多音字”、“發(fā)音替換”等參數(shù)進行微調(diào),讓配音效果更加生動,如圖所示。10.3案例2:使用騰訊智影進行文本配音步驟5:添加配樂。如圖所示,點擊文本框左方的“添加配樂”按鈕,為文本添加配樂,并調(diào)整背景音樂的音量大小到合適音量。10.3案例2:使用騰訊智影進行文本配音步驟6:生成并下載音頻。調(diào)整完配音參數(shù)和添加完配樂后,點擊“生成音頻”按鈕(如圖所示),即可完成音頻的生成。10.3案例2:使用騰訊智影進行文本配音音頻生成完成后,如圖所示。10.3案例2:使用騰訊智影進行文本配音可以點擊“剪刀圖標”,在彈出的界面(如圖所示)中進行在線音頻剪輯,或者,也可以直接點擊“下載”按鈕,下載MP3格式的音頻文件。最后,播放生成的音頻文件,檢查音質(zhì)和內(nèi)容是否符合預期。如有需要,可以根據(jù)需求調(diào)整文本或音色風格,重新生成。10.4案例3:使用米可智能進行語音克隆10.4案例3:使用米可智能進行語音克隆這里使用米可智能AI創(chuàng)作工具,實現(xiàn)聲音克隆,定制專屬音色,并使用定制音色將文本內(nèi)容自動轉(zhuǎn)換為高質(zhì)量的音頻輸出。步驟1:登錄米可智能平臺。在瀏覽器地址欄中輸入網(wǎng)址“/”,進入“米可智能”平臺,如圖所示。點擊“登錄/注冊”,可使用微信掃碼登錄或手機號登錄,任選一種方式登錄即可,登錄成功后,點擊“免費試用”按鈕,進入“AI創(chuàng)作音視頻”功能界面。10.4案例3:使用米可智能進行語音克隆步驟2:上傳音頻素材。進入“AI創(chuàng)作音視頻”功能界面后,在功能界面找到“聲音克隆”的工具入口,如圖所示,點擊“聲音克隆”,開始定制個性化的音色。10.4案例3:使用米可智能進行語音克隆在頁面中(如圖所示),選擇“即時克隆”,在“音色名稱”下方文本框中輸入音色名稱,然后,上傳音視頻或直接錄音,要確保只包含1個目標音色,發(fā)音清晰、流暢;針對有背景音的文件,AI將智能去除背景音、并進行降噪處理,所以,并不需要單獨去消除背景音。10.4案例3:使用米可智能進行語音克隆需要特別說明的是,如果是選擇上傳音視頻的方式,上傳的音視頻文件大小不要超過100MB,可以上傳主流的音視頻格式文件,如mp3、wav、m4a、mp4等;如果是選擇上傳錄音的方式,需要根據(jù)例句進行朗讀,朗讀5-10秒,平臺會根據(jù)真人音色,對情感、語調(diào)進行克隆。這里采用上傳音頻的方式定制音色,請?zhí)崆皩浿坪玫囊纛l保存到本地(可以從教材官網(wǎng)下載音頻文件“史鐵生《我與地壇》-音頻.m4a”),方便直接上傳。上傳后,如圖所示,選擇源文件語言“漢語”,然后點擊提交。10.4案例3:使用米可智能進行語音克隆步驟3:提交并完成音色克隆。提交后,任務將在云端后臺自動執(zhí)行,無需停留等待,僅需半分鐘左右即可完成音色的克隆。克隆音色也稱為聲音克隆或語音合成定制,是一種深度學習算法,它能夠接收個人的語音記錄,并合成一段與源說話人非常相似的語音,用戶只需要提供一段清晰的錄音,就可以克隆出自己的聲音??寺⊥瓿傻囊羯稍凇拔业囊羯表撁孢M行查看和管理,如圖所示。10.4案例3:使用米可智能進行語音克隆步驟4:使用克隆音色為文本配音。克隆成功的音色可直接應用于“視頻翻譯”和“AI配音”,每個克隆的音色都能支持15種國際主流語言。在平臺左側(cè)工具欄,選擇“創(chuàng)作空間”,進入主功能界面,點擊“AI配音”工具(如圖所示)。10.4案例3:使用米可智能進行語音克隆進入AI配音頁面(如圖所示),選擇“發(fā)音人”和“發(fā)音語言”,輸入“文本內(nèi)容”,為文本配音,這里選擇“發(fā)音人”為定制音色,“發(fā)音語言”為漢語,并輸入你想要配音的文本。10

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論