




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
單元3計(jì)算機(jī)視覺任務(wù)1執(zhí)行物體檢測(cè)物體檢測(cè)是自動(dòng)駕駛中感知環(huán)境的核心技術(shù)之一。在高速公路上,如果檢測(cè)到前方有汽車慢速行駛,自動(dòng)駕駛車輛會(huì)自動(dòng)變道超車。在城市道路上,如果檢測(cè)到行人靠近,會(huì)減速慢行,甚至停車讓行,確保行人安全通過自動(dòng)駕駛車輛能識(shí)別交通信號(hào)燈的顏色,并根據(jù)信號(hào)燈的指示調(diào)整行駛狀態(tài)。例如,紅燈時(shí)停車等待,綠燈時(shí)繼續(xù)行駛1.任務(wù)引入物體檢測(cè)是指在圖像或視頻中定位和識(shí)別特定物體,不僅要識(shí)別出物體是什么,還要準(zhǔn)確地標(biāo)出物體的位置和邊界框許多經(jīng)典的計(jì)算機(jī)視覺深度學(xué)習(xí)架構(gòu)最初都是在物體檢測(cè)任務(wù)中提出或得到重大改進(jìn)的,如R-CNN系列、YOLO系列、SSD等這些模型架構(gòu)不僅在物體檢測(cè)領(lǐng)域取得了巨大成功,也為其他計(jì)算機(jī)視覺任務(wù)如語義分割、實(shí)例分割等提供了重要的借鑒和思路,推動(dòng)了整個(gè)計(jì)算機(jī)視覺領(lǐng)域的發(fā)展2.知識(shí)準(zhǔn)備–物體檢測(cè)技術(shù)物體檢測(cè)是指在圖像或視頻中定位和識(shí)別特定物體,不僅要識(shí)別出物體是什么,還要準(zhǔn)確地標(biāo)出物體的位置和邊界框許多經(jīng)典的計(jì)算機(jī)視覺深度學(xué)習(xí)架構(gòu)最初都是在物體檢測(cè)任務(wù)中提出或得到重大改進(jìn)的,如R-CNN系列、YOLO系列、SSD等這些模型架構(gòu)不僅在物體檢測(cè)領(lǐng)域取得了巨大成功,也為其他計(jì)算機(jī)視覺任務(wù)如語義分割、實(shí)例分割等提供了重要的借鑒和思路,推動(dòng)了整個(gè)計(jì)算機(jī)視覺領(lǐng)域的發(fā)展2.知識(shí)準(zhǔn)備–物體檢測(cè)技術(shù)2.知識(shí)準(zhǔn)備–傳統(tǒng)的物體檢測(cè)方法傳統(tǒng)的物體檢測(cè)方法主要是滑動(dòng)窗口檢測(cè),這種方法是一種基于窮舉搜索的物體檢測(cè)方法,它的核心思想是通過在圖像上滑動(dòng)一個(gè)固定大小的窗口,對(duì)每個(gè)窗口內(nèi)的圖像區(qū)域進(jìn)行分類,判斷是否包含目標(biāo)物體DPM(可變形部件模型)是一種經(jīng)典的滑動(dòng)窗口物體檢測(cè)方法。該方法把每種物體看作是一個(gè)整體和若干個(gè)部分組成,整體和部分之間有類似于彈簧的連接,允許部分之間發(fā)生位置變形,以適應(yīng)物體形狀和姿態(tài)的變化2.知識(shí)準(zhǔn)備–R-CNN物體檢測(cè)方法1.輸入一張圖像;2.使用選擇性搜索方法生成約2000個(gè)候選區(qū)域;3.區(qū)域變換:將每個(gè)候選區(qū)域調(diào)整為固定大?。ㄈ?27x227),以適應(yīng)CNN的輸入;4.CNN對(duì)每個(gè)候選區(qū)域分類,先通過CNN的卷積層提取每個(gè)候選區(qū)域的特征,然后通過全連通層判斷候選區(qū)域中的物體類別2.知識(shí)準(zhǔn)備–YOLO物體檢測(cè)方法YOLO模型的輸入是一個(gè)圖像,輸出是一個(gè)一組檢測(cè)結(jié)果的矩陣。YOLO將輸入圖像劃分為一個(gè)S×S的網(wǎng)格,每個(gè)網(wǎng)格負(fù)責(zé)檢測(cè)中心落在該網(wǎng)格內(nèi)的目標(biāo)物體。每個(gè)網(wǎng)格預(yù)測(cè)B個(gè)不同大小的邊界框以及這些邊界框的置信度YOLO是一個(gè)端到端模型,通過將檢測(cè)問題轉(zhuǎn)化為回歸問題實(shí)現(xiàn)了實(shí)時(shí)檢測(cè)。YOLO的出現(xiàn)推動(dòng)了物體檢測(cè)技術(shù)的發(fā)展,激發(fā)了人們對(duì)單階段檢測(cè)模型的研究熱情。后續(xù)涌現(xiàn)出大量的YOLO變體,如YOLOv2、YOLOv3、YOLOv4、YOLOv5等自動(dòng)駕駛不同路況的圖像,高速公路和城市道路3.準(zhǔn)備素材圖像打開瀏覽器,進(jìn)入阿里云視覺智能開放平臺(tái),單擊右上角“登錄/注冊(cè)”4.執(zhí)行物體檢測(cè)“手機(jī)號(hào)+驗(yàn)證碼”,或者掃碼登錄4.執(zhí)行物體檢測(cè)登錄成功,回到視覺智能開放平臺(tái),單擊“能力體驗(yàn)”4.執(zhí)行物體檢測(cè)進(jìn)入能力體驗(yàn)界面,下拉右側(cè)滾動(dòng)條,定位到“物體檢測(cè)”,單擊它4.執(zhí)行物體檢測(cè)進(jìn)入物體檢測(cè)界面,下拉右側(cè)滾動(dòng)條,定位到“上傳圖像”,單擊它4.執(zhí)行物體檢測(cè)“文件上傳”窗口中,找到準(zhǔn)備好的素材圖像,單擊“打開”,執(zhí)行檢測(cè)4.執(zhí)行物體檢測(cè)單擊右下角“結(jié)果下載”,下載返回的代碼和檢測(cè)效果展示4.執(zhí)行物體檢測(cè)AI開放平臺(tái)提供的物體檢測(cè)功能主要供開發(fā)者使用。開發(fā)者編寫代碼通過調(diào)用AI開放平臺(tái)提供的API接口實(shí)現(xiàn)檢測(cè)。檢測(cè)結(jié)果是一組表示檢測(cè)框的位置、大小和物體類別及其置信度的數(shù)值。體驗(yàn)界面把這些檢測(cè)結(jié)果繪制到圖像上,使我們能夠直觀地體驗(yàn)物體檢測(cè)結(jié)果5.總結(jié)和實(shí)訓(xùn)任務(wù)總結(jié)準(zhǔn)備10個(gè)不同場(chǎng)景的圖像,在“物體檢測(cè)”體驗(yàn)界面逐一測(cè)試,并檢查檢測(cè)結(jié)果5.總結(jié)和實(shí)訓(xùn)實(shí)訓(xùn)任務(wù)任務(wù)2執(zhí)行圖像分割小李是一位服務(wù)電商店鋪的視覺設(shè)計(jì)師,今天她為即將上線的一款新款運(yùn)動(dòng)鞋制作一組吸睛的商品圖。然而,拍攝的原始圖片中背景雜亂,無法突出鞋子的獨(dú)特設(shè)計(jì)和質(zhì)感“如果將鞋子從復(fù)雜的背景中提取出來,再配上簡潔、時(shí)尚的純色背景,效果肯定會(huì)更好”圖像分割,不就是將圖像中的目標(biāo)物體從背景中分離出來嗎?這正是我現(xiàn)在需要的!1.任務(wù)引入圖像分割中,我們需要為圖像中的每個(gè)像素標(biāo)注類別標(biāo)簽,以便模型能夠?qū)W習(xí)如何區(qū)分不同類別的像素并描繪目標(biāo)的精確輪廓這種像素級(jí)的標(biāo)注數(shù)據(jù)為模型提供了更加精細(xì)的監(jiān)督信號(hào),使其能夠從圖像中提取目標(biāo)的細(xì)節(jié)信息2.知識(shí)準(zhǔn)備–數(shù)據(jù)集及其標(biāo)注設(shè)定一個(gè)閾值,將灰度值高于閾值的像素分為一類,將灰度值低于閾值的像素分為另一類,從而將目標(biāo)物體從背景中分離出來2.知識(shí)準(zhǔn)備–閾值分割法閾值分割的優(yōu)點(diǎn)是簡單、快速、易于實(shí)現(xiàn)。然而,它的缺點(diǎn)也很明顯。如果圖像中存在噪聲或光照不均勻,分割效果會(huì)受到影響通過用戶交互初始化分割過程。用戶只需用矩形框粗略標(biāo)記出目標(biāo)區(qū)域,算法會(huì)自動(dòng)估計(jì)前景和背景的顏色分布,并利用圖割優(yōu)化分割結(jié)果2.知識(shí)準(zhǔn)備–GrabCut分割法全卷積網(wǎng)絡(luò)(FCN)是深度學(xué)習(xí)圖像分割的開創(chuàng)性工作,它的核心思想是將傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)中的全連接層替換為卷積層,從而能夠接受任意尺寸的輸入圖像,并輸出與輸入圖像尺寸相同的分割結(jié)果2.知識(shí)準(zhǔn)備–全卷積網(wǎng)絡(luò)傳統(tǒng)圖像方法通常關(guān)注將圖像劃分為多個(gè)區(qū)域,這些區(qū)域可能基于顏色、紋理、邊緣等底層特征,但并不一定具有明確的語義信息2.知識(shí)準(zhǔn)備–語義分割語義分割的目標(biāo)是為圖像中的每個(gè)像素分配一個(gè)語義類別標(biāo)簽,如“人”、“車”、“道路”等,從而將圖像劃分為多個(gè)具有特定意義的區(qū)域或?qū)ο髮?shí)例分割(InstanceSegmentation)可以看作是物體檢測(cè)和語義分割的結(jié)合。它不僅需要識(shí)別出圖像中存在哪些物體,還要精確地劃分出每個(gè)物體的邊界,并區(qū)分出同類物體的不同實(shí)例2.知識(shí)準(zhǔn)備–實(shí)例分割與語義分割關(guān)注為每個(gè)像素分配類別標(biāo)簽不同,全景分割不僅要求對(duì)每個(gè)像素進(jìn)行分類,還要求區(qū)分同一類別中的不同實(shí)例2.知識(shí)準(zhǔn)備–全景分割語義分割、實(shí)例分割和全景分割對(duì)比圖3.準(zhǔn)備素材圖像打開瀏覽器,進(jìn)入阿里云視覺智能開放平臺(tái),單擊右上角“登錄/注冊(cè)”4.執(zhí)行圖像分割“手機(jī)號(hào)+驗(yàn)證碼”,或者掃碼登錄4.執(zhí)行圖像分割登錄成功,回到視覺智能開放平臺(tái),單擊“能力體驗(yàn)”4.執(zhí)行圖像分割進(jìn)入能力體驗(yàn)界面,下拉右側(cè)滾動(dòng)條,定位到“商品分割”,單擊它4.執(zhí)行圖像分割上傳素材圖像,執(zhí)行分割,查看分割結(jié)果,單擊“結(jié)果下載”4.執(zhí)行圖像分割A(yù)I開放平臺(tái)提供的圖像分割功能主要供開發(fā)者使用。開發(fā)者編寫代碼通過調(diào)用AI開放平臺(tái)提供的API接口實(shí)現(xiàn)圖像分割A(yù)I開放平臺(tái)的體驗(yàn)功能對(duì)分割前后做對(duì)比,使我們能直觀體驗(yàn)分割效果5.總結(jié)和實(shí)訓(xùn)任務(wù)總結(jié)下載3個(gè)有復(fù)雜背景的服裝圖像,按照任務(wù)實(shí)施步驟依次對(duì)圖像執(zhí)行分割下載3個(gè)街道場(chǎng)景圖像,挑選合適的場(chǎng)景模式執(zhí)行圖像分割5.總結(jié)和實(shí)訓(xùn)實(shí)訓(xùn)任務(wù)任務(wù)3檢索藝術(shù)品圖像小周同學(xué)是一位藝術(shù)愛好者。他經(jīng)常參觀藝術(shù)館、瀏覽在線藝術(shù)平臺(tái),但在欣賞藝術(shù)品時(shí),常常對(duì)作品的背景信息很感興趣,卻苦于缺乏便捷的查詢工具。有一天,小周在網(wǎng)上瀏覽時(shí)下載了兩張藝術(shù)品圖像。他對(duì)這兩幅作品非常感興趣,但不知道它們的作者、創(chuàng)作年代、藝術(shù)流派等信息。他聽說“百度”平臺(tái)的“按圖片搜索”能幫助他。于是,他決定試一試!1.任務(wù)引入小周同學(xué)是一位藝術(shù)愛好者。他經(jīng)常參觀藝術(shù)館、瀏覽在線藝術(shù)平臺(tái),但在欣賞藝術(shù)品時(shí),常常對(duì)作品的背景信息很感興趣,卻苦于缺乏便捷的查詢工具。有一天,小周在網(wǎng)上瀏覽時(shí)下載了兩張藝術(shù)品圖像。他對(duì)這兩幅作品非常感興趣,但不知道它們的作者、創(chuàng)作年代、藝術(shù)流派等信息。他聽說“百度”平臺(tái)的“按圖片搜索”能幫助他。于是,他決定試一試!1.任務(wù)引入圖像檢索需要解決兩個(gè)核心問題:如何從圖像中提取出有效的特征,以及如何度量圖像之間的相似性圖像特征提取,就是將圖像的視覺信息轉(zhuǎn)化為計(jì)算機(jī)能夠理解和處理的數(shù)值表示圖像相似性度量,則是計(jì)算兩幅圖像特征之間的距離或相似度通過對(duì)圖像特征的提取和相似性的度量,就可以構(gòu)建出一個(gè)高效、準(zhǔn)確的圖像檢索系統(tǒng)2.知識(shí)準(zhǔn)備–圖像檢索2.知識(shí)準(zhǔn)備–圖像特征提取直方圖的橫軸表示灰度級(jí),通常從0到255,縱軸表示對(duì)應(yīng)灰度級(jí)的像素?cái)?shù)量。通過觀察直方圖的形狀和分布,可以直觀地了解圖像的整體亮度和對(duì)比度圖像的邊緣和輪廓是圖像特征的重要表現(xiàn)形式,它們通過捕捉圖像中亮度或顏色的突變來勾勒出物體的形狀和結(jié)構(gòu)2.知識(shí)準(zhǔn)備–CNN提取特征深度學(xué)習(xí)方法利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)等模型,從圖像中自動(dòng)提取具有判別性的特征CNN通過多層卷積和池化操作,逐步捕捉圖像的低級(jí)到高級(jí)特征在低級(jí)層次,CNN可以提取邊緣、紋理和顏色等基礎(chǔ)信息;在中間層次,它能夠識(shí)別更復(fù)雜的模式,如物體的部分結(jié)構(gòu);在高級(jí)層次,CNN可以理解圖像的語義內(nèi)容,如物體的類別或場(chǎng)景的類型這種層次化的特征提取方式使得深度學(xué)習(xí)模型能夠更好地適應(yīng)復(fù)雜的圖像檢索任務(wù)2.知識(shí)準(zhǔn)備–圖像相似性度量深度學(xué)習(xí)方法利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)等模型,從圖像中自動(dòng)提取具有判別性的特征CNN通過多層卷積和池化操作,逐步捕捉圖像的低級(jí)到高級(jí)特征在低級(jí)層次,CNN可以提取邊緣、紋理和顏色等基礎(chǔ)信息;在中間層次,它能夠識(shí)別更復(fù)雜的模式,如物體的部分結(jié)構(gòu);在高級(jí)層次,CNN可以理解圖像的語義內(nèi)容,如物體的類別或場(chǎng)景的類型這種層次化的特征提取方式使得深度學(xué)習(xí)模型能夠更好地適應(yīng)復(fù)雜的圖像檢索任務(wù)歐氏距離2.知識(shí)準(zhǔn)備–圖像相似性度量
2.知識(shí)準(zhǔn)備–圖像相似性度量常用的相似性度量方法包括歐氏距離、余弦相似度和曼哈頓距離等除了基本的相似性度量方法,還可以引入更高級(jí)的技術(shù)來提升檢索性能度量學(xué)習(xí)通過優(yōu)化特征空間中的距離關(guān)系,使得相似的圖像在特征空間中更加接近,而不相似的圖像則更加遠(yuǎn)離。深度哈希則通過將高維特征映射到低維的二值碼,不僅減少了存儲(chǔ)和計(jì)算開銷,還提高了檢索效率2.知識(shí)準(zhǔn)備–圖像檢索系統(tǒng)圖像檢索系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)需要考慮多個(gè)方面的因素,包括特征提取的效率、存儲(chǔ)結(jié)構(gòu)的優(yōu)化、相似性度量的選擇以及檢索算法的性能。通過合理地選擇和組合這些技術(shù),可以構(gòu)建一個(gè)高效、準(zhǔn)確的圖像檢索系統(tǒng)電商平臺(tái)的圖像搜索通過上傳一張商品圖片來查找相似的商品。在這種情況下,特征提取方法需要能夠捕捉商品的顏色、紋理和形狀等信息,相似性度量方法需要能夠準(zhǔn)確地計(jì)算商品之間的相似度,而存儲(chǔ)和檢索技術(shù)需要能夠快速處理大規(guī)模的圖像庫在醫(yī)學(xué)圖像的相似性檢索中,圖像檢索技術(shù)可以幫助醫(yī)生快速找到與當(dāng)前病例相似的歷史病例,特征提取方法需要能夠捕捉醫(yī)學(xué)圖像中的病變區(qū)域和器官結(jié)構(gòu),相似性度量方法需要能夠準(zhǔn)確地計(jì)算病例之間的相似度,而存儲(chǔ)和檢索技術(shù)需要能夠高效地處理高分辨率的醫(yī)學(xué)圖像打開瀏覽器,進(jìn)入百度搜索,找到“按圖片搜索”圖標(biāo),單擊它3.執(zhí)行圖像檢索單擊”上傳圖片”按鈕,打開“文件上傳”,查找素材圖像,單擊“打開”3.執(zhí)行圖像檢索查看檢索結(jié)果,“相關(guān)商品”3.執(zhí)行圖像檢索下拉箭頭1指向的滾動(dòng)條,查看圖片來源,單擊箭頭2指向,新窗口查看文物介紹3.執(zhí)行圖像檢索繼續(xù)下拉滾動(dòng)條,查看相似圖片,單擊某‘相似圖片’,查看該‘相似圖片’的相似圖片3.執(zhí)行圖像檢索通過這一任務(wù)掌握了基于內(nèi)容的圖像檢索技術(shù)的基本原理和應(yīng)用方法,使用的知識(shí)點(diǎn)包括圖像特征提取、相似度匹配在檢索中的作用4.總結(jié)和實(shí)訓(xùn)任務(wù)總結(jié)實(shí)踐中的亮點(diǎn)是通過端到端流程的實(shí)操,直觀體會(huì)到特征空間的可視化意義——相似文物圖像在嵌入空間中聚集分布。這深化了我們對(duì)“以圖搜圖”背后技術(shù)邏輯的認(rèn)知準(zhǔn)備3個(gè)不熟悉的動(dòng)物圖像,使用百度圖像搜索,查看圖片來源和相似圖片準(zhǔn)備3個(gè)你喜歡的服裝圖像,到京東或淘寶平臺(tái)執(zhí)行以圖搜圖,查看檢索結(jié)果是否有你心儀的商品。思考一下,購物網(wǎng)站的圖像檢索與百度平臺(tái)的圖像檢索有哪些不同4.總結(jié)和實(shí)訓(xùn)實(shí)訓(xùn)任務(wù)任務(wù)4圖像生成小趙在家鄉(xiāng)的旅游部門從事旅游策劃師,他熱愛家鄉(xiāng)的歷史文化,一直致力于如何用現(xiàn)代技術(shù)更好地展示家鄉(xiāng)的魅力。有一天,他接到一個(gè)特別的任務(wù):為即將到來的“歷史文化周”活動(dòng)策劃一個(gè)新穎的展覽。小趙想到,如果能夠?qū)⒐糯漠嬒褶D(zhuǎn)化為現(xiàn)代的照片或視頻,讓游客能夠“看到”歷史人物的真實(shí)面貌和古代場(chǎng)景的生動(dòng)畫面,那將是一個(gè)非常吸引人的創(chuàng)意他決定嘗試?yán)脠D像生成圖像技術(shù),根據(jù)清明上河圖生成當(dāng)年的現(xiàn)場(chǎng)照片1.任務(wù)引入圖像生成技術(shù)的實(shí)現(xiàn)主要依賴于生成模型,其中最具代表性的是生成對(duì)抗網(wǎng)絡(luò)(GAN)和變分自編碼器(VAE)2.知識(shí)準(zhǔn)備–圖像生成技術(shù)是一種基于概率圖模型的生成方法,通過學(xué)習(xí)數(shù)據(jù)的潛在分布來生成圖像變分自編碼器由兩個(gè)神經(jīng)網(wǎng)絡(luò)組成:生成器和判別器。生成器生成盡可能逼真的圖像,判別器區(qū)分生成器生成的圖像和真實(shí)圖像。兩者通過對(duì)抗學(xué)習(xí)的方式不斷優(yōu)化,最終使生成器能夠生成高質(zhì)量的圖像生成對(duì)抗網(wǎng)絡(luò)2.知識(shí)準(zhǔn)備–圖像生成技術(shù)在文本編碼階段,模型使用自然語言處理技術(shù)將輸入的文本描述轉(zhuǎn)化為高維向量表示,這一表示捕捉了文本的語義和上下文信息文本編碼文本生成圖像在圖像生成階段,模型根據(jù)文本編碼生成對(duì)應(yīng)的圖像。生成過程可以通過生成對(duì)抗網(wǎng)絡(luò)、變分自編碼器或擴(kuò)散模型等生成模型實(shí)現(xiàn)圖像生成文本生成圖像通過深度學(xué)習(xí)模型學(xué)習(xí)文本與圖像之間的映射關(guān)系。模型需要理解文本的語義信息并將其轉(zhuǎn)化為視覺特征。這一過程通常分為兩個(gè)關(guān)鍵步驟:文本編碼和圖像生成2.知識(shí)準(zhǔn)備–圖像生成技術(shù)風(fēng)格遷移圖像生成圖像圖像生成圖像技術(shù)通過算法和模型從現(xiàn)有圖像生成新的圖像,用于藝術(shù)創(chuàng)作、圖像編輯和風(fēng)格遷移。這一技術(shù)的核心思想是通過學(xué)習(xí)圖像的特征和分布,生成與原始圖像相似或具有特定屬性的新圖像圖像修復(fù)打開瀏覽器,進(jìn)入豆包主界面,登錄以后,單擊“圖像生成”3.執(zhí)行圖像生成圖像上傳參考圖,設(shè)定風(fēng)格,輸入提示詞3.執(zhí)行圖像生成圖像生成和下載圖像,檢查生成的圖像3.執(zhí)行圖像生成圖像古代繪畫如“清明上河圖”展現(xiàn)了極高的藝術(shù)水平,反映了當(dāng)時(shí)社會(huì)的繁榮景象。通過現(xiàn)代技術(shù)生成圖像,可以更好地理解和欣賞這些古代繪畫的細(xì)節(jié)和構(gòu)圖4.總結(jié)和實(shí)訓(xùn)任務(wù)總結(jié)這種技術(shù)的應(yīng)用不僅提升了文化遺產(chǎn)的保護(hù)和展示水平,也為學(xué)術(shù)研究提供了新的工具和方法。古代繪畫與現(xiàn)代技術(shù)的結(jié)合,極大地推動(dòng)了文化遺產(chǎn)的數(shù)字化保護(hù)和傳播,展示了技術(shù)與藝術(shù)融合的巨大潛力下載古代人物孔子的人像畫,設(shè)計(jì)提示詞,生成人像攝影。檢驗(yàn)生成效果,分析目前這一技術(shù)的發(fā)展水平拍攝一張個(gè)人生活照,根據(jù)這個(gè)照片生成二次元圖像或版畫4.總結(jié)和實(shí)訓(xùn)實(shí)訓(xùn)任務(wù)感謝觀看單元4文本處理任務(wù)1執(zhí)行分詞和詞性標(biāo)注你是否曾經(jīng)好奇,智能客服和聊天機(jī)器人是如何理解用戶的意圖并提供準(zhǔn)確回答的?比如,當(dāng)你向客服機(jī)器人提問“如何辦理退票”時(shí),它能夠迅速給出清晰的操作步驟在中文文本處理中,分詞是將連續(xù)的漢字序列切分為有意義的詞語。例如,句子“如何辦理退票”需要被切分為“如何/辦理/退票”。詞性標(biāo)注則是為每個(gè)詞語賦予語法標(biāo)簽,如“辦理”是動(dòng)詞,“退票”是名詞。這些步驟幫助計(jì)算機(jī)理解句子的結(jié)構(gòu)和語義,從而準(zhǔn)確識(shí)別用戶的意圖在本次任務(wù)中,將親自動(dòng)手完成中文分詞和詞性標(biāo)注的任務(wù)1.任務(wù)引入中文分詞的任務(wù),便是將連續(xù)的漢字序列準(zhǔn)確地切分成一個(gè)個(gè)獨(dú)立的詞語,為后續(xù)諸如詞性標(biāo)注、句法分析、語義理解等自然語言處理任務(wù)奠定基礎(chǔ)2.知識(shí)準(zhǔn)備–中文分詞2.知識(shí)準(zhǔn)備–中文分詞方法傳統(tǒng)中文分詞方法最大匹配法是一種常用的基于規(guī)則的分詞方法。它的核心思想是從左到右或從右到左,盡可能匹配最長的詞語。例如:輸入句子:“我喜歡學(xué)習(xí)”從左到右最大匹配:“我喜歡/學(xué)習(xí)”從右到左最大匹配:“我/喜歡學(xué)習(xí)”最大匹配法的優(yōu)點(diǎn)是簡單高效,適合處理大規(guī)模的文本數(shù)據(jù)。但缺點(diǎn)也很明顯:它無法處理歧義問題和未登錄詞問題基于規(guī)則的方法2.知識(shí)準(zhǔn)備–中文分詞方法傳統(tǒng)中文分詞方法隱馬爾可夫模型(HMM)是一種經(jīng)典的統(tǒng)計(jì)模型。它的核心思想是:當(dāng)前字符的狀態(tài)(是否是一個(gè)詞語的結(jié)尾)只依賴于前一個(gè)字符的狀態(tài)。例如,在句子“我喜歡學(xué)習(xí)”中:如果“我”是一個(gè)詞語的結(jié)尾,那么“喜”很可能是下一個(gè)詞語的開頭HMM模型通過計(jì)算字符狀態(tài)之間的轉(zhuǎn)移概率和字符與狀態(tài)之間的生成概率,找到最可能的分詞序列基于統(tǒng)計(jì)的分詞方法2.知識(shí)準(zhǔn)備–中文分詞方法深度學(xué)習(xí)分詞方法循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是一種能夠處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)模型。RNN會(huì)逐個(gè)讀取句子中的字符,并結(jié)合上下文信息預(yù)測(cè)每個(gè)字符是否是一個(gè)詞語的結(jié)尾。例如,RNN會(huì)記住“我”是一個(gè)詞語的結(jié)尾,從而更準(zhǔn)確地預(yù)測(cè)“喜”是下一個(gè)詞語的開頭LSTM是RNN的一種改進(jìn)模型,它通過引入記憶單元來解決RNN在處理長句子時(shí)的梯度消失問題。在句子“我昨天去圖書館學(xué)習(xí)了”中,LSTM能夠記住“昨天”是一個(gè)時(shí)間詞,從而更準(zhǔn)確地預(yù)測(cè)“去”是下一個(gè)詞語的開頭Transformer模型通過自注意力機(jī)制捕捉字符之間的全局依賴關(guān)系,從而為每個(gè)字符預(yù)測(cè)是否是一個(gè)詞語的結(jié)尾。例如,Transformer能夠同時(shí)考慮“我”和“學(xué)習(xí)”之間的關(guān)系,從而更準(zhǔn)確地預(yù)測(cè)“喜歡”是一個(gè)詞語2.知識(shí)準(zhǔn)備–詞性標(biāo)注詞性標(biāo)注為文本中的每個(gè)詞語標(biāo)注其詞性類別,如名詞、動(dòng)詞、形容詞等2.知識(shí)準(zhǔn)備–詞性標(biāo)注方法基于規(guī)則的方法是早期詞性標(biāo)注的主要手段。這種方法依賴于語言學(xué)專家手工編寫的規(guī)則。例如:規(guī)則1:如果一個(gè)詞以“們”結(jié)尾,它可能是代詞,如“我們”。規(guī)則2:如果一個(gè)詞前面有“很”或“非常”,它可能是形容詞,如“很好”?;谝?guī)則的方法隱馬爾可夫模型(HMM)是一種經(jīng)典的統(tǒng)計(jì)模型。它的核心思想是:當(dāng)前詞語的詞性只依賴于前一個(gè)詞語的詞性。例如,在句子“我喜歡學(xué)習(xí)”中:如果“我”是代詞,那么“喜歡”很可能是動(dòng)詞;如果“喜歡”是動(dòng)詞,那么“學(xué)習(xí)”也很可能是動(dòng)詞。HMM通過計(jì)算詞性之間的轉(zhuǎn)移概率和詞語與詞性之間的生成概率,找到最可能的詞性序列。這種方法簡單高效,適合處理大規(guī)模文本數(shù)據(jù)基于統(tǒng)計(jì)的方法2.知識(shí)準(zhǔn)備–詞性標(biāo)注方法LSTM是RNN的一種改進(jìn)模型,它通過引入記憶單元來解決RNN在處理長句子時(shí)的梯度消失問題。例如,在句子“我昨天去圖書館學(xué)習(xí)了”中,LSTM能夠記住“昨天”是時(shí)間詞,從而更準(zhǔn)確地預(yù)測(cè)“學(xué)習(xí)”是動(dòng)詞深度學(xué)習(xí)的方法Transformer模型通過自注意力機(jī)制捕捉詞語之間的全局依賴關(guān)系,從而為每個(gè)詞語分配詞性標(biāo)簽。例如,Transformer能夠同時(shí)考慮“我”和“學(xué)習(xí)”之間的關(guān)系,從而更準(zhǔn)確地預(yù)測(cè)“喜歡”是動(dòng)詞打開瀏覽器,進(jìn)入HanLP主界面,下拉右側(cè)滾動(dòng)條,單擊“中文分詞”3.執(zhí)行分詞查看“中文分詞”界面,準(zhǔn)備待分詞的素材文檔3.執(zhí)行分詞在輸入框中輸入待分詞的素材文檔,單擊“執(zhí)行分詞”3.執(zhí)行分詞打開瀏覽器,進(jìn)入HanLP主界面,下拉右側(cè)滾動(dòng)條,單擊“詞性標(biāo)注”4.執(zhí)行詞性標(biāo)注查看“詞性標(biāo)注”界面,準(zhǔn)備素材文檔4.執(zhí)行詞性標(biāo)注在輸入框中輸入素材文檔,單擊“詞性標(biāo)注”4.執(zhí)行詞性標(biāo)注在本次實(shí)踐任務(wù)中,我們親身體驗(yàn)了自然語言處理的基礎(chǔ)環(huán)節(jié),也深刻認(rèn)識(shí)到中文信息處理的復(fù)雜性和挑戰(zhàn)性。盡管使用了目前最流行的分詞工具和詞性標(biāo)注工具,結(jié)果中仍然可能出現(xiàn)錯(cuò)誤5.總結(jié)和實(shí)訓(xùn)任務(wù)總結(jié)中文分詞和詞性標(biāo)注是自然語言處理的基礎(chǔ)任務(wù),其準(zhǔn)確性直接影響著后續(xù)文本分析、機(jī)器翻譯、信息檢索等應(yīng)用的效果。盡管目前還存在諸多挑戰(zhàn),但技術(shù)在不斷進(jìn)步,應(yīng)用場(chǎng)景也在不斷拓展使用LLM生成一篇600字的抒情散文,分別執(zhí)行分詞和詞性標(biāo)注,觀察結(jié)果,分析哪里有錯(cuò)誤使用LLM生成一首唐詩,分別執(zhí)行分詞和詞性標(biāo)注,觀察結(jié)果,分析哪里有錯(cuò)誤5.總結(jié)和實(shí)訓(xùn)實(shí)訓(xùn)任務(wù)任務(wù)2生成摘要和關(guān)鍵字小王是一位新聞編輯,他的主要職責(zé)是篩選、編輯和發(fā)布新聞內(nèi)容,并為用戶提供個(gè)性化的新聞推薦。然而,手動(dòng)篩選新聞、撰寫摘要、提取關(guān)鍵詞以及推薦相關(guān)內(nèi)容的工作量巨大,效率低下且容易出錯(cuò)今天,小王收到了一篇關(guān)于“人工智能在醫(yī)療領(lǐng)域的應(yīng)用”的深度報(bào)道,文章長達(dá)5000字,內(nèi)容詳實(shí),數(shù)據(jù)豐富,但對(duì)于社交媒體的讀者來說,這樣的長度顯然難以接受于是他使用文本處理工具自動(dòng)提取摘要和關(guān)鍵詞1.任務(wù)引入2.知識(shí)準(zhǔn)備-摘要生成技術(shù)抽取式摘要技術(shù)利用詞頻、句子位置等統(tǒng)計(jì)特征,選擇重要的句子。例如,選擇出現(xiàn)頻率最高的詞語所在的句子,或者選擇文章開頭和結(jié)尾的句子基于統(tǒng)計(jì)的方法將文本構(gòu)建成圖結(jié)構(gòu),利用算法對(duì)句子進(jìn)行排序。例如,將句子作為節(jié)點(diǎn),句子之間的相似度作為邊,通過迭代計(jì)算每個(gè)句子的權(quán)重,選擇權(quán)重最高的句子作為摘要基于圖排序的方法利用詞向量、句向量等語義表示,計(jì)算句子之間的相似度,選擇最具代表性的句子基于語義的方法2.知識(shí)準(zhǔn)備-摘要生成技術(shù)生成式摘要技術(shù)生成式摘要生成技術(shù)的基本原理是讓計(jì)算機(jī)模擬人類的閱讀和理解過程,然后用自己的語言概括文章的主要內(nèi)容,通常有以下幾個(gè)步驟:文本編碼:將原文轉(zhuǎn)換成計(jì)算機(jī)能夠理解的向量表示;語義理解:讓計(jì)算機(jī)理解原文的語義信息,包括詞語之間的關(guān)系、句子的含義等;摘要生成:根據(jù)語義理解的結(jié)果,生成新的摘要;摘要評(píng)估:評(píng)估生成的摘要的質(zhì)量,并進(jìn)行優(yōu)化生成式摘要生成技術(shù)主要基于深度學(xué)習(xí)技術(shù),常用的方法包括:序列到序列模型(Seq2Seq),這是一種常用的深度學(xué)習(xí)模型,它可以將原文序列轉(zhuǎn)換成另一個(gè)摘要序列。Seq2Seq模型通常由編碼器和解碼器組成,編碼器將原文編碼成向量表示,解碼器將向量表示解碼成摘要Transformer,這是一種基于自注意力機(jī)制的深度學(xué)習(xí)模型,它可以更好地捕捉文本中的長距離依賴關(guān)系,提高摘要生成的質(zhì)量。Transformer在自然語言處理領(lǐng)域取得了很大的成功,也被廣泛應(yīng)用于生成式摘要,可以生成更準(zhǔn)確、更連貫的摘要2.知識(shí)準(zhǔn)備–關(guān)鍵字生成技術(shù)自動(dòng)從文本中提取出最具代表性和重要性的詞語或短語的技術(shù)關(guān)鍵字生成技術(shù)的演進(jìn):傳統(tǒng)的TF-IDF算法通過統(tǒng)計(jì)詞語在文檔中的頻率和在整個(gè)語料庫中的分布情況,來衡量詞語的重要性。這種方法簡單有效,但忽略了詞語之間的語義關(guān)系隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的關(guān)鍵詞提取方法逐漸成為主流。這些方法能夠捕捉詞語之間的深層語義關(guān)系,提高關(guān)鍵詞提取的準(zhǔn)確性2000字左右的新聞
根據(jù)這一素材,生成摘要和關(guān)鍵字3.準(zhǔn)備文章素材上傳素材文檔,輸入提示詞,提交4.生成摘要審查和修改返回的摘要4.生成摘要繼續(xù)剛才的對(duì)話,輸入提示詞,生成關(guān)鍵字5.生成關(guān)鍵字AI模型雖然能夠從大量文本中提取出關(guān)鍵信息,但由于自然語言的復(fù)雜性和多樣性,生成的摘要和關(guān)鍵字往往存在一定的誤差,為了確保結(jié)果的準(zhǔn)確性,需要人工檢查和修改6.總結(jié)和實(shí)訓(xùn)任務(wù)總結(jié)人工檢查和修改還能夠幫助優(yōu)化AI模型的輸出格式和風(fēng)格。生成的摘要可能會(huì)出現(xiàn)語法錯(cuò)誤、句子不通順或風(fēng)格不一致的問題,通過人工干預(yù),可以對(duì)這些摘要進(jìn)行潤色,使其更加符合語言規(guī)范和讀者的閱讀習(xí)慣下載一篇5000字以上的科技論文,生成300字摘要和8個(gè)關(guān)鍵字下載一部長篇小說,生成1000字內(nèi)容簡介,生成10個(gè)關(guān)鍵字6.總結(jié)和實(shí)訓(xùn)實(shí)訓(xùn)任務(wù)任務(wù)3圖像生成文本小張是一位電商運(yùn)營專員,他每天都要處理大量商品圖片和文案,包括編寫商品標(biāo)題、描述和賣點(diǎn)。為了提高工作效率,他開始嘗試使用圖像生成文本技術(shù)圖生文技術(shù)能夠通過分析圖像自動(dòng)生成文本描述。在實(shí)際應(yīng)用中,小張發(fā)現(xiàn)這項(xiàng)技術(shù)大大提高了他的工作效率,原本需要花費(fèi)數(shù)小時(shí)編寫的商品描述,現(xiàn)在只需幾分鐘就能完成。生成的文本描述不僅準(zhǔn)確,還根據(jù)不同的商品特點(diǎn)進(jìn)行個(gè)性化調(diào)整,提升商品的吸引力1.任務(wù)引入2.知識(shí)準(zhǔn)備–文本生成技術(shù)文本生成文本(大語言模型)文本生成文本分為縮寫、擴(kuò)寫、推理三種主要類別基于規(guī)則的方法使用預(yù)定義的模板或規(guī)則,將輸入文本中的關(guān)鍵詞或短語填充到模板中,生成擴(kuò)展文本。例如,根據(jù)“我喜歡吃蘋果”生成“我喜歡吃蘋果,因?yàn)樘O果富含維生素,對(duì)身體有益”基于統(tǒng)計(jì)的方法利用統(tǒng)計(jì)模型學(xué)習(xí)大量文本數(shù)據(jù)中的語言規(guī)律,并根據(jù)這些規(guī)律生成擴(kuò)展文本。例如,使用n-gram模型預(yù)測(cè)下一個(gè)詞語的概率,并根據(jù)概率生成擴(kuò)展文本基于深度學(xué)習(xí)的模型利用深度神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)文本數(shù)據(jù)的分布式表示,并根據(jù)這些表示生成擴(kuò)展文本。例如,使用循環(huán)神經(jīng)網(wǎng)絡(luò)、長短期記憶網(wǎng)絡(luò)、Transformer模型等生成擴(kuò)展文本文本擴(kuò)寫2.知識(shí)準(zhǔn)備–文本生成技術(shù)文本生成文本(大語言模型)文本生成文本分為縮寫、擴(kuò)寫、推理三種主要類別文本推理的實(shí)現(xiàn)方法于文本擴(kuò)寫一樣,也是基于規(guī)則的方法以及基于統(tǒng)計(jì)和深度學(xué)習(xí)的方法問答系統(tǒng)是文本推理技術(shù)的一個(gè)重要應(yīng)用場(chǎng)合。問答系統(tǒng)旨在根據(jù)用戶的問題,從文本中推理出答案智能客服系統(tǒng)理解用戶的問題,并識(shí)別用戶的意圖。例如,用戶可能會(huì)問“我的訂單什么時(shí)候發(fā)貨?”或“如何取消訂單?”。事件預(yù)測(cè)是文本推理技術(shù)的另一個(gè)重要應(yīng)用場(chǎng)合。事件預(yù)測(cè)能根據(jù)文本描述的事件,推理出可能的結(jié)果文本推理2.知識(shí)準(zhǔn)備–文本生成技術(shù)生成文本的不同輸入模態(tài)語音生成文本技術(shù),就是將人類的語音信號(hào)轉(zhuǎn)換為文字的技術(shù)。這項(xiàng)技術(shù)綜合了聲學(xué)、語音學(xué)、計(jì)算機(jī)科學(xué)等多個(gè)領(lǐng)域的知識(shí),是人工智能在語音識(shí)別領(lǐng)域的重要應(yīng)用語音生成文本就是讓計(jì)算機(jī)根據(jù)輸入的圖像,自動(dòng)生成一段描述圖像內(nèi)容的文字。這項(xiàng)技術(shù)融合了計(jì)算機(jī)視覺和自然語言處理兩大領(lǐng)域的技術(shù),它讓計(jì)算機(jī)能夠“看懂”圖像,并用自然語言描述圖像的內(nèi)容圖像生成文本數(shù)據(jù)生成文本就是讓計(jì)算機(jī)根據(jù)輸入的數(shù)據(jù)自動(dòng)生成一段描述數(shù)據(jù)的文字?jǐn)?shù)據(jù)生成文本2.知識(shí)準(zhǔn)備–文本生成技術(shù)不同場(chǎng)景圖像的圖生文實(shí)操準(zhǔn)備素材圖片,先通過圖生文技術(shù)生成服裝描述,核實(shí)無誤以后再進(jìn)一步生成電商文案3.準(zhǔn)備商品圖片素材打開瀏覽器,進(jìn)入文心一言界面,登錄4.圖像生成文本單擊“上傳圖片”,執(zhí)行上傳,輸入提示詞,單擊提交按鈕4.圖像生成文本檢查生成的文本描述,如果有錯(cuò)誤,通過提示詞進(jìn)行修改4.圖像生成文本提示詞“生成電商文案,包括標(biāo)題,描述,賣點(diǎn)”,提交,查看文案4.圖像生成文本文本生成技術(shù)取得了顯著進(jìn)展,但仍面臨一些挑戰(zhàn)。生成文本的質(zhì)量和連貫性仍需提升,特別是在生成長文本時(shí)容易出現(xiàn)邏輯不一致的問題圖像生成文本技術(shù)在處理復(fù)雜圖像時(shí),提取的信息可能不夠準(zhǔn)確或全面。多模態(tài)生成文本技術(shù)則需要解決多模態(tài)數(shù)據(jù)融合和一致性問題5.總結(jié)和實(shí)訓(xùn)任務(wù)總結(jié)假如你是一位公園的護(hù)林員,為了便于游客了解每種植物,準(zhǔn)備對(duì)公園的每種植物制作標(biāo)識(shí)牌,注明植物名稱、習(xí)性和分布情況。請(qǐng)下載5種植物圖片,設(shè)計(jì)提示詞,通過圖生文生成這些植物的名稱、習(xí)性和分布5.總結(jié)和實(shí)訓(xùn)實(shí)訓(xùn)任務(wù)感謝觀看單元5語音處理任務(wù)1文本轉(zhuǎn)換為語音期末臨近,小王卻陷入了前所未有的焦慮。文化課復(fù)習(xí)、英語四級(jí)、計(jì)算機(jī)等級(jí)考試,三重壓力讓他喘不過氣。這天,小王想起同學(xué)推薦的“訊飛有聲”,他下載了這款A(yù)PP,將一篇散文導(dǎo)入其中,輕柔的女聲緩緩流淌,小王沉浸在優(yōu)美的語音中初次體驗(yàn)讓小王驚喜不已,他迫不及待地將“訊飛有聲”應(yīng)用到學(xué)習(xí)中:將英語聽力材料導(dǎo)入,利用碎片時(shí)間反復(fù)聆聽,提升聽力水平;將計(jì)算機(jī)理論知識(shí)點(diǎn)轉(zhuǎn)換成語音,在散步時(shí)鞏固記憶;甚至將文化課筆記也轉(zhuǎn)換成語音,在睡前回顧,加深印象1.任務(wù)引入本次驅(qū)動(dòng)任務(wù)將引領(lǐng)我們深入理解語音合成的三個(gè)核心知識(shí)點(diǎn):文本分析、聲學(xué)模型和聲碼器文本分析是語音合成的起點(diǎn)。它要求我們能夠準(zhǔn)確解析文本信息,提取出其中的語義、語法乃至情感色彩,為后續(xù)步驟提供堅(jiān)實(shí)的基礎(chǔ)聲學(xué)模型則是連接文本與語音的橋梁。它利用聲學(xué)特征,將文本信息轉(zhuǎn)化為語音信號(hào),模擬出人類發(fā)聲的復(fù)雜過程聲碼器則是語音合成的終極工具。它通過對(duì)聲學(xué)特征進(jìn)行編碼和解碼,生成出與原始語音高度相似的波形2.知識(shí)準(zhǔn)備-語音合成技術(shù)2.知識(shí)準(zhǔn)備-文本分析文本分析的具體流程通常包括文本預(yù)處理和語言學(xué)分析文本預(yù)處理的主要任務(wù)包括分詞、詞性標(biāo)注和韻律預(yù)測(cè)。以“我愛北京天安門”為例:分詞句子分為“我/愛/北京/天安門”詞性標(biāo)注為每個(gè)詞語標(biāo)注詞性,例如,“我”為人稱代詞,“愛”為動(dòng)詞,“北京”為地名名詞,“天安門”為地名名詞韻律預(yù)測(cè)是預(yù)測(cè)句子中的停頓位置、重音位置以及語調(diào)變化等信息。例如,在句子“我愛北京天安門”中,可以在“愛”后面添加一個(gè)短暫的停頓,并在“天安門”上加重語氣語言學(xué)分析的主要任務(wù)包括語法分析和語義分析語法分析是分析句子的語法結(jié)構(gòu),例如主謂賓、定狀補(bǔ)等。例如,句子“我愛北京天安門”的主語是“我”,謂語是“愛”,賓語是“北京天安門”。語法分析有助于確定句子的基本結(jié)構(gòu)和詞語之間的關(guān)系語義分析是理解句子的語義信息,例如句子的主題、情感傾向等。例如,句子“我愛北京天安門”表達(dá)了說話者對(duì)北京天安門的喜愛之情。語義分析有助于生成符合語境和情感需求的語音2.知識(shí)準(zhǔn)備–聲學(xué)模型聲學(xué)模型的主要任務(wù)是將文本中的音素或字詞序列轉(zhuǎn)換為對(duì)應(yīng)的聲學(xué)特征序列。這些聲學(xué)特征通常包括基頻、頻譜包絡(luò)和時(shí)長等信息隱馬爾可夫模型(HMM)是一種經(jīng)典的聲學(xué)建模方法,它假設(shè)語音信號(hào)是由一系列隱藏的狀態(tài)生成的,每個(gè)狀態(tài)對(duì)應(yīng)一個(gè)音素或子音素單元高斯混合模型(GMM)通常與HMM結(jié)合使用,用于建模每個(gè)狀態(tài)下的聲學(xué)特征分布深度神經(jīng)網(wǎng)絡(luò)(DNN)具有較強(qiáng)的非線性建模能力,能夠更好地捕捉文本與聲學(xué)特征之間的復(fù)雜關(guān)系。在DNN-based聲學(xué)模型中,輸入通常是文本特征,如音素或字詞,輸出是對(duì)應(yīng)的聲學(xué)特征序列近年來,基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)的聲學(xué)模型進(jìn)一步提升了語音合成的性能。長短期記憶網(wǎng)絡(luò)(LSTM)和門控循環(huán)單元(GRU)是RNN的改進(jìn)版本,提高了聲學(xué)模型的建模能力2.知識(shí)準(zhǔn)備–聲學(xué)模型聲學(xué)模型的主要任務(wù)是將文本中的音素或字詞序列轉(zhuǎn)換為對(duì)應(yīng)的聲學(xué)特征序列。這些聲學(xué)特征通常包括基頻、頻譜包絡(luò)和時(shí)長等信息隱馬爾可夫模型(HMM)是一種經(jīng)典的聲學(xué)建模方法,它假設(shè)語音信號(hào)是由一系列隱藏的狀態(tài)生成的,每個(gè)狀態(tài)對(duì)應(yīng)一個(gè)音素或子音素單元高斯混合模型(GMM)通常與HMM結(jié)合使用,用于建模每個(gè)狀態(tài)下的聲學(xué)特征分布深度神經(jīng)網(wǎng)絡(luò)(DNN)具有較強(qiáng)的非線性建模能力,能夠更好地捕捉文本與聲學(xué)特征之間的復(fù)雜關(guān)系。在DNN-based聲學(xué)模型中,輸入通常是文本特征,如音素或字詞,輸出是對(duì)應(yīng)的聲學(xué)特征序列基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)的聲學(xué)模型進(jìn)一步提升了語音合成的性能。長短期記憶網(wǎng)絡(luò)(LSTM)和門控循環(huán)單元(GRU)改進(jìn)了RNN。Transformer注意力機(jī)制提高了聲學(xué)模型的建模精度2.知識(shí)準(zhǔn)備–聲碼器聲碼器的核心任務(wù)是根據(jù)聲學(xué)模型提供的聲學(xué)參數(shù),重建出原始語音的波形參數(shù)聲碼器利用信號(hào)處理技術(shù),對(duì)語音信號(hào)進(jìn)行建模和分析,提取出一些參數(shù),如基頻、頻譜包絡(luò)等。然后,根據(jù)這些參數(shù),合成出相應(yīng)的語音波形波形拼接聲碼器則直接從語音數(shù)據(jù)庫中選取一些語音片段,然后將這些片段拼接起來,形成最終的語音波形基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的聲碼器能夠自動(dòng)學(xué)習(xí)語音信號(hào)的特征,并生成高質(zhì)量的語音波形。例如,WaveNet是一種基于卷積神經(jīng)網(wǎng)絡(luò)的聲碼器,它能夠直接生成原始語音的波形,并且能夠生成非常自然的語音。ParallelWaveGAN則是一種基于GAN的聲碼器,它能夠并行生成語音波形,大大提高了合成速度傳統(tǒng)聲碼器基于深度學(xué)習(xí)的聲碼器3.下載并安裝‘訊飛有聲’APP4.準(zhǔn)備文本轉(zhuǎn)語音素材文檔打開“訊飛有聲”APP,單擊“拍照朗讀”,拍照,調(diào)整圖片大小5.執(zhí)行文本轉(zhuǎn)語音調(diào)整文字,單擊“一鍵收聽”長按鈕,設(shè)置主播、語速、背景音樂5.執(zhí)行文本轉(zhuǎn)語音通過上述任務(wù)我們掌握了將文本轉(zhuǎn)換為自然語音的相關(guān)技術(shù)和工具使用流程,知識(shí)點(diǎn)包括理解語音合成的兩大關(guān)鍵模塊——文本前端處理和聲學(xué)模型生成,以及深度學(xué)習(xí)模型的工作原理6.總結(jié)和實(shí)訓(xùn)任務(wù)總結(jié)實(shí)操中的亮點(diǎn)是直觀感受到參數(shù)調(diào)整對(duì)聽感的影響。散文朗誦的情感表達(dá)讓我們意識(shí)到語音合成在文學(xué)、教育等領(lǐng)域的應(yīng)用潛力,同時(shí)也認(rèn)識(shí)到當(dāng)前技術(shù)在復(fù)雜語氣和個(gè)性化發(fā)音上的局限性下載一部你喜歡的短篇小說,轉(zhuǎn)換成WORD文檔或pdf文檔。使用QQ或微信傳送到手機(jī)并保存。按照任務(wù)實(shí)施的步驟在“訊飛有聲”中收聽。注意,打開“訊飛有聲”APP后,單擊“導(dǎo)入本地文檔”圖標(biāo),而不是“拍照朗讀”6.總結(jié)和實(shí)訓(xùn)實(shí)訓(xùn)任務(wù)任務(wù)2語音轉(zhuǎn)化為文本小李是某科技公司的行政助理,日常工作繁雜,其中最讓她頭疼的就是每周的高管例會(huì),會(huì)議通常持續(xù)兩三個(gè)小時(shí),信息量大且專業(yè)性強(qiáng)。會(huì)后她還要花大量時(shí)間整理會(huì)議紀(jì)要,確保表述準(zhǔn)確、重點(diǎn)突出,再發(fā)送給各位高管確認(rèn)一次,小李試用一款人工智能語音筆記工具參加高管例會(huì)。會(huì)議結(jié)束后,她驚喜地發(fā)現(xiàn),語音筆記不僅生成了完整的文字記錄,還自動(dòng)提取了關(guān)鍵議題、待辦事項(xiàng)和決策點(diǎn),甚至能根據(jù)上下文智能總結(jié)會(huì)議重點(diǎn)小李的案例很快在公司內(nèi)部傳開,其他部門的助理和項(xiàng)目經(jīng)理也紛紛開始使用語音筆記工具1.任務(wù)引入2.知識(shí)準(zhǔn)備-語音信號(hào)和語音處理人類語音的產(chǎn)生過程:肺部氣流通過聲帶振動(dòng)產(chǎn)生基音,再經(jīng)過口腔、鼻腔等共鳴腔的調(diào)制,最終形成語音語音信號(hào)可以大致分為濁音、清音和靜音三種狀態(tài)濁音是聲帶振動(dòng)產(chǎn)生的周期性信號(hào),如元音發(fā)音;清音則是氣流通過聲道狹窄部分產(chǎn)生的湍流噪聲,如“s”、“f”等輔音;靜音則是語音段之間的停頓語音信號(hào)傳統(tǒng)語音處理三個(gè)步驟:采樣、量化和編碼。采樣將連續(xù)時(shí)間信號(hào)離散化,根據(jù)奈奎斯特定理,采樣頻率必須至少是信號(hào)最高頻率的兩倍;量化將采樣后的幅度值離散化;編碼則是將量化后的數(shù)值表示為二進(jìn)制形式語音信號(hào)的時(shí)域分析是最直觀的分析方法,頻域分析則揭示了語音信號(hào)在不同頻率上的能量分布。梅爾頻率倒譜系數(shù)(MFCC)是目前最常用的語音特征表示方法傳統(tǒng)語音處理可以使用深度網(wǎng)絡(luò)直接從原始語音波形中學(xué)習(xí)特征表示,避免了手工設(shè)計(jì)特征的局限性;生成對(duì)抗網(wǎng)絡(luò)(GAN)可以用于語音增強(qiáng),提升噪聲環(huán)境下的語音質(zhì)量;時(shí)域卷積網(wǎng)絡(luò)(TCN)適合處理語音信號(hào)的長時(shí)依賴關(guān)系深度學(xué)習(xí)語音處理2.知識(shí)準(zhǔn)備-語音轉(zhuǎn)文本聲學(xué)模型是整個(gè)系統(tǒng)的核心組件,負(fù)責(zé)將輸入的語音特征序列轉(zhuǎn)換為音素或字符的概率分布?,F(xiàn)代聲學(xué)模型通常采用深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),包括卷積層、循環(huán)層和注意力層等。這些網(wǎng)絡(luò)層通過多層次的非線性變換,能夠從原始語音特征中提取出越來越抽象的特征表示語音轉(zhuǎn)文本技術(shù)的核心在于聲學(xué)模型和語言模型語言模型通過學(xué)習(xí)大量文本數(shù)據(jù)中的統(tǒng)計(jì)規(guī)律,幫助系統(tǒng)在發(fā)音相似的選項(xiàng)中做出更合理的選擇?,F(xiàn)代系統(tǒng)普遍采用神經(jīng)網(wǎng)絡(luò)語言模型,如RNN模型或Transformer模型,這些模型能夠更好地理解句子級(jí)的語義信息解碼過程是將聲學(xué)模型和語言模型的輸出結(jié)合起來,搜索出最可能的文本序列的關(guān)鍵步驟。這個(gè)過程可以看作是在巨大的搜索空間中尋找最優(yōu)路徑的問題隨著深度學(xué)習(xí)技術(shù)的發(fā)展,現(xiàn)代語音識(shí)別系統(tǒng)已經(jīng)轉(zhuǎn)向更先進(jìn)的端到端架構(gòu)。這種架構(gòu)可以直接從語音特征學(xué)習(xí)到文本輸出的映射關(guān)系3.準(zhǔn)備朗讀文檔3.下載并安裝‘訊飛聽見’客戶端安裝并運(yùn)行“訊飛聽見”,單擊開始錄音4.執(zhí)行語音轉(zhuǎn)文本錄音結(jié)束,查看結(jié)果4.執(zhí)行語音轉(zhuǎn)文本通過這一單元掌握了語音信號(hào)處理、特征提取和文本轉(zhuǎn)換的基本流程,進(jìn)一步理解了語音識(shí)別的關(guān)鍵技術(shù)環(huán)節(jié),體驗(yàn)了端到端深度學(xué)習(xí)模型在這一領(lǐng)域的優(yōu)勢(shì)5.總結(jié)和實(shí)訓(xùn)任務(wù)總結(jié)學(xué)習(xí)中的亮點(diǎn)是通過實(shí)際錄音與轉(zhuǎn)寫結(jié)果的對(duì)比,直觀感受到聲學(xué)特征和語言模型在糾錯(cuò)中的作用。任務(wù)實(shí)操還讓我們認(rèn)識(shí)到語音識(shí)別在會(huì)議記錄、無障礙輔助等場(chǎng)景的價(jià)值假設(shè)你是某食品的銷售人員,準(zhǔn)備對(duì)一批老客戶推銷新產(chǎn)品。設(shè)計(jì)提示詞,使用LLM生成發(fā)言稿,導(dǎo)入“訊飛有聲”朗讀,同時(shí)使用“訊飛聽見”記錄,朗讀完畢以后,查看生成的原文、關(guān)鍵字、摘要、主要內(nèi)容和代辦事項(xiàng)5.總結(jié)和實(shí)訓(xùn)實(shí)訓(xùn)任務(wù)任務(wù)3同聲翻譯小孫成功報(bào)名了世界人工智能大會(huì),拿到了學(xué)生參會(huì)資格。這讓他既興奮又忐忑,大會(huì)上有許多國際頂尖專家的英文報(bào)告,他擔(dān)心無法完全理解報(bào)告內(nèi)容,錯(cuò)過重要的前沿技術(shù)分享為了克服語言障礙,小孫在手機(jī)上安裝“訊飛同傳”APP。這款應(yīng)用能夠?qū)⒀葜v者的英文內(nèi)容實(shí)時(shí)轉(zhuǎn)寫成中文文本,甚至可以直接翻譯成中文語音輸出大會(huì)當(dāng)天,當(dāng)國際專家開始演講時(shí),他將手機(jī)麥克風(fēng)對(duì)準(zhǔn)演講者,軟件立即開始工作,屏幕上同步顯示出英文原文和中文翻譯,耳機(jī)里也傳來清晰的中文語音。在問答環(huán)節(jié),他還嘗試用中文提問,軟件實(shí)時(shí)翻譯成英文,幫助他與專家順暢交流1.任務(wù)引入機(jī)器翻譯是指利用計(jì)算機(jī)自動(dòng)將一種語言的文本轉(zhuǎn)換為另一種語言文本的技術(shù)2.知識(shí)準(zhǔn)備–機(jī)器翻譯基于規(guī)則的翻譯,依賴語言學(xué)家手工編寫的語法規(guī)則和詞典來實(shí)現(xiàn)翻譯,雖然在某些特定領(lǐng)域能產(chǎn)生準(zhǔn)確的結(jié)果,但需要大量人工干預(yù),且難以覆蓋語言的復(fù)雜性和多樣性隨著計(jì)算能力的提升和數(shù)據(jù)量的增長,統(tǒng)計(jì)機(jī)器翻譯逐漸成為主流,它通過分析大規(guī)模雙語語料庫,計(jì)算詞語和短語的對(duì)應(yīng)概率,從而生成翻譯結(jié)果傳統(tǒng)機(jī)器翻譯神經(jīng)機(jī)器翻譯采用端到端的神經(jīng)網(wǎng)絡(luò)模型,如序列到序列(Seq2Seq)架構(gòu),能夠更好地捕捉長距離依賴關(guān)系和上下文信息。特別是Transformer模型的提出,進(jìn)一步提升了翻譯的質(zhì)量和效率,它通過自注意力機(jī)制并行處理輸入序列,大幅減少了訓(xùn)練和推理時(shí)間深度學(xué)習(xí)機(jī)器翻譯同聲翻譯系統(tǒng)的工作流程通??梢苑譃樗膫€(gè)核心環(huán)節(jié):語音輸入處理、實(shí)時(shí)語音識(shí)別、流式機(jī)器翻譯和語音合成輸出2.知識(shí)準(zhǔn)備–同聲翻譯系統(tǒng)在語音輸入處理階段,系統(tǒng)需要實(shí)時(shí)采集說話人的語音信號(hào),并進(jìn)行降噪、回聲消除等預(yù)處理操作,確保語音質(zhì)量滿足識(shí)別要求實(shí)時(shí)語音識(shí)別環(huán)節(jié)是整個(gè)系統(tǒng)的第一個(gè)關(guān)鍵技術(shù)點(diǎn),它需要將連續(xù)的語音流實(shí)時(shí)轉(zhuǎn)換為文本流式機(jī)器翻譯環(huán)節(jié)是同聲翻譯系統(tǒng)的核心創(chuàng)新點(diǎn),它需要處理語音識(shí)別輸出的不完整句子,并進(jìn)行實(shí)時(shí)翻譯與傳統(tǒng)的整句翻譯不同,流式翻譯需要解決增量輸入、部分句子處理等特殊問題最后的語音合成輸出環(huán)節(jié)需要將翻譯后的文本轉(zhuǎn)換為目標(biāo)語言的語音同聲翻譯系統(tǒng)的架構(gòu)設(shè)計(jì)還需要考慮分布式計(jì)算、負(fù)載均衡等工程問題2.準(zhǔn)備英語朗讀素材文檔3.下載并安裝’訊飛同傳’打開’訊飛同傳’主頁面,單擊‘下載客戶端’,下載并安裝運(yùn)行“訊飛聽見”,登錄,單擊‘快速同傳’4.執(zhí)行同聲翻譯在同聲翻譯任務(wù)中,我們系統(tǒng)掌握了語音翻譯的完整技術(shù)鏈條,包括語音識(shí)別、文本翻譯和語音合成三個(gè)核心環(huán)節(jié)的協(xié)同工作機(jī)制。通過實(shí)踐深入理解了端到端神經(jīng)機(jī)器翻譯模型的架構(gòu)特點(diǎn),特別是基于Transformer的注意力機(jī)制在跨語言轉(zhuǎn)換中的關(guān)鍵作用,以及流式處理對(duì)實(shí)時(shí)性的特殊要求5.總結(jié)和實(shí)訓(xùn)任務(wù)總結(jié)播放一部你喜愛的英語發(fā)音電影,手機(jī)“訊飛同傳”APP設(shè)置成英譯漢,收聽翻譯成的中文語音,查看生成的漢語文本和英語文本電腦“訊飛同傳”客戶端設(shè)置成漢譯英,朗讀一篇文章,收聽翻譯成的英語語音,查看生成的英語文本和漢語文本5.總結(jié)和實(shí)訓(xùn)實(shí)訓(xùn)任務(wù)感謝觀看單元6制作數(shù)字人任務(wù)1生成主播圖片小愛同學(xué)擔(dān)任助農(nóng)志愿者,為推介家鄉(xiāng)蘋果制作數(shù)字人。她原本打算以自己的形象為原型,但考慮到個(gè)人隱私,她最終還是放棄了這一計(jì)劃。小愛同學(xué)開始廣泛收集資料,研究不同類型數(shù)字人的特點(diǎn)和應(yīng)用場(chǎng)景。她發(fā)現(xiàn),許多成功的虛擬主播并非以真人為原型,而是通過藝術(shù)化的設(shè)計(jì)和精心的形象塑造,贏得了觀眾的喜愛。這給了她很大的啟發(fā),她決定從家鄉(xiāng)的文化和蘋果的特點(diǎn)入手,設(shè)計(jì)一個(gè)獨(dú)具特色的數(shù)字人形象1.任務(wù)引入2.知識(shí)準(zhǔn)備–圖片生成界面通過輸入框下方的“導(dǎo)入?yún)⒖紙D”按鈕,可以輸入圖片,與提示詞一起作為生成圖片的輸入,實(shí)現(xiàn)圖像生成圖像2.知識(shí)準(zhǔn)備–圖片生成界面提示詞輸入框下方是“生圖模型”設(shè)置。單擊圖中箭頭2指向的“修改生成模型按鈕”,將出現(xiàn)右圖所示的生圖模型選擇框,可選的四種模型分別適用于文字海報(bào)、寫真攝影、文字遵循高及圖片基礎(chǔ)控制等不同場(chǎng)合2.知識(shí)準(zhǔn)備–設(shè)計(jì)提示詞樣例1:“未來感十足的賽博朋克都市,霓虹燈光璀璨,高聳的全息廣告牌,潮濕的街道反射著彩色光芒,穿著機(jī)械義體的行人穿梭其中,背景有懸浮車輛飛過,紫粉色與藍(lán)綠色為主色調(diào),帶有故障藝術(shù)效果,超精細(xì)8K畫質(zhì)”輸入上述提示詞,生成模型選“圖片2.0”,這種模型文字遵循高,寬高比3:22.知識(shí)準(zhǔn)備–設(shè)計(jì)提示詞樣例2:“傳統(tǒng)中國水墨風(fēng)格,層巒疊嶂的遠(yuǎn)山,近處蒼勁的松樹,瀑布飛流直下,薄霧繚繞山間,留白處有飛鳥點(diǎn)綴,整體黑白灰為主,筆觸瀟灑有力,宣紙紋理明顯,題跋印章完整,古典雅致”輸入上述提示詞,生成模型選“圖片XLPro”,這種模型支持圖片基礎(chǔ)控制,寬高比3:2。2.知識(shí)準(zhǔn)備–設(shè)計(jì)提示詞樣例3:“奇幻童話場(chǎng)景,陽光透過巨大蘑菇傘照射下來,發(fā)光的螢火蟲在空氣中漂浮,清澈的小溪流過彩虹色鵝卵石,遠(yuǎn)處有糖果屋和小精靈,色彩明亮柔和,充滿童趣,迪斯尼動(dòng)畫風(fēng)格,細(xì)節(jié)豐富”輸入上述提示詞,生成模型選“圖片2.0Pro”,這種模型擅長寫真攝影,寬高比3:2打開’即夢(mèng)AI’主頁面,單擊‘登錄’,手機(jī)號(hào)+短信碼,或掃碼登錄3.進(jìn)入’圖片生成’頁面3.進(jìn)入’圖片生成’頁面登錄后主界面單擊“數(shù)字人”中的“對(duì)口型”,新界面中單擊“圖片生成”4.設(shè)計(jì)提示詞專業(yè)助農(nóng)主播形象一位陽光活力的中國北方女大學(xué)生,20歲左右,扎著清爽的高馬尾,背景是豐收的蘋果園和蔚藍(lán)海岸線。她手持新鮮紅蘋果對(duì)著鏡頭微笑,專業(yè)主播姿態(tài),畫面采用寫實(shí)風(fēng)格,光線明亮自然,突出農(nóng)產(chǎn)品的新鮮質(zhì)感,4K高清細(xì)節(jié)Q版動(dòng)漫宣傳形象可愛Q版動(dòng)漫風(fēng)格的女大學(xué)生志愿者,圓圓的臉蛋帶著小酒窩,戴著草帽穿著雨靴,站在裝滿蘋果的竹筐旁邊。背景是簡筆畫的北方漁村和蘋果樹,色彩明快活潑,線條柔和,適合制作動(dòng)態(tài)表情包和宣傳動(dòng)畫5.輸入提示詞,設(shè)置生成參數(shù)6.檢查并下載生成的圖片通過生成主播圖片的實(shí)踐任務(wù),我們對(duì)AI圖像生成技術(shù)有了更深入的理解。熟悉了提示詞工程對(duì)生成效果的關(guān)鍵影響,并學(xué)會(huì)了通過參數(shù)調(diào)整優(yōu)化圖像質(zhì)量的技巧。這一過程讓我認(rèn)識(shí)到,良好的圖像生成不僅依賴算法,更需要對(duì)人臉特征、光影效果等視覺要素的精準(zhǔn)把控7.總結(jié)和實(shí)訓(xùn)任務(wù)總結(jié)為“制作旅游景點(diǎn)推介數(shù)字人”準(zhǔn)備主播圖片,主播為20歲的大學(xué)男生。設(shè)計(jì)提示詞和圖片生成參數(shù),在“即夢(mèng)AI”生成主播圖片7.總結(jié)和實(shí)訓(xùn)實(shí)訓(xùn)任務(wù)任務(wù)2生成背景音樂在完成數(shù)字人主播形象設(shè)計(jì)后,需要為其打造一段契合主題的背景音樂。音樂作為情感傳遞的重要載體,將直接影響整個(gè)數(shù)字人助農(nóng)推介視頻的感染力和傳播效果。這段音樂不僅要體現(xiàn)小愛同學(xué)作為大學(xué)生志愿者的青春活力,還要展現(xiàn)北方濱海農(nóng)村的地域特色,同時(shí)傳遞出助農(nóng)行動(dòng)的正能量1.任務(wù)引入2.知識(shí)準(zhǔn)備-文本生成音樂文本生成音樂和文本生成語音雖然同屬AI音頻生成領(lǐng)域,但本質(zhì)上解決的是兩類完全不同的問題文本生成音樂更像是一位虛擬作曲家的工作,它需要將抽象的文字描述轉(zhuǎn)化為具有藝術(shù)表現(xiàn)力的音樂作品,這個(gè)過程涉及對(duì)音樂理論的理解和創(chuàng)造性發(fā)揮。當(dāng)輸入"陽光明媚的早晨,輕快的吉他旋律"這樣的提示時(shí),系統(tǒng)不僅要識(shí)別出需要使用的樂器,還要構(gòu)建合適的調(diào)式、編排和弦進(jìn)行、設(shè)計(jì)節(jié)奏型,最終生成一段富有情感色彩的音樂文本生成音樂文本生成語音則更像是一位專業(yè)的播音員,它的核心任務(wù)是將書面文字準(zhǔn)確無誤地轉(zhuǎn)化為口語表達(dá),比如把"會(huì)議將在下午三點(diǎn)開始"這段文字用清晰自然的語音朗讀出來。這里的關(guān)鍵在于語音的準(zhǔn)確性和自然度文本生成語音2.知識(shí)準(zhǔn)備-音樂生成界面在人聲歌曲模式下,用戶可以通過輸入歌詞或主題描述,AI會(huì)自動(dòng)生成匹配的旋律和人聲演唱,適用于需要帶歌詞的音樂作品而在純音樂模式下,用戶只需輸入音樂風(fēng)格、情緒或樂器組合等描述,AI就能生成符合要求的背景音樂,適合視頻配樂、游戲音效等場(chǎng)景2.知識(shí)準(zhǔn)備-音樂生成界面在人聲歌曲界面,除了可以輸入提示詞,還可以設(shè)置音樂風(fēng)格,能提供了曲風(fēng)、心情和音色三個(gè)維度的音樂風(fēng)格參數(shù)設(shè)置,用戶可以通過調(diào)整這些選項(xiàng)來定制符合需求的音樂作品在純音樂界面,用戶除了可以輸入提示詞,還可以設(shè)置音樂風(fēng)格和時(shí)長,音樂風(fēng)格可選項(xiàng)包括:舞曲、電子、爵士、管弦樂、嘻哈、搖滾、R&B、放克2.知識(shí)準(zhǔn)備–設(shè)計(jì)提示詞樣例1:青春校園民謠“創(chuàng)作一首清新陽光的校園民謠,以原聲吉他為主伴奏,搭配輕快的鋼琴和弦樂鋪底。節(jié)奏明快(100-110BPM),旋律朗朗上口,適合大學(xué)生傳唱。歌詞圍繞"教室窗外的梧桐樹""圖書館的邂逅"等校園場(chǎng)景,表達(dá)青春期的懵懂與憧憬。女聲演唱要求音色清甜自然,副歌部分可加入和聲增強(qiáng)層次感。編曲保持簡潔,間奏可加入口琴solo增添文藝氣息。輸出高品質(zhì)MP3格式?!睒永?:濱海晨曦鋼琴曲“創(chuàng)作一首描繪北方濱海清晨的鋼琴獨(dú)奏曲,以舒緩的64-72BPM節(jié)奏呈現(xiàn)。主旋律采用明亮的C大調(diào),左手伴奏運(yùn)用海浪般起伏的琶音,在高音區(qū)點(diǎn)綴海鷗鳴叫的采樣音效。音樂結(jié)構(gòu)包含三個(gè)段落:晨霧彌漫的朦朧前奏、朝陽初升時(shí)的明朗主題、以及漁船出海時(shí)漸強(qiáng)的尾聲。要求音色干凈透亮,動(dòng)態(tài)變化細(xì)膩,避免過多踏板混響,保持清晨特有的清新感。時(shí)長2分30秒左右,適合作為鄉(xiāng)村宣傳片的背景音樂?!贝蜷_’即夢(mèng)AI’主頁面,單擊‘登錄’,手機(jī)號(hào)+短信碼,或掃碼登錄3.進(jìn)入’音樂生成’頁面3.進(jìn)入’音樂生成’頁面登錄后主界面單擊“數(shù)字人”中的“對(duì)口型”,新界面中單擊“音樂生成”4.設(shè)計(jì)提示詞青春校園民謠創(chuàng)作一首清新陽光的校園民謠,以原聲吉他為主伴奏,搭配輕快的鋼琴和弦樂鋪底。歌詞圍繞"教室窗外的梧桐樹""圖書館的邂逅"等校園場(chǎng)景。女聲演唱要求音色清甜自然,副歌部分可加入和聲增強(qiáng)層次感。編曲保持簡潔,輸出高品質(zhì)MP3格式濱海晨曦鋼琴曲創(chuàng)作一首描繪北方濱海清晨的鋼琴獨(dú)奏曲,以舒緩節(jié)奏呈現(xiàn)。主旋律采用明亮的C大調(diào),左手伴奏運(yùn)用海浪般起伏的琶音,在高音區(qū)點(diǎn)綴海鷗鳴叫的采樣音效。要求音色干凈透亮,動(dòng)態(tài)變化細(xì)膩,避免過多踏板混響,保持清晨特有的清新感。適合作為鄉(xiāng)村宣傳片的背景音樂5.輸入提示詞,設(shè)置生成參數(shù)6.檢查并下載生成的音樂在背景音樂生成實(shí)踐中,我們熟悉了AI音樂創(chuàng)作的技術(shù)原理與應(yīng)用方法。通過文本生成音樂的任務(wù),掌握了提示詞工程在音樂風(fēng)格控制中的關(guān)鍵作用當(dāng)前AI音樂生成技術(shù)展現(xiàn)出顯著優(yōu)勢(shì),包括快速響應(yīng)創(chuàng)作需求、提供多樣化風(fēng)格選擇,以及支持非專業(yè)用戶參與音樂制作。系統(tǒng)能夠根據(jù)簡單文本描述快速生成多個(gè)備選方案,大幅提升創(chuàng)作效率7.總結(jié)和實(shí)訓(xùn)任務(wù)總結(jié)選擇一首你喜歡的唐詩,設(shè)計(jì)提示詞,以這首詩為歌詞生成人聲歌曲。你有過心情不好的時(shí)候嗎?回想你當(dāng)時(shí)的感受,根據(jù)這種感受設(shè)計(jì)合適的提示詞生成純音樂7.總結(jié)和實(shí)訓(xùn)實(shí)訓(xùn)任務(wù)任務(wù)3生成數(shù)字人視頻完成了“生成主播圖片”和“生成背景音樂”這兩個(gè)驅(qū)動(dòng)任務(wù)以后,小愛同學(xué)進(jìn)入最重要的環(huán)節(jié)—“生成數(shù)字人視頻”這個(gè)任務(wù)將把之前生成的靜態(tài)圖片和動(dòng)態(tài)音樂結(jié)合起來,創(chuàng)造出一個(gè)生動(dòng)、引人入勝的數(shù)字人視頻,讓數(shù)字人“開口說話”,配合背景音樂,生動(dòng)地介紹家鄉(xiāng)的蘋果1.任務(wù)引入數(shù)字人生成技術(shù)體系包含3個(gè)關(guān)鍵環(huán)節(jié):形象生成、行為驅(qū)動(dòng)和智能交互2.知識(shí)準(zhǔn)備-數(shù)字人生成技術(shù)采用生成對(duì)抗網(wǎng)絡(luò)(GAN)或擴(kuò)散模型(DiffusionModel)等深度學(xué)習(xí)技術(shù),通過分析海量人臉數(shù)據(jù),學(xué)習(xí)人的五官分布、膚質(zhì)紋理等特征,并能根據(jù)文本描述和參考圖像生成不同風(fēng)格的虛擬形象。形象生成通常采用混合驅(qū)動(dòng)方式,結(jié)合程序化動(dòng)畫與數(shù)據(jù)驅(qū)動(dòng)方法。程序化動(dòng)畫通過骨骼系統(tǒng)和物理引擎實(shí)現(xiàn)基礎(chǔ)動(dòng)作,而數(shù)據(jù)驅(qū)動(dòng)則依賴動(dòng)作捕捉和表情識(shí)別技術(shù)獲取真實(shí)人體運(yùn)動(dòng)數(shù)據(jù)。最新的發(fā)展趨勢(shì)是引入強(qiáng)化學(xué)習(xí),使數(shù)字人能夠自主適應(yīng)不同交互場(chǎng)景行為驅(qū)動(dòng)智能交互系統(tǒng)則賦予數(shù)字人“思考”的能力?;贚LM的對(duì)話引擎使數(shù)字人能夠理解自然語言并生成合理回應(yīng)。情感計(jì)算模塊則通過分析用戶語音語調(diào)、面部表情等信息,調(diào)整數(shù)字人的響應(yīng)策略。多模態(tài)融合技術(shù)確保語言、表情和動(dòng)作協(xié)調(diào)一致,創(chuàng)造沉浸式的交互體驗(yàn)智能交互2.知識(shí)準(zhǔn)備-數(shù)字人生成界面“對(duì)口型”模式是一種通過AI技術(shù)實(shí)現(xiàn)數(shù)字人與輸入音頻同步口型的功能。在該模式下,系統(tǒng)會(huì)分析音頻中的語音內(nèi)容,自動(dòng)生成與之匹配的口型變化,確保數(shù)字人的嘴唇動(dòng)作與語音高度吻合。這種技術(shù)通常基于語音識(shí)別和口型動(dòng)畫合成算法,能夠處理多種語言和發(fā)音細(xì)節(jié),使數(shù)字人的表達(dá)更加自然逼真“動(dòng)作模仿”模式則允許數(shù)字人復(fù)制真實(shí)人物的動(dòng)作或遵循預(yù)設(shè)的動(dòng)作模板。該模式通過攝像頭或動(dòng)作捕捉設(shè)備捕捉真人動(dòng)作數(shù)據(jù),或調(diào)用預(yù)存的動(dòng)畫庫,驅(qū)動(dòng)數(shù)字人的肢體、面部表情或手勢(shì)動(dòng)作。系統(tǒng)會(huì)將動(dòng)作數(shù)據(jù)映射到數(shù)字人的骨骼或控制點(diǎn)上,實(shí)現(xiàn)實(shí)時(shí)或離線的動(dòng)作重現(xiàn)2.知識(shí)準(zhǔn)備-數(shù)字人生成界面導(dǎo)入角色圖片:上傳主播圖片單擊右圖箭頭1指向的圖標(biāo),將打開“朗讀角色”選擇框,滑動(dòng)箭頭2指向的滾動(dòng)條可以查看所有可選的朗讀角色。朗讀角色是指系統(tǒng)提供的多種不同風(fēng)格的語音合成選項(xiàng),每個(gè)角色都代表一種獨(dú)特的聲音特征和表達(dá)方式。這些角色主要根據(jù)聲音的性別、年齡、職業(yè)特點(diǎn)和情感風(fēng)格進(jìn)行分類,用戶可以根據(jù)視頻內(nèi)容的需要選擇最適合的語音類型體驗(yàn)版只能生成30s視頻,講話稿字?jǐn)?shù)為150字左右3.準(zhǔn)備數(shù)字人播報(bào)文稿打開’即夢(mèng)AI’主頁面,單擊‘登錄’,手機(jī)號(hào)+短信碼,或掃碼登錄4.進(jìn)入’數(shù)字人’頁面4.進(jìn)入’數(shù)字人’頁面登錄后主界面單擊“數(shù)字人”中的“對(duì)口型”,新界面中單擊“數(shù)字人”5.制作數(shù)字人設(shè)置數(shù)字人生成參數(shù)5.制作數(shù)字人檢查生成的數(shù)字人視頻數(shù)字人制作平臺(tái)操作界面直觀,無需專業(yè)視頻制作技能即可上手,同時(shí)提供個(gè)性化調(diào)整選項(xiàng),如風(fēng)格、情感和聲音效果的定制,使學(xué)習(xí)成果更具創(chuàng)意數(shù)字人制作平臺(tái)為在校學(xué)生的數(shù)字人視頻驅(qū)動(dòng)學(xué)習(xí)任務(wù)提供了強(qiáng)大的技術(shù)支持,既提升了學(xué)習(xí)效率,又激發(fā)了創(chuàng)造力6.總結(jié)和實(shí)訓(xùn)任務(wù)總結(jié)想一想你的家鄉(xiāng)有什么旅游景點(diǎn),制作一個(gè)旅游景點(diǎn)推介數(shù)字人6.總結(jié)和實(shí)訓(xùn)實(shí)訓(xùn)任務(wù)感謝觀看單元7人工智能的行業(yè)應(yīng)用1.工業(yè)制造—智能制造的AI引擎智能質(zhì)量檢測(cè)系統(tǒng)的核心在于讓機(jī)器具備了"看"和"判斷"的能力。系統(tǒng)通過工業(yè)相機(jī)獲取產(chǎn)品圖像,利用先進(jìn)的算法分析圖像特征,自動(dòng)識(shí)別出各種缺陷和異常。與人類質(zhì)檢員不同,這套系統(tǒng)可以24小時(shí)不間斷工作,保持始終如一的檢測(cè)標(biāo)準(zhǔn),完全不受疲勞、情緒等因素的影響智能質(zhì)量檢測(cè)1.工業(yè)制造—智能制造的AI引擎?zhèn)鹘y(tǒng)的設(shè)備維護(hù)方式主要分為兩種:事后維修和定期維護(hù)。事后維修是在設(shè)備發(fā)生故障后才進(jìn)行修理,這種方式往往會(huì)造成嚴(yán)重的生產(chǎn)中斷和經(jīng)濟(jì)損失;定期維護(hù)則是按照固定周期進(jìn)行檢修,雖然能減少突發(fā)故障,但存在過度維護(hù)或維護(hù)不足的問題預(yù)測(cè)性維護(hù)通過人工智能技術(shù)改變了這一局面,它能夠?qū)崟r(shí)監(jiān)測(cè)設(shè)備狀態(tài),準(zhǔn)確預(yù)測(cè)可能發(fā)生的故障,在最佳時(shí)機(jī)進(jìn)行維護(hù),從而大幅提升設(shè)備的運(yùn)行可靠性并降低維護(hù)成本生產(chǎn)設(shè)備預(yù)測(cè)性維護(hù)1.工業(yè)制造—智能制造的AI引擎?zhèn)鹘y(tǒng)的工業(yè)機(jī)器人正在經(jīng)歷一場(chǎng)深刻的變革。過去那些被安全圍欄隔離、按照固定程序重復(fù)作業(yè)的機(jī)械臂,如今正逐漸進(jìn)化為能夠與人類并肩工作的智能伙伴。這種轉(zhuǎn)變?cè)从谌斯ぶ悄芗夹g(shù)的突破性發(fā)展,使得機(jī)器人具備了環(huán)境感知、自主決策和靈活適應(yīng)的能力。智能協(xié)作機(jī)器人不再只是生產(chǎn)線上孤立的自動(dòng)化單元,而是成為了智能制造系統(tǒng)中能夠與人交互、與環(huán)境互動(dòng)的有機(jī)組成部分,這徹底改變了傳統(tǒng)工業(yè)生產(chǎn)的組織方式智能機(jī)器人與人類協(xié)同工作傳統(tǒng)機(jī)械臂智能協(xié)作機(jī)器人2.農(nóng)業(yè)生產(chǎn)—精準(zhǔn)農(nóng)業(yè)的AI革命智能監(jiān)測(cè)與分析猶如一雙明亮的眼睛和一個(gè)智慧的大腦,它能夠?qū)崟r(shí)感知農(nóng)田的各種信息,并對(duì)其進(jìn)行深入的分析和挖掘,為農(nóng)業(yè)生產(chǎn)決策提供科學(xué)依據(jù)傳感器技術(shù)是智能監(jiān)測(cè)與分析的基礎(chǔ)。通過在農(nóng)田部署各種傳感器,如土壤濕度傳感器、土壤溫度傳感器、土壤養(yǎng)分傳感器、氣象傳感器等,可以實(shí)時(shí)采集農(nóng)田的各種環(huán)境數(shù)據(jù)智能監(jiān)測(cè)與分析2.農(nóng)業(yè)生產(chǎn)—精準(zhǔn)農(nóng)業(yè)的AI革命智能精準(zhǔn)施肥與灌溉技術(shù)猶如一位精細(xì)的“營養(yǎng)師”和“水資源管理者”,它能夠根據(jù)農(nóng)田的實(shí)際需求,精確地控制肥料和水分的施用量,從而實(shí)現(xiàn)資源的優(yōu)化配置和環(huán)境的可持續(xù)發(fā)展智能精準(zhǔn)施肥的核心在于對(duì)土壤養(yǎng)分和作物需求的實(shí)時(shí)監(jiān)測(cè)和分析,在農(nóng)田部署土壤養(yǎng)分傳感器和作物生長傳感器,可以實(shí)時(shí)采集土壤的養(yǎng)分含量和作物的生長狀況智能精準(zhǔn)灌溉的核心在于對(duì)土壤水分和作物需水的實(shí)時(shí)監(jiān)測(cè)和分析,通過在農(nóng)田部署土壤濕度傳感器和氣象傳感器,可以實(shí)時(shí)采集土壤的含水量和農(nóng)田的氣象條件精準(zhǔn)施肥與灌溉2.農(nóng)業(yè)生產(chǎn)—精準(zhǔn)農(nóng)業(yè)的AI革命智能農(nóng)機(jī)的核心在于自動(dòng)駕駛技術(shù)的應(yīng)用。通過搭載全球?qū)Ш叫l(wèi)星系統(tǒng)(GNSS)、激光雷達(dá)、攝像頭等傳感器,智能農(nóng)機(jī)能夠?qū)崟r(shí)感知農(nóng)田的環(huán)境信息,如地形、障礙物、作物生長狀況等農(nóng)業(yè)機(jī)器人的核心在于機(jī)器人技術(shù)和人工智能技術(shù)的應(yīng)用。通過搭載機(jī)械臂、視覺系統(tǒng)、力傳感器等設(shè)備,農(nóng)業(yè)機(jī)器人能夠完成農(nóng)田的精細(xì)化作業(yè),如蔬菜采摘、水果修剪、雜草清除等智能農(nóng)機(jī)與機(jī)器人3.交通運(yùn)輸—智慧出行與自動(dòng)駕駛時(shí)代智能交通管理已成為現(xiàn)代城市交通系統(tǒng)的核心組成部分。傳統(tǒng)的交通管理方式依賴固定信號(hào)燈配時(shí)和人工調(diào)度,難以應(yīng)對(duì)復(fù)雜的交通流量變化在交通流量預(yù)測(cè)方面,人工智能技術(shù)通過分析歷史數(shù)據(jù)和實(shí)時(shí)信息,能夠準(zhǔn)確預(yù)測(cè)未來短期內(nèi)的交通狀況人工智能在交通事故檢測(cè)與應(yīng)急響應(yīng)方面也發(fā)揮著關(guān)鍵作用。計(jì)算機(jī)視覺技術(shù)與AI算法的結(jié)合,實(shí)現(xiàn)了對(duì)交通事故的自動(dòng)識(shí)別和快速響應(yīng)。安裝在路側(cè)的智能攝像頭可以實(shí)時(shí)監(jiān)測(cè)交通狀況,當(dāng)檢測(cè)到車輛逆行、行人闖入或交通事故時(shí),系統(tǒng)能在秒級(jí)內(nèi)發(fā)出警報(bào)并通知相關(guān)部門智能交通管理3.交通運(yùn)輸—智慧出行與自動(dòng)駕駛時(shí)代基于人工智能的智能出行服務(wù)通過大數(shù)據(jù)分析、實(shí)時(shí)優(yōu)化和個(gè)性化推薦,顯著提升了出行效率和用戶體驗(yàn)。例如,智能導(dǎo)航系統(tǒng)不再僅提供最短路徑建議,而是結(jié)合實(shí)時(shí)交通流量、天氣狀況和用戶偏好,動(dòng)態(tài)調(diào)整最優(yōu)路線在共享出行領(lǐng)域,人工智能技術(shù)正在推動(dòng)網(wǎng)約車、共享單車等服務(wù)的智能化升級(jí)。通過機(jī)器學(xué)習(xí)算法,共享出行平臺(tái)可以精準(zhǔn)預(yù)測(cè)不同區(qū)域、不同時(shí)段的用車需求,實(shí)現(xiàn)車輛的智能調(diào)度和動(dòng)態(tài)定價(jià)停車難一直是城市交通的痛點(diǎn)問題,而智能停車服務(wù)正通過人工智能技術(shù)有效緩解這一難題智能出行服務(wù)3.交通運(yùn)輸—智慧出行與自動(dòng)駕駛時(shí)代自動(dòng)駕駛技術(shù)通過多傳感器融合、高精度定位、環(huán)境感知、決策規(guī)劃和車輛控制等核心技術(shù),實(shí)現(xiàn)了車輛在無人干預(yù)情況下的自主行駛乘用車領(lǐng)域的自動(dòng)駕駛技術(shù)應(yīng)用正處于快速發(fā)展階段,但同時(shí)也面臨著安全性和可靠性的雙重考驗(yàn)。近期發(fā)生的多起涉及輔助駕駛功能的嚴(yán)重事故也警示人們,這項(xiàng)技術(shù)仍存在明顯的局限性商用車領(lǐng)域的自動(dòng)駕駛應(yīng)用展現(xiàn)出更大的商業(yè)價(jià)值。在港口、礦山等封閉場(chǎng)景,自動(dòng)駕駛卡車已實(shí)現(xiàn)規(guī)?;\(yùn)營,在城市配送方面,美團(tuán)、京東等企業(yè)試點(diǎn)的無人配送車已累計(jì)完成數(shù)百萬單配送任務(wù)自動(dòng)駕駛技術(shù)4.家居生活—智能家居新生態(tài)智能控制系統(tǒng)的核心技術(shù)架構(gòu)包含三個(gè)關(guān)鍵組成部分:感知層、決策層和執(zhí)行層感知層由各類環(huán)境傳感器和設(shè)備狀態(tài)監(jiān)測(cè)模塊構(gòu)成,如溫度傳感器、濕度傳感器、電流傳感器等,這些元件如同系統(tǒng)的"感官神經(jīng)",持續(xù)采集環(huán)境參數(shù)和設(shè)備運(yùn)行數(shù)據(jù)決策層是系統(tǒng)的"大腦",采用機(jī)器學(xué)習(xí)算法對(duì)感知數(shù)據(jù)進(jìn)行分析處理,常見的包括基于規(guī)則的專家系統(tǒng)、神經(jīng)網(wǎng)絡(luò)模型和深度學(xué)習(xí)算法等,這些算法能夠從歷史數(shù)據(jù)中學(xué)習(xí)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中式烹調(diào)師(中級(jí))理論考試試卷(烹飪工業(yè)互聯(lián)網(wǎng))
- 2025年足部按摩師(足部按摩師按摩師職業(yè)培訓(xùn)改革)考試試卷
- 2025年中式烹調(diào)師(技師)職業(yè)技能鑒定試卷:烹飪調(diào)味品在菜品中的應(yīng)用
- 2025年造價(jià)員考試建筑工程造價(jià)信息化試卷
- 2025年注冊(cè)測(cè)繪師考試測(cè)繪工程測(cè)量與地理信息系統(tǒng)網(wǎng)絡(luò)安全試題
- 高速公路交叉口改造與優(yōu)化方案
- 二零二五年咖啡廳店鋪裝修設(shè)計(jì)與施工合同
- 建筑設(shè)備安裝與調(diào)試方案
- 2025年網(wǎng)紅店鋪?zhàn)赓U管理合同范本
- 2025年白酒產(chǎn)品創(chuàng)新設(shè)計(jì)委托加工服務(wù)協(xié)議
- 醫(yī)院健康教育基本知識(shí)全員培訓(xùn)
- 創(chuàng)新型物理實(shí)驗(yàn)室設(shè)計(jì)思路
- 某集團(tuán)干部選拔任用工作指導(dǎo)手冊(cè)
- 整體鋼平臺(tái)模架驗(yàn)收記錄表
- 3500常用漢字(頻度版)
- 萬華管理模式與組織結(jié)構(gòu)方案
- 七年級(jí)上冊(cè)《朝花夕拾》專題閱讀任務(wù)單(含答案)
- 物業(yè)服務(wù)設(shè)備配置清單
- 中醫(yī)醫(yī)院處方箋模板
- GB/T 4937.42-2023半導(dǎo)體器件機(jī)械和氣候試驗(yàn)方法第42部分:溫濕度貯存
- 0-36 個(gè)月兒童中醫(yī)藥保健管理服務(wù)技術(shù)規(guī)范
評(píng)論
0/150
提交評(píng)論