人工智能通識(shí)教程 課件 第9章-多模態(tài)人工智能_第1頁
人工智能通識(shí)教程 課件 第9章-多模態(tài)人工智能_第2頁
人工智能通識(shí)教程 課件 第9章-多模態(tài)人工智能_第3頁
人工智能通識(shí)教程 課件 第9章-多模態(tài)人工智能_第4頁
人工智能通識(shí)教程 課件 第9章-多模態(tài)人工智能_第5頁
已閱讀5頁,還剩56頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第九章多模態(tài)人工智能主講教師:丁雪妍人工智能通識(shí)基礎(chǔ)1目錄2第九章多模態(tài)人工智能多模態(tài)數(shù)據(jù)01多模態(tài)表示學(xué)習(xí)02多模態(tài)預(yù)訓(xùn)練模型03多模態(tài)交互技術(shù)04多模態(tài)人工智能的應(yīng)用05目錄多模態(tài)數(shù)據(jù)0131多模態(tài)數(shù)據(jù)1.1多模態(tài)數(shù)據(jù)的類型多模態(tài)數(shù)據(jù)(MultimodalData)是指來自不同模態(tài)的數(shù)據(jù)集合,這些模態(tài)可以包括文本、圖像、音頻、視頻、傳感器數(shù)據(jù)等。視覺嗅覺觸覺味覺聽覺人類通過多種感官感知世界4人工智能系統(tǒng)通過不同的傳感器進(jìn)行環(huán)境感知與決策1多模態(tài)數(shù)據(jù)1.1多模態(tài)數(shù)據(jù)的類型視頻模態(tài)以動(dòng)態(tài)影像和同步音頻組成的信息模態(tài),融合融合圖像與時(shí)序信息,支持事件理解、動(dòng)作識(shí)別與生成等任務(wù)音頻模態(tài)以聲音信號(hào)形式呈現(xiàn)的信息模態(tài),提供聲學(xué)特征和語音內(nèi)容,支持語音識(shí)別、情感分析及語音生成等任務(wù)圖像模態(tài)以靜態(tài)圖像形式呈現(xiàn)的信息模態(tài),提供豐富的視覺內(nèi)容,適用于圖像識(shí)別、內(nèi)容生成與場(chǎng)景理解等任務(wù)其他模態(tài)包括傳感器、觸覺、生理與空間等模態(tài)(如溫度、振動(dòng)、腦電、軌跡),拓展系統(tǒng)對(duì)環(huán)境與用戶狀態(tài)的多維感知文本模態(tài)以自然語言文字形式呈現(xiàn)的信息模態(tài),提供語義背景與任務(wù)指令,支持文本生成、問答推理與命令執(zhí)行等任務(wù)51多模態(tài)數(shù)據(jù)1.1多模態(tài)數(shù)據(jù)的類型6不同模態(tài)數(shù)據(jù)在結(jié)構(gòu)和表達(dá)形式上存在顯著差異。為實(shí)現(xiàn)高效融合與智能處理,通常需構(gòu)建系統(tǒng)化的分階段流程,主要包括以下四個(gè)環(huán)節(jié):文本圖像音頻其他視頻模態(tài)感知與特征提取使用專用編碼器將不同模態(tài)原始數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一向量表示語義理解與推理基于融合后的表示進(jìn)行分類、生成、檢索、推理等任務(wù)模態(tài)對(duì)齊與融合利用注意力機(jī)制等將多模態(tài)特征映射至統(tǒng)一語義空間,實(shí)現(xiàn)融合模態(tài)輸出生成根據(jù)任務(wù)需求,輸出文本、圖像、音視頻等單一或多模態(tài)結(jié)果71.2多模態(tài)數(shù)據(jù)的挑戰(zhàn)1多模態(tài)數(shù)據(jù)1.2多模態(tài)數(shù)據(jù)的挑戰(zhàn)8在實(shí)際應(yīng)用中,多模態(tài)數(shù)據(jù)往往面臨噪聲、缺失、不平衡和質(zhì)量波動(dòng)等多重挑戰(zhàn),這些問題直接影響著人工智能系統(tǒng)的性能和穩(wěn)定性。圖片來源:Multimodalfusiononlow-qualitydata:Acomprehensivesurvey嘈雜的多模態(tài)數(shù)據(jù)在采集傳輸中受噪聲干擾,傳感器誤差、環(huán)境變化或信號(hào)遮擋等。不完整的多模態(tài)數(shù)據(jù)因傳感器故障、成本或需求差異而缺失,導(dǎo)致信息不完整。不平衡的多模態(tài)數(shù)據(jù)因模態(tài)差異導(dǎo)致數(shù)據(jù)不平衡,模型依賴強(qiáng)模態(tài),忽略弱模態(tài)。質(zhì)量動(dòng)態(tài)變化的多模態(tài)數(shù)據(jù)數(shù)據(jù)質(zhì)量隨環(huán)境變化或設(shè)備性能波動(dòng),影響系統(tǒng)判斷與使用。目錄多模態(tài)表示學(xué)習(xí)0292多模態(tài)表示學(xué)習(xí)2.1聯(lián)合嵌入10嵌入(Embedding)是指將高維、復(fù)雜、難以直接處理的數(shù)據(jù),轉(zhuǎn)化為低維、結(jié)構(gòu)化、可計(jì)算的向量表示的過程??梢园阉斫鉃椤胺g”——把圖像、文字、聲音等不同形式的信息,轉(zhuǎn)換成計(jì)算機(jī)容易理解和處理的一種“數(shù)字語言”。我愛學(xué)習(xí)這句話對(duì)人類來說意義明確,但計(jì)算機(jī)并不能直接理解。輸入文本:“我愛學(xué)習(xí)”輸出向量:[0.15,-0.27,0.88,...]嵌入技術(shù)通過嵌入技術(shù),計(jì)算機(jī)將語言轉(zhuǎn)換為可處理的數(shù)字向量2多模態(tài)表示學(xué)習(xí)2.1聯(lián)合嵌入11在單模態(tài)嵌入中,例如文本嵌入,語義相近的詞語或句子會(huì)被映射到向量空間中相鄰的位置。同樣地,在圖像嵌入中,外觀相似的圖像也會(huì)在嵌入空間中聚集于彼此接近的區(qū)域。2多模態(tài)表示學(xué)習(xí)2.1聯(lián)合嵌入12聯(lián)合嵌入(JointEmbedding)是一種將來自不同模態(tài)的數(shù)據(jù)映射到同一個(gè)共享表示空間的技術(shù),使同類數(shù)據(jù)的相似點(diǎn)靠得更近。不同模態(tài)中含義相近的數(shù)據(jù)也會(huì)聚集在一起,這種跨模態(tài)的“靠近”現(xiàn)象稱為對(duì)齊(alignment),實(shí)現(xiàn)了語義上的一致理解。2多模態(tài)表示學(xué)習(xí)2.1聯(lián)合嵌入13這里我們通過一個(gè)基于聯(lián)合嵌入的視覺問答系統(tǒng),簡(jiǎn)要介紹聯(lián)合嵌入的基本實(shí)現(xiàn)流程。步驟:圖像特征提?。菏褂镁矸e神經(jīng)網(wǎng)絡(luò)提取圖像中的高級(jí)語義特征,如“山”“樹”等。文本特征提?。簩栴}句子通過詞嵌入和循環(huán)神經(jīng)網(wǎng)絡(luò)編碼為語義向量。聯(lián)合映射:通過映射函數(shù)(如全連接層)將不同模態(tài)特征投射到共享空間,保證語義相近的數(shù)據(jù)點(diǎn)在空間中彼此靠近。答案生成或分類:在共享空間中進(jìn)行匹配,用分類器選出答案或生成模型輸出完整回答。142.2跨模態(tài)注意力機(jī)制2多模態(tài)表示學(xué)習(xí)2.2跨模態(tài)注意力機(jī)制15跨模態(tài)注意力機(jī)制是一種用于處理和融合多模態(tài)數(shù)據(jù)的深度學(xué)習(xí)方法。其核心思想是通過計(jì)算不同模態(tài)間的相關(guān)性,動(dòng)態(tài)調(diào)整信息權(quán)重,實(shí)現(xiàn)模態(tài)之間的對(duì)齊、融合與互補(bǔ)。模態(tài)對(duì)齊動(dòng)態(tài)加權(quán)雙向交互核心功能計(jì)算模態(tài)間相似度,建立統(tǒng)一空間中的映射支持模態(tài)間信息流動(dòng),強(qiáng)化協(xié)同表達(dá)與理解能力依據(jù)相關(guān)性分配注意力,突出重點(diǎn),抑制冗余干擾2多模態(tài)表示學(xué)習(xí)2.2跨模態(tài)注意力機(jī)制16跨模態(tài)注意力機(jī)制通過以下幾個(gè)步驟實(shí)現(xiàn)模態(tài)之間的有效融合與信息傳遞:步驟:特征投影:不同模態(tài)數(shù)據(jù)通過投影矩陣(????,????,????)轉(zhuǎn)換為統(tǒng)一空間的查詢??、鍵??、值??表示。權(quán)重計(jì)算:通過點(diǎn)積計(jì)算??與??的相似度,得到注意力權(quán)重,通過Softmax歸一化。特征聚合:用注意力權(quán)重加權(quán)??,生成融合后的增強(qiáng)特征表示。目錄多模態(tài)預(yù)訓(xùn)練模型03173多模態(tài)預(yù)訓(xùn)練模型3.1CLIP模型18對(duì)比語言-圖像預(yù)訓(xùn)練模型(ContrastiveLanguage-ImagePretraining,CLIP)是由OpenAI

提出的一種多模態(tài)預(yù)訓(xùn)練模型,利用約4億個(gè)互聯(lián)網(wǎng)圖像-文本對(duì)進(jìn)行對(duì)比學(xué)習(xí),旨在同時(shí)理解圖像和自然語言,學(xué)習(xí)到通用的圖文對(duì)齊表示。通用對(duì)齊零樣本學(xué)習(xí)大規(guī)模訓(xùn)練主要特點(diǎn)同時(shí)理解圖像和文本,實(shí)現(xiàn)語義對(duì)齊利用海量互聯(lián)網(wǎng)圖文對(duì)數(shù)據(jù)無需專門訓(xùn)練即可識(shí)別未見類別多任務(wù)適應(yīng)支持分類、檢索、生成等多種任務(wù)3多模態(tài)預(yù)訓(xùn)練模型3.1CLIP模型19CLIP模型由圖像與文本編碼器組成,利用大規(guī)模圖文對(duì)比學(xué)習(xí)構(gòu)建統(tǒng)一語義空間,實(shí)現(xiàn)無需額外訓(xùn)練的零樣本圖像識(shí)別。主要包括以下三個(gè)步驟:(1)對(duì)比預(yù)訓(xùn)練,(2)根據(jù)標(biāo)簽文本創(chuàng)建數(shù)據(jù)集分類器,(3)零樣本預(yù)測(cè)。文本編碼器圖像編碼器文本編碼器圖像編碼器3多模態(tài)預(yù)訓(xùn)練模型3.1CLIP模型20(1)對(duì)比預(yù)訓(xùn)練:通過圖像和文字配對(duì)進(jìn)行訓(xùn)練,圖像和文本分別編碼后,模型學(xué)習(xí)讓正確配對(duì)的相似度更高,錯(cuò)誤配對(duì)的相似度更低。步驟:輸入:大量圖像-文本對(duì)作為訓(xùn)練數(shù)據(jù)。特征編碼:圖像和文本分別編碼成向量。相似度矩陣:計(jì)算所有圖像向量與文本向量的相似度。構(gòu)造正負(fù)樣本:正樣本為圖像和對(duì)應(yīng)文本的配對(duì)(對(duì)角線元素);負(fù)樣本為圖像與非對(duì)應(yīng)文本的配對(duì)(非對(duì)角線元素)。訓(xùn)練目標(biāo):通過對(duì)比學(xué)習(xí)拉近配對(duì)圖像-文本向量距離、拉遠(yuǎn)不配對(duì)的距離文本編碼器圖像編碼器3多模態(tài)預(yù)訓(xùn)練模型3.1CLIP模型21(2)根據(jù)標(biāo)簽文本創(chuàng)建數(shù)據(jù)集分類器:將類別標(biāo)簽轉(zhuǎn)換為自然語言句子并編碼為向量,構(gòu)建可用于圖像匹配的“文本分類器”。步驟:類別轉(zhuǎn)自然語言:將每個(gè)類別名稱套入統(tǒng)一模板,批量生成自然語言描述句,以提升語義表達(dá)的通用性。特征編碼:通過預(yù)訓(xùn)練的文本編碼器,將這些句子編碼為文本特征向量(T1,T2,…,TN)。這些向量構(gòu)成分類的語義空間參考,替代傳統(tǒng)的類別標(biāo)簽。文本編碼器3多模態(tài)預(yù)訓(xùn)練模型3.1CLIP模型22(3)零樣本預(yù)測(cè):通過計(jì)算圖像與所有類別描述的相似度,選擇最匹配的文本作為分類結(jié)果,實(shí)現(xiàn)零樣本預(yù)測(cè)。步驟:圖像編碼:輸入圖像,經(jīng)過預(yù)訓(xùn)練的圖像編碼器,得到圖像特征向量I1。相似度計(jì)算:計(jì)算I1與所有類別文本特征向量(T1,T2,…,TN)的余弦相似度。預(yù)測(cè):選擇相似度最高的文本類別作為預(yù)測(cè)結(jié)果。文本編碼器圖像編碼器233.2ALIGN模型3多模態(tài)預(yù)訓(xùn)練模型3.2ALIGN模型24大規(guī)模圖像和噪聲文本嵌入模型(ALarge-scaleImageandNoisy-TextEmbedding,ALIGN)由Google提出,延續(xù)了對(duì)比學(xué)習(xí)的基本思想,但在數(shù)據(jù)規(guī)模與訓(xùn)練策略上進(jìn)行了更大幅度的擴(kuò)展。語義空間對(duì)齊更大規(guī)模訓(xùn)練數(shù)據(jù)無需人工標(biāo)注主要特點(diǎn)圖文編碼器聯(lián)合訓(xùn)練利用互聯(lián)網(wǎng)抓取文本超越CLIP的4億對(duì)3多模態(tài)預(yù)訓(xùn)練模型3.2ALIGN模型25ALIGN模型在訓(xùn)練中采用了規(guī)模極其龐大但未經(jīng)精細(xì)清洗的圖文配對(duì)數(shù)據(jù)。這些數(shù)據(jù)主要來源于互聯(lián)網(wǎng)上的圖像及其對(duì)應(yīng)的alt-text,即網(wǎng)頁中為圖像提供的描述性文字。3多模態(tài)預(yù)訓(xùn)練模型3.2ALIGN模型26ALIGN模型同樣采用雙編碼器架構(gòu),包括獨(dú)立的圖像編碼器與文本編碼器。通過對(duì)比學(xué)習(xí)方法,將圖像和文本嵌入到同一個(gè)語義空間中,實(shí)現(xiàn)了圖文特征的精確對(duì)齊。步驟:圖像編碼:基于EfficientNet架構(gòu),一種高效卷積神經(jīng)網(wǎng)絡(luò),兼顧準(zhǔn)確率與效率。文本編碼:采用BERT模型,利用多層Transformer捕捉上下文語義,通過自監(jiān)督預(yù)訓(xùn)練獲得豐富語言表示。模態(tài)對(duì)齊與對(duì)比學(xué)習(xí):圖文特征歸一化后計(jì)算余弦相似度,采用對(duì)比損失提升正樣本相似度,拉遠(yuǎn)負(fù)樣本距離。圖片來源:ScalingUpVisualandVision-LanguageRepresentationLearningWithNoisyTextSupervision目錄多模態(tài)交互技術(shù)04274多模態(tài)交互技術(shù)4.1多模態(tài)人機(jī)交互28多模態(tài)人機(jī)交互通過語音、圖像、文本、觸覺等多種信息形式,實(shí)現(xiàn)人與計(jì)算機(jī)之間更為豐富的信息交流。下面介紹多模態(tài)人機(jī)交互的幾種常見技術(shù)。語音交互用戶通過語音指令與設(shè)備進(jìn)行交流,系統(tǒng)通過語音識(shí)別和自然語言理解實(shí)現(xiàn)命令執(zhí)行和信息反饋。觸覺交互通過觸摸屏、力反饋設(shè)備或可穿戴設(shè)備,感知用戶的觸摸動(dòng)作和壓力變化,提供物理反饋。視覺交互利用攝像頭和圖像識(shí)別技術(shù),捕捉用戶的面部表情、手勢(shì)、眼動(dòng)等視覺信息,實(shí)現(xiàn)交互體驗(yàn)。生物特征交互基于人體獨(dú)特的生物信號(hào)(如指紋、腦電、心率等)進(jìn)行身份識(shí)別、情緒感知或意圖檢測(cè)。空間感知交互通過深度攝像頭、傳感器等設(shè)備感知用戶空間位置、動(dòng)作和環(huán)境,實(shí)現(xiàn)虛實(shí)結(jié)合或智能環(huán)境響應(yīng)。4多模態(tài)交互技術(shù)4.1多模態(tài)人機(jī)交互29語音交互技術(shù)是指計(jì)算機(jī)系統(tǒng)通過語音識(shí)別、語義理解、語音合成等手段,實(shí)現(xiàn)對(duì)用戶語音指令的理解與響應(yīng),構(gòu)建自然的語音對(duì)話環(huán)境。應(yīng)用場(chǎng)景智能手機(jī)助手:AppleSiri、華為小藝、小米小愛等智能家居:語音控制燈光、電器、空調(diào)等車載語音系統(tǒng):特斯拉語音助手、斑馬智行等車載語音導(dǎo)航教育與無障礙輔助:針對(duì)兒童、老人、視障人士的語音交互系統(tǒng)客戶服務(wù)與語音機(jī)器人:電話客服系統(tǒng)、智能語音客服語音識(shí)別語義理解對(duì)話管理語音合成轉(zhuǎn)換成文字提取意圖與信息生成回應(yīng)策略輸出語音內(nèi)容4多模態(tài)交互技術(shù)4.1多模態(tài)人機(jī)交互30視覺交互是指通過圖像或視頻等視覺信息,實(shí)現(xiàn)人與計(jì)算機(jī)之間的自然交流。系統(tǒng)通過攝像頭等傳感設(shè)備“看見”用戶的行為,并理解其意圖,從而作出智能響應(yīng)。常見技術(shù)圖像識(shí)別與目標(biāo)檢測(cè):識(shí)別人臉、手勢(shì)、物體等,是視覺交互的基礎(chǔ),如刷臉支付、人臉門禁系統(tǒng)。姿態(tài)估計(jì)與手勢(shì)識(shí)別:識(shí)別身體動(dòng)作或手勢(shì),用于體感控制、手勢(shì)輸入。如用手勢(shì)操控電視、滑動(dòng)翻頁。眼動(dòng)追蹤:分析視線方向,用于疲勞監(jiān)測(cè)、注意力評(píng)估,常見于駕駛輔助與智能教育。增強(qiáng)現(xiàn)實(shí)(AR)視覺融合:將虛擬圖像疊加于真實(shí)場(chǎng)景,如AR試衣鏡、AR導(dǎo)航。圖片來源:/@nicjames0515/augmented-reality-the-next-step-closer-to-transhumanism-7c461025b0544多模態(tài)交互技術(shù)4.1多模態(tài)人機(jī)交互31觸覺交互指的是通過觸覺(包括力、振動(dòng)、紋理、溫度等)來進(jìn)行信息的傳達(dá)與交互,能帶來更具沉浸感和真實(shí)性的體驗(yàn)。在虛擬現(xiàn)實(shí)(VR)、增強(qiáng)現(xiàn)實(shí)(AR)、遠(yuǎn)程操作、機(jī)器人控制、醫(yī)療康復(fù)等領(lǐng)域有廣泛應(yīng)用。圖片來源:Luo,Y.,Liu,C.,Lee,Y.J.etal.Adaptivetactileinteractiontransferviadigitallyembroideredsmartgloves.NatCommun15,868(2024).應(yīng)用示例用于遠(yuǎn)程操作的觸覺交互:操作者佩戴集成定位點(diǎn)與振動(dòng)單元的手套,通過振動(dòng)反饋精準(zhǔn)控制機(jī)械臂夾具,即使在視覺受限環(huán)境中,也能穩(wěn)定抓取易碎或柔軟物體,大幅提升遠(yuǎn)程精細(xì)操作能力。跨用戶的自適應(yīng)觸覺交互:集成傳感與振動(dòng)單元的智能手套可捕捉用戶觸覺并傳輸給他人。例如,在鋼琴教學(xué)中,教師演奏節(jié)奏并記錄觸覺序列,學(xué)生通過手套精準(zhǔn)重現(xiàn)。4多模態(tài)交互技術(shù)4.1多模態(tài)人機(jī)交互32生物特征交互通過采集用戶的生理信號(hào)(如腦電、心率)或行為特征(如眼動(dòng)、肌電),系統(tǒng)能夠感知用戶狀態(tài)并做出相應(yīng)反饋。例如,通過眼動(dòng)控制光標(biāo)、以肌電信號(hào)驅(qū)動(dòng)假肢,或根據(jù)腦電波調(diào)整虛擬現(xiàn)實(shí)中的交互節(jié)奏。應(yīng)用示例圖片來源:/products/epoc-x華為智能手表:搭載先進(jìn)生物傳感器,實(shí)時(shí)監(jiān)測(cè)用戶的心率變異性(HRV)與皮膚電活動(dòng)(EDA),評(píng)估用戶的情緒狀態(tài)與心理壓力水平。數(shù)據(jù)經(jīng)內(nèi)置健康管理算法分析,可向用戶提供壓力評(píng)分、放松建議、睡眠質(zhì)量評(píng)估等個(gè)性化反饋。EmotivEEG頭戴設(shè)備:通過非侵入式腦電波(EEG)傳感器實(shí)時(shí)采集用戶的腦電信號(hào),結(jié)合AI識(shí)別用戶的注意力、情緒,甚至“意圖”。在游戲中,用戶可通過集中注意力控制虛擬物體或VR場(chǎng)景。4多模態(tài)交互技術(shù)4.1多模態(tài)人機(jī)交互33空間感知交互通過傳感器(如深度攝像頭、慣性測(cè)量單元、激光雷達(dá)等)感知用戶在空間中的位置、姿態(tài)或手勢(shì),使系統(tǒng)能夠理解用戶的行為意圖,實(shí)現(xiàn)自然的人機(jī)交互。應(yīng)用示例圖片來源:/news/2023/09/meet-meta-quest-3-mixed-reality-headset/智能家居中的空間識(shí)別:例如智能燈根據(jù)用戶在房間中的位置自動(dòng)調(diào)節(jié)亮度或開啟,體現(xiàn)環(huán)境對(duì)用戶空間狀態(tài)的響應(yīng)。VR體感系統(tǒng)MetaQuest:通過頭戴式設(shè)備與空間追蹤手柄,實(shí)現(xiàn)用戶在虛擬空間中的自由移動(dòng)與精確操作,提供完全沉浸的虛擬現(xiàn)實(shí)體驗(yàn)。MicrosoftHoloLens:混合現(xiàn)實(shí)(MixedReality)頭戴設(shè)備,集成深度攝像頭、紅外傳感器、慣性測(cè)量單元(IMU)等硬件,能夠?qū)崟r(shí)感知用戶頭部位置、手勢(shì)動(dòng)作和空間環(huán)境,實(shí)現(xiàn)虛實(shí)融合的交互體驗(yàn)。344.2多模態(tài)對(duì)話系統(tǒng)4多模態(tài)交互技術(shù)4.2多模態(tài)對(duì)話系統(tǒng)35任務(wù)導(dǎo)向型對(duì)話系統(tǒng)以完成特定任務(wù)為目標(biāo),如訂票、點(diǎn)餐、導(dǎo)航、客戶服務(wù)等。其核心在于理解用戶意圖、獲取關(guān)鍵信息,并通過多輪對(duì)話引導(dǎo)用戶完成目標(biāo)操作。主要特點(diǎn)數(shù)據(jù)結(jié)構(gòu)化、場(chǎng)景固定更注重交互效率與準(zhǔn)確性主要評(píng)估任務(wù)完成率、對(duì)話成功率等4多模態(tài)交互技術(shù)4.2多模態(tài)對(duì)話系統(tǒng)36信息檢索型對(duì)話系統(tǒng)專注于快速響應(yīng)用戶的知識(shí)類查詢,例如天氣、百科或?qū)崟r(shí)新聞。它們依賴大規(guī)模知識(shí)庫與搜索引擎技術(shù),結(jié)合語義匹配和知識(shí)圖譜增強(qiáng)答案的準(zhǔn)確性。主要特點(diǎn)面向知識(shí)查詢,回答事實(shí)性問題依賴外部知識(shí)源,結(jié)合搜索引擎或數(shù)據(jù)庫響應(yīng)快速,及時(shí)返回相關(guān)信息可擴(kuò)展,支持多種數(shù)據(jù)源和領(lǐng)域4多模態(tài)交互技術(shù)4.2多模態(tài)對(duì)話系統(tǒng)37社交型系統(tǒng)面向開放域?qū)υ捯宰匀粩M人化交互為目標(biāo),支持閑聊、共情與趣味互動(dòng),提升用戶粘性與情感連接。荷葉吐翠入池塘,長(zhǎng)夏月明水面涼。微風(fēng)拂過夜悠長(zhǎng),留得清芬在夢(mèng)鄉(xiāng)。主要特點(diǎn)注重情感交流,建立親切自然的對(duì)話關(guān)系內(nèi)容開放靈活,話題廣泛、不局限于特定任務(wù)語言多樣生動(dòng),常用幽默、擬人化表達(dá)用戶參與感高,鼓勵(lì)互動(dòng)、增強(qiáng)用戶粘性4多模態(tài)交互技術(shù)4.2多模態(tài)對(duì)話系統(tǒng)38情感識(shí)別型對(duì)話系統(tǒng)通過分析用戶語音的語調(diào)、文本的情感傾向或面部表情(在視頻交互中)實(shí)時(shí)調(diào)整對(duì)話策略,以提供共情式回應(yīng)。主要特點(diǎn)情緒感知能力強(qiáng),能識(shí)別多種用戶情緒回應(yīng)富含情感,增強(qiáng)人機(jī)交流的溫度感同理心設(shè)計(jì),模擬關(guān)懷與鼓勵(lì)的互動(dòng)方式應(yīng)用場(chǎng)景廣泛,適合心理輔導(dǎo)、陪伴等4多模態(tài)交互技術(shù)4.2多模態(tài)對(duì)話系統(tǒng)39多任務(wù)型對(duì)話系統(tǒng)是一種能夠同時(shí)處理多種不同任務(wù)的對(duì)話系統(tǒng),能夠在同一對(duì)話中完成多項(xiàng)功能需求,比如問答、預(yù)訂、推薦等。主要特點(diǎn)支持多種任務(wù),能同時(shí)處理不同需求具備多意圖識(shí)別,準(zhǔn)確理解用戶多重意圖任務(wù)間協(xié)同,支持跨任務(wù)自然流轉(zhuǎn)響應(yīng)靈活,針對(duì)不同任務(wù)給出相應(yīng)答案提升用戶體驗(yàn),減少多次交互時(shí)間4多模態(tài)交互技術(shù)4.2多模態(tài)對(duì)話系統(tǒng)40虛擬角色型對(duì)話系統(tǒng)以具象人設(shè)為核心,通過擬人化表達(dá)與持續(xù)互動(dòng),在虛擬助手、偶像等場(chǎng)景中增強(qiáng)沉浸感與情感連接。主要特點(diǎn)虛擬角色鮮明,具備設(shè)定的人格與身份語言風(fēng)格一致,長(zhǎng)期保持角色的表達(dá)方式注重沉浸體驗(yàn),增強(qiáng)用戶的情感代入感支持長(zhǎng)期交互,記錄歷史對(duì)話與關(guān)系發(fā)展414.3多模態(tài)情感計(jì)算4多模態(tài)交互技術(shù)4.3多模態(tài)情感計(jì)算42多模態(tài)情感計(jì)算是通過整合語音、圖像、文本、生理等多種感知信號(hào),綜合分析人類情緒狀態(tài)的一種智能技術(shù),旨在提升系統(tǒng)對(duì)情感的理解與互動(dòng)能力。情感信號(hào)收集文本、語音、面部表情、手勢(shì)和生理數(shù)據(jù)都是情緒信號(hào)。情感特征提取與表達(dá)提取有效特征,兼顧可解釋性與適配性。多模態(tài)情感特征融合融合不同類型的情感信號(hào),提高分類準(zhǔn)確性。情緒識(shí)別與推理機(jī)器學(xué)習(xí)和深度學(xué)習(xí)用于建模和識(shí)別。情感交互與響應(yīng)生成機(jī)器人需要產(chǎn)生可識(shí)別的情感信號(hào)。多模態(tài)情感計(jì)算4多模態(tài)交互技術(shù)4.3多模態(tài)情感計(jì)算43情感信號(hào)采集涵蓋視覺、語音、文本、生理和行為等多種模態(tài)信息。語音信號(hào)音高、音強(qiáng)、語速、語調(diào)、語音節(jié)奏、停頓等生理信號(hào)心率、皮膚電、腦電、肌電、血壓、呼吸頻率、體溫等文本信號(hào)文字內(nèi)容中的情緒詞、語義傾向、句式結(jié)構(gòu)、表情符號(hào)等視覺信號(hào)面部表情、微表情、眼動(dòng)、視線方向、身體姿態(tài)等行為信號(hào)手勢(shì)、動(dòng)作、坐姿變化、敲擊力度、打字節(jié)奏、鼠標(biāo)移動(dòng)軌跡等4多模態(tài)交互技術(shù)4.3多模態(tài)情感計(jì)算情感特征的提取與表示是指從多模態(tài)原始信號(hào)中識(shí)別出與情緒狀態(tài)相關(guān)的關(guān)鍵特征,并將其轉(zhuǎn)化為機(jī)器可處理的結(jié)構(gòu)化形式,以便后續(xù)進(jìn)行情感分析和建模。特征提取方法視覺信號(hào):圖像分析、面部關(guān)鍵點(diǎn)檢測(cè)、姿態(tài)估計(jì)、眼動(dòng)追蹤語音信號(hào):音頻處理(如MFCC、基頻提取)、語速與停頓分析文本信號(hào):情感詞識(shí)別、語義分析、語言模型編碼生理信號(hào):時(shí)域分析、頻域分析、非線性特征提取行為信號(hào):動(dòng)作識(shí)別、軌跡分析、傳感器數(shù)據(jù)處理4多模態(tài)交互技術(shù)4.3多模態(tài)情感計(jì)算45多模態(tài)情感特征融合技術(shù)旨在整合異構(gòu)模態(tài)的互補(bǔ)信息,常見的融合方法包括早期融合、中期融合和晚期融合。模態(tài)X模態(tài)Y特征拼接聯(lián)合模型輸出早期融合模態(tài)X模態(tài)Y編碼器ATransformer或跨模態(tài)注意力機(jī)制輸出編碼器B中期融合模態(tài)X模態(tài)Y模型A融合層輸出模型B晚期融合4多模態(tài)交互技術(shù)4.3多模態(tài)情感計(jì)算46情緒識(shí)別與推理是指計(jì)算系統(tǒng)通過分析人的語音、表情、動(dòng)作或文字等外在信息,識(shí)別其情緒狀態(tài),并結(jié)合上下文和相關(guān)知識(shí),推斷情緒的原因、變化及可能影響。情緒識(shí)別基本情緒分類:喜、怒、哀、樂、驚、恐、厭。細(xì)粒度情感識(shí)別:情緒組合、多標(biāo)簽、維度建模,涵蓋基本情緒的多種復(fù)合狀態(tài)。情緒推理語境理解與背景建模:融合知識(shí)圖譜、對(duì)話歷史、場(chǎng)景上下文。情緒演化預(yù)測(cè):基于時(shí)間序列、因果推理建模情緒走向。意圖與決策支持:情緒驅(qū)動(dòng)的行為預(yù)測(cè)、交互決策生成。4多模態(tài)交互技術(shù)4.3多模態(tài)情感計(jì)算47我們以傅園慧的一段采訪片段為例,來看看情緒識(shí)別系統(tǒng)在真實(shí)場(chǎng)景中的表現(xiàn)。系統(tǒng)會(huì)從她的語音語調(diào)、面部表情、說話內(nèi)容等多個(gè)模態(tài)中提取特征,綜合判斷她當(dāng)下的情緒狀態(tài)。4多模態(tài)交互技術(shù)4.3多模態(tài)情感計(jì)算48情感交互與響應(yīng)生成是情感計(jì)算的核心目標(biāo),旨在基于用戶的情緒狀態(tài)生成自然、適當(dāng)?shù)姆答?,從而?shí)現(xiàn)更具人性化的交互體驗(yàn)。當(dāng)前情緒+產(chǎn)生原因+語境用戶畫像與情感記憶建模(個(gè)性、歷史情緒、偏好)語境理解與對(duì)話建模(知識(shí)圖譜/上下文線索)情感增強(qiáng)生成模型(如情感GPT/Persona模型)多模態(tài)響應(yīng)生成(語言+語音+表情+動(dòng)作)檢測(cè)到憤怒情緒,原因?yàn)椤拔锪鲉栴}”“快遞又延遲了!”查詢到該用戶曾多次因物流問題投訴識(shí)別當(dāng)前對(duì)話為“投訴處理”場(chǎng)景生成共情回復(fù)+解決方案(“理解您的情緒,我們將優(yōu)先處理您的訂單并補(bǔ)償10元券?!保┪谋?語音低沉舒緩+虛擬形象鞠躬道歉。目錄多模態(tài)人工智能的應(yīng)用05495多模態(tài)人工智能的應(yīng)用5.1智能交互50相較于傳統(tǒng)的鼠標(biāo)鍵盤輸入,多模態(tài)人工智能融合語音、視覺、手勢(shì)等多種輸入方式,推動(dòng)交互方式從“操作式”向“對(duì)話式”、“協(xié)作式”演進(jìn),開啟更智能的人機(jī)共處時(shí)代。交互設(shè)備交互方式交互體驗(yàn)電腦手機(jī)、平板虛擬現(xiàn)實(shí)設(shè)備腦機(jī)接口PC互聯(lián)網(wǎng)移動(dòng)互聯(lián)網(wǎng)元宇宙時(shí)代前期后期手指+鼠標(biāo)、鍵盤手指+觸控屏肢體+傳感器腦電波+芯片視覺、聽覺視覺、聽覺語音交互完全沉浸五感真實(shí)意念傳輸虛實(shí)結(jié)合二維平面單項(xiàng)傳播三維立體實(shí)時(shí)交互5多模態(tài)人工智能的應(yīng)用5.1智能交互51華為“鴻蒙智家”通過語音、視覺、手勢(shì)、觸控等多模態(tài)交互方式,構(gòu)建萬物互聯(lián)的智能家居生態(tài),實(shí)現(xiàn)設(shè)備間無縫協(xié)同與主動(dòng)感知,為用戶提供自然、高效、智慧的居家體驗(yàn)。交互功能語音交互:語音控制空調(diào)、燈光、掃地機(jī)器人等視覺識(shí)別:攝像頭識(shí)別人臉自動(dòng)解鎖門禁手勢(shì)控制:揮手開關(guān)窗簾/燈光環(huán)境感知:溫濕度傳感器自動(dòng)調(diào)節(jié)設(shè)備運(yùn)行,優(yōu)化室內(nèi)環(huán)境舒適度5多模態(tài)人工智能的應(yīng)用5.1智能交互52蔚來NOMI是集語音、視覺和情感感知的多模態(tài)智能交互系統(tǒng)。它的設(shè)計(jì)理念不是傳統(tǒng)的“語音控制器”,而是一個(gè)‘有情緒、有記憶、有互動(dòng)能力’的車載伙伴。交互功能語音理解:自然語音對(duì)話,支持連續(xù)多輪指令視覺表達(dá):表情小球展示豐富擬人情緒情感感知:記憶用戶偏好,實(shí)現(xiàn)主動(dòng)式互動(dòng)環(huán)境聯(lián)動(dòng):語音+感知控制空調(diào)、燈光與氛圍知識(shí)問答:結(jié)合語音與上下文實(shí)現(xiàn)多輪問答圖片來源:/smart-technology/202408020045多模態(tài)人工智能的應(yīng)用5.1智能交互53VIVEFocusVision支持眼動(dòng)、手勢(shì)、語音與空間定位等多模態(tài)交互。用戶通過注視、手勢(shì)和語音自然操控虛擬內(nèi)容,廣泛用于協(xié)作、培訓(xùn)、醫(yī)療等場(chǎng)景,帶來沉浸式自由體驗(yàn)。交互功能沉浸式模擬訓(xùn)練利用眼動(dòng)追蹤和手勢(shì)操作,學(xué)員能自然操控虛擬設(shè)備。遠(yuǎn)程協(xié)作與指導(dǎo)支持多用戶虛擬空間同步互動(dòng),培訓(xùn)師可實(shí)時(shí)指導(dǎo)學(xué)員?;旌犀F(xiàn)實(shí)通過環(huán)境感知,將真實(shí)場(chǎng)景與虛擬內(nèi)容融合,助學(xué)員更好理解操作流程。圖片來源:/cn/product/vive-focus-v

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論