CN120104009B 一種基于ai大模型的裸眼3d數(shù)字人的人機交互方法 (深圳市易快來科技股份有限公司)_第1頁
CN120104009B 一種基于ai大模型的裸眼3d數(shù)字人的人機交互方法 (深圳市易快來科技股份有限公司)_第2頁
CN120104009B 一種基于ai大模型的裸眼3d數(shù)字人的人機交互方法 (深圳市易快來科技股份有限公司)_第3頁
CN120104009B 一種基于ai大模型的裸眼3d數(shù)字人的人機交互方法 (深圳市易快來科技股份有限公司)_第4頁
CN120104009B 一種基于ai大模型的裸眼3d數(shù)字人的人機交互方法 (深圳市易快來科技股份有限公司)_第5頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

(19)國家知識產(chǎn)權(quán)局(12)發(fā)明專利GO6N3/006(2023.事務(wù)所(特殊普通合伙)專利代理師胡仕國一種基于AI大模型的裸眼3D數(shù)字人的人機本發(fā)明公開了一種基于AI大模型的裸眼3DS1:S1:Al大模型資源加載:對訓(xùn)練好的Al大模型加載裸眼3D數(shù)字人運行所需的資源,構(gòu)建裸眼3D數(shù)字人運行的Al大模型,裸眼3D數(shù)字人運行所需的資源包括裸眼3D數(shù)字人資源、多模態(tài)輸入設(shè)備資源和用戶歷史交互記錄S2:多模態(tài)輸入信息融合:基于S1得到的多模態(tài)輸入設(shè)備資源戶向裸眼3D數(shù)字人發(fā)起交互請求的多模態(tài)信息,再通過Al大模型進行融合,得到用戶輸入表示文本意圖理解,得到用戶意圖理解向量S4:個性化策略生成:基于裸眼3D數(shù)字人運行的Al大模型,通過S3得到的用戶意圖理解向量生成個性化交互策略信息文本S5:裸眼3D數(shù)字人響應(yīng)生成:基于棵眼3D數(shù)字人運行的Al大模型,根文本,并將裸眼3D數(shù)字人響應(yīng)內(nèi)容文本通過裸眼3D排圖算法,生成裸56:通過大數(shù)據(jù)分析技術(shù),對用戶接收響應(yīng)內(nèi)容文本后的反饋參數(shù)進行分析,根據(jù)異常分析結(jié)果進行優(yōu)化,并記錄優(yōu)化內(nèi)容傳輸至管理員終端2S1:AI大模型資源加載:對訓(xùn)練好的AI大模型加載裸眼3D數(shù)字人運行所需的資源,構(gòu)建裸眼3D數(shù)字人運行的AI大模型,裸眼3D數(shù)字人運行所需的資源包括裸眼3D數(shù)字人資源、多模態(tài)輸入設(shè)備資源和用戶歷史交互記錄;S2:多模態(tài)輸入信息融合:基于S1得到的多模態(tài)輸入設(shè)備資源,采集用戶向裸眼3D數(shù)字人發(fā)起交互請求的多模態(tài)信息,再通過AI大模型進行融合,得到用戶輸入表示文本;S3:AI大模型意圖理解:基于S2得到的用戶輸入表示文本進行意圖理解,得到用戶意圖理解向量;S4:個性化策略生成:基于裸眼3D數(shù)字人運行的AI大模型,通過S3得到的用戶意圖理解向量生成個性化交互策略信息文本;S5:裸眼3D數(shù)字人響應(yīng)生成:基于裸眼3D數(shù)字人運行的AI大模型,根據(jù)S4生成的個性化交互策略信息文本生成相應(yīng)的裸眼3D數(shù)字人響應(yīng)內(nèi)容文本,并將裸眼3D數(shù)字人響應(yīng)內(nèi)容文所述S5中生成相應(yīng)的裸眼3D數(shù)字人響應(yīng)內(nèi)容文本,包括以下步驟:D1:首先基于裸眼3D數(shù)字人運行的AI大模型,生成裸眼3D數(shù)字人的多模態(tài)響應(yīng)向量MID,MID={m?,m?,..m..m}=Generator(IV,PSF),Gene表示第I模態(tài)響應(yīng)向量,M表示多模態(tài)響應(yīng)向量的數(shù)量,IV表示意圖理解向量,PSF表示個性化交互策略信息向量;然后通過跨模態(tài)同步技術(shù),對多模態(tài)響應(yīng)向量進行時間戳綁定,得到多模態(tài)響應(yīng)向量時間偏差△tsyne,△tsync=Z|△tkl≤t_th,△tπ表示第I模態(tài)響應(yīng)與第k模態(tài)響應(yīng)之間的時間偏差,t_th表示時間偏差閾值,I<K,I∈M,K∈M;其次得到裸眼3D數(shù)字人的情感匹配度EC,EC=cos_sim(VE,VF),cos_sim表示余弦相似度函數(shù),若EC≤0,則為0,反之為EC值,VE表示語音情感特征向量,VF表示面部情感特征向量;最后通過大數(shù)據(jù)分析技術(shù),結(jié)合時間偏差△tsync、情感匹配度EC和單位時間內(nèi)視覺偽影出現(xiàn)的次數(shù),得到裸眼3D數(shù)字人的多模態(tài)響應(yīng)協(xié)調(diào)指數(shù)MRCI;D2:將裸眼3D數(shù)字人的多模態(tài)響應(yīng)協(xié)調(diào)指數(shù)MRCI與閾值MRCI進行對比,若MRCI≥MRCI?,說明裸眼3D數(shù)字人的多模態(tài)響應(yīng)協(xié)調(diào)良好,輸出相應(yīng)的裸眼3D數(shù)字人響應(yīng)內(nèi)容文本,并將裸眼3D數(shù)字人響應(yīng)內(nèi)容文本通過裸眼3D排圖算法,生成裸眼3D動畫顯示在屏幕上;反之則觸發(fā)多模態(tài)響應(yīng)協(xié)調(diào)機制,直到裸眼3D數(shù)字人的多模態(tài)響應(yīng)協(xié)調(diào)指數(shù)MRCI≥MRCI?則停止;S6:通過大數(shù)據(jù)分析技術(shù),對用戶接收響應(yīng)內(nèi)容文本后的反饋參數(shù)進行分析,根據(jù)異常分析結(jié)果進行優(yōu)化,并記錄優(yōu)化內(nèi)容傳輸至管理員終端。2.根據(jù)權(quán)利要求1所述的一種基于AI大模型的裸眼3D數(shù)字人的人機交互方法,其特征在于:所述S2中得到用戶輸入表示文本包括:A1:首先通過多模態(tài)信息采集設(shè)備,采集用戶向裸眼3D數(shù)字人發(fā)起交互請求的多模態(tài)信息數(shù)據(jù)集MID,MID=[MI1,MI…MIi…MIn],MI,表示第i種模態(tài)信息,n表示多模態(tài)信息的種類數(shù)量;然后通過多模態(tài)識別技術(shù),對相應(yīng)的多模態(tài)信息進行識別,獲取多模態(tài)信息識別數(shù)據(jù)集IRD,IRD=[IR?,IR?….IR.….IRn],IR表示第i種模態(tài)信息識別的結(jié)果,n也表示相應(yīng)的模態(tài)信息識別的結(jié)果數(shù)量。3.根據(jù)權(quán)利要求2所述的一種基于AI大模型的裸眼3D數(shù)字人的人機交互方法,其特征3在于:所述S2中得到用戶輸入表示文本還包括:A2:首先通過分模態(tài)向量化技術(shù),將A1得到的各種多模態(tài)信息識別數(shù)據(jù)進行統(tǒng)一維度的向量化,得到多模態(tài)識別數(shù)據(jù)向量化數(shù)據(jù)集VD1,VD1=[VD?,VD2…VD.…VDn],VD表示第i種模態(tài)向量,n也表示多模態(tài)識別數(shù)據(jù)相應(yīng)的向量化數(shù)量;然后通過大數(shù)據(jù)分析技術(shù),結(jié)合多模態(tài)信息組合數(shù)量、模態(tài)信息i與模態(tài)信息j之間的時間差,i<j,i∈n,j∈n,得到t時刻的多模態(tài)信息一致性指數(shù)MCI,將MCI與閾值MCI?進行對比,若MCI≥MCI?,說明多模態(tài)信息一致性良好,反之則觸發(fā)多模態(tài)信息采集機制;最后得到多模態(tài)信息一致性良好的多模態(tài)識別數(shù)據(jù)向量化數(shù)據(jù)集VD2。4.根據(jù)權(quán)利要求3所述的一種基于AI大模型的裸眼3D數(shù)字人的人機交互方法,其特征在于:所述S2中得到用戶輸入表示文本還包括:首先通過跨模態(tài)注意力機制,根據(jù)A2得到多模態(tài)識別數(shù)據(jù)向量化數(shù)據(jù)集,結(jié)合各模態(tài)向量、各模態(tài)得分、模態(tài)專屬投影矩陣和t時刻的多模態(tài)信息一致性指數(shù)MCI生成融合特征向量Efusion;然后基于裸眼3D數(shù)字人運行的AI大5.根據(jù)權(quán)利要求1所述的一種基于AI大模型的裸眼3D數(shù)字人的人機交互方法,其特征B1:首先通過BERT模型對用戶輸入表示文本IRTtext進行分層編碼,得到文本特征向量示前序?qū)υ捨谋咎卣飨蛄?;最后基于裸?D數(shù)字人運行的AI大模型計算意圖理解向量IV,矩陣的維度為R×2d,N表示輸出意圖特征的數(shù)量,2d表示輸入文本特征的總維度,結(jié)合意圖向量IV的最大值、最小值和平均值,得到文本意圖一致性指數(shù)SICI;B2:將文本意圖一致性指數(shù)SICI與閾值SICI?進行對比,若SICI≥SICI?,說明文本意圖理解有效,輸出用戶意圖理解向量IV;反之則觸發(fā)意圖理解澄清機制,直到文本意圖一致性指數(shù)SICI≥SICI則停止。6.根據(jù)權(quán)利要求1所述的一種基于AI大模型的裸眼3D數(shù)字人的人機交互方法,其特征在于:所述S4中生成個性化交互策略信息文C1:首先基于用戶意圖理解向量,通過MLP模型,為每個用戶生成個性化交互策略信息向量PSF,PSF=MLP([IV;IVhis]),IVhis表示目標(biāo)意圖下的歷史交互意圖理解向量,IV表示意圖理解向量;然后結(jié)合查詢矩陣、鍵矩陣和值矩陣,計算意圖理解向量的3D空間特征向量Adisp;最后通過大數(shù)據(jù)分析技術(shù),計算個性化交互策略信息向量PSF與目標(biāo)意圖下的歷史交互策略信息向量余弦相似度,再結(jié)合意圖理解向量的3D空間特征向量,得到個性化策略生成效能指數(shù)PEI;C2:將個性化策略生成效能指數(shù)PEI與閾值PEI。進行對比,若PEI≥PEI?,說明個性化交互策略生成有效,輸出個性化交互策略信息文本;反之則觸發(fā)交互策略調(diào)整機制,直到個性化策略生成效能指數(shù)PEI≥PEI則停止。7.根據(jù)權(quán)利要求1所述的一種基于AI大模型的裸眼3D數(shù)字人的人機交互方法,其特征E1:通過大數(shù)據(jù)技術(shù),記錄用戶與裸眼3D數(shù)字人交互的總交互次數(shù)N_tot和正確理解用戶意圖的交互次數(shù)N_cor,交互響應(yīng)延遲t_del,得到裸眼3D數(shù)字人交互能力分析指標(biāo)ICAI;4E2:將裸眼3D數(shù)字人交互能力分析指標(biāo)ICAI與相應(yīng)的閾值ICAI?進行對比,若ICAI≥ICAI?,說明裸眼3D數(shù)字人交互能力良好,反之則說明分析異常,根據(jù)異常分析結(jié)果進行優(yōu)化,并記錄優(yōu)化內(nèi)容傳輸至管理員終端。5一種基于AI大模型的裸眼3D數(shù)字人的人機交互方法技術(shù)領(lǐng)域[0001]本發(fā)明涉及人機交互技術(shù)領(lǐng)域,具體為一種基于AI大模型的裸眼3D數(shù)字人的人機交互方法。背景技術(shù)[0002]隨著科技的不斷發(fā)展,人機交互技術(shù)取得了顯著的進步;數(shù)字人作為一種新興的人機交互載體,能夠以擬人化的形象與用戶進行互動,在多個領(lǐng)域得到了廣泛的關(guān)注和應(yīng)用;裸眼3D技術(shù)無需借助特殊的眼鏡等設(shè)備,用戶即可直接觀看到具有立體效果的數(shù)字人形象,增強了交互的沉浸感和吸引力。[0003]現(xiàn)有的數(shù)字人交互方法多基于規(guī)則的自然語言處理交互,通過依據(jù)預(yù)先設(shè)定的規(guī)則和語法來解析用戶輸入的自然語言;使用通用的交互模板與所有用戶進行交互,比如無論用戶興趣、偏好如何,都以同樣的話術(shù)和流程回應(yīng);在生成裸眼3D數(shù)字人的響應(yīng)動作、表情和語音回復(fù)時,采用傳統(tǒng)的計算和渲染技術(shù)等實現(xiàn)數(shù)字人的交互。[0004]然而,當(dāng)前基于裸眼3D數(shù)字人的人機交互仍存在諸多問題:依據(jù)預(yù)先設(shè)定的規(guī)則和語法解析難以準(zhǔn)確理解用戶的真實意圖,容易產(chǎn)生誤解或無法給出準(zhǔn)確的回應(yīng),導(dǎo)致語義理解不準(zhǔn)確;使用通用的交互模板,無法根據(jù)用戶的個性化特征提供定制化的交互服務(wù),難以滿足用戶多樣化的需求,交互缺乏個性化;在生成裸眼3D數(shù)字人的響應(yīng)動作、表情以及語音回復(fù)時,由于涉及到復(fù)雜的計算和渲染過程,部分系統(tǒng)存在響應(yīng)延遲的問題,導(dǎo)致交互發(fā)明內(nèi)容[0005]為了克服現(xiàn)有技術(shù)的上述缺陷,本發(fā)明的實施例提供一種基于AI大模型的裸眼3D數(shù)字人的人機交互方法,以解決上述背景技術(shù)中提出語義理解不準(zhǔn)確、交互缺乏個性化、實時性不足等問題。[0006]為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于AI大模型的裸眼3D數(shù)字人[0007]S1:AI大模型資源加載:對訓(xùn)練好的AI大模型加載裸眼3D數(shù)字人運行所需的資源,構(gòu)建裸眼3D數(shù)字人運行的AI大模型,裸眼3D數(shù)字人運行所需的資源包括裸眼3D數(shù)字人資源、多模態(tài)輸入設(shè)備資源和用戶歷史交互記錄;[0008]S2:多模態(tài)輸入信息融合:基于S1得到的多模態(tài)輸入設(shè)備資源,采集用戶向裸眼3D數(shù)字人發(fā)起交互請求的多模態(tài)信息,再通過AI大模型進行融合,得到用戶輸入表示文本;[0009]S3:AI大模型意圖理解:基于S2得到的用戶輸入表示文本進行意圖理解,得到用戶意圖理解向量;[0010]S4:個性化策略生成:基于裸眼3D數(shù)字人運行的AI大模型,通過S3得到的用戶意圖理解向量生成個性化交互策略信息文本;[0011]S5:裸眼3D數(shù)字人響應(yīng)生成:基于裸眼3D數(shù)字人運行的AI大模型,根據(jù)S4生成的個6性化交互策略信息文本生成相應(yīng)的裸眼3D數(shù)字人響應(yīng)內(nèi)容文本,并將裸眼3D數(shù)字人響應(yīng)內(nèi)容文本通過裸眼3D排圖算法,生成裸眼3D動畫顯示在屏幕上;[0012]S6:通過大數(shù)據(jù)分析技術(shù),對用戶接收響應(yīng)內(nèi)容文本后的反饋參數(shù)進行分析,根據(jù)異常分析結(jié)果進行優(yōu)化,并記錄優(yōu)化內(nèi)容傳輸至管理員終端。[0013]本發(fā)明的技術(shù)效果和優(yōu)點:[0014]1、本發(fā)明通過各種傳感器技術(shù)和識別技術(shù),通過用戶站在裸眼3D數(shù)字人設(shè)備前發(fā)起的交互請求,采集多模態(tài)交互信息并進行識別、整合,形成統(tǒng)一的用戶輸入表示,為后續(xù)的意圖理解提供更全面、豐富的信息,進而更準(zhǔn)確地確定用戶的意圖對象;[0015]2、本發(fā)明通過構(gòu)建裸眼3D數(shù)字人運行的AI大模型,實現(xiàn)了多模態(tài)信息的融合交互,能夠深入理解用戶的意圖和需求,結(jié)合用戶的歷史交互記錄和實時情境,提供個性化的回復(fù)和服務(wù),滿足不同用戶的多樣化需求,使裸眼3D數(shù)字人與用戶之間的交流更加自然、流[0016]3、本發(fā)明通過接收用戶的反饋與對AI大模型進行優(yōu)化,能夠不斷改進人機交互的質(zhì)量;同時根據(jù)用戶的新需求和偏好,更新個性化交互策略,為下一次交互提供更好的服務(wù),進而使裸眼3D數(shù)字人的智能水平和交互能力隨著時間的推移不斷提升。附圖說明[0017]圖1為本發(fā)明的整體流程示意圖。[0018]圖2為本發(fā)明的方法流程示意圖。具體實施方式[0019]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其它[0020]請參閱圖1所示,本發(fā)明提供一種基于AI大模型的裸眼3D數(shù)字人的人機交互系統(tǒng),包括AI大模型資源加載模塊、多模態(tài)輸入融合模塊、AI大模型意圖理解模塊、個性化交互策略生成模塊、裸眼3D數(shù)字人響應(yīng)生成模塊以及裸眼3D數(shù)字人的人機交互反饋與優(yōu)化模塊。[0021]所述AI大模型資源加載模塊與其余所有模塊連接,多模態(tài)輸入融合模塊與AI大模型意圖理解模塊連接,個性化交互策略生成模塊分別與AI大模型意圖理解模塊和裸眼3D數(shù)字人響應(yīng)生成模塊連接,裸眼3D數(shù)字人的人機交互反饋與優(yōu)化模塊與裸眼3D數(shù)字人響應(yīng)生成模塊連接。[0022]AI大模型資源加載模塊:用于對訓(xùn)練好的AI大模型加載裸眼3D數(shù)字人運行所需的資源,構(gòu)建裸眼3D數(shù)字人運行的AI大模型,裸眼3D數(shù)字人運行所需的資源包括裸眼3D數(shù)字人資源、多模態(tài)輸入設(shè)備資源和用戶歷史交互記錄;[0023]多模態(tài)輸入融合模塊:基于AI大模型資源加載模塊得到的多模態(tài)輸入設(shè)備資源,采集并融合用戶向裸眼3D數(shù)字人發(fā)起交互請求的多模態(tài)信息,并將融合后的用戶請求信息傳輸至AI大模型意圖理解模塊;[0024]AI大模型意圖理解模塊:基于裸眼3D數(shù)字人運行的AI大模型,對融合后的用戶請7求信息進行意圖理解,得到用戶意圖理解向量,并傳輸至個性化交互策略生成模塊;[0025]個性化交互策略生成模塊:基于裸眼3D數(shù)字人運行的AI大模型,通過得到的用戶意圖理解向量生成個性化交互策略信息文本,并傳輸至裸眼3D數(shù)字人響應(yīng)生成模塊;[0026]裸眼3D數(shù)字人響應(yīng)生成模塊:基于裸眼3D數(shù)字人運行的AI大模型,根據(jù)生成的個性化交互策略信息文本生成相應(yīng)的裸眼3D數(shù)字人響應(yīng)內(nèi)容文本,并傳輸至裸眼3D數(shù)字人的人機交互反饋與優(yōu)化模塊;[0027]裸眼3D數(shù)字人的人機交互與優(yōu)化模塊:通過大數(shù)據(jù)分析技術(shù),對用戶接收響應(yīng)內(nèi)容文本后的反饋參數(shù)進行分析,根據(jù)異常分析結(jié)果進行優(yōu)化,并記錄優(yōu)化內(nèi)容傳輸至管理大模型資源加載:對訓(xùn)練好的AI大模型加載裸眼3D數(shù)字人運行所需的資源,構(gòu)建裸眼3D數(shù)字人運行的AI大模型、S2:多模態(tài)輸入信息融合:基于S1得到的多模態(tài)輸入設(shè)備資源,采集用戶向裸眼3D數(shù)字人發(fā)起交互請求的多模態(tài)信息,再通過AI大模型進行融合,得到用戶輸入表示文本、S3:AI大模型意圖理解:基于S2得到的用戶輸入表示文本IRTtext進行意圖理S3得到的用戶意圖理解向量生成個性化交互策略信息文本、S5:裸眼3D數(shù)字人響應(yīng)生成:基于裸眼3D數(shù)字人運行的AI大模型,根據(jù)S4生成的個性化交互策略信息文本生成相應(yīng)的裸眼3D數(shù)字人響應(yīng)內(nèi)容文本、S6:通過大數(shù)據(jù)分析技術(shù),對用戶接收響應(yīng)內(nèi)容文本后的反饋參數(shù)進行分析,根據(jù)異常分析結(jié)果進行優(yōu)化,并記錄優(yōu)化內(nèi)容傳輸至管理員終端。[0029]S1:AI大模型資源加載:對訓(xùn)練好的AI大模型加載裸眼3D數(shù)字人運行所需的資源,構(gòu)建裸眼3D數(shù)字人運行的AI大模型,裸眼3D數(shù)字人運行所需的資源包括裸眼3D數(shù)字人資源、多模態(tài)輸入設(shè)備資源和用戶歷史交互記錄;[0030]本實施例需要具體說明的是裸眼3D數(shù)字人所需的資源包括加載裸眼3D數(shù)字人的3D模型(如裸眼3D排圖算法)、動畫庫以及相關(guān)的語音資源,語音資源包括不同情感、語調(diào)的個性化交互提供數(shù)據(jù)支持;對AI大模型進行加載,能夠確保數(shù)字人在用戶交互過程中能夠[0031]S2:多模態(tài)輸入信息融合:基于S1得到的多模態(tài)輸入設(shè)備資源,采集用戶向裸眼3D數(shù)字人發(fā)起交互請求的多模態(tài)信息,再通過AI大模型進行融合,得到用戶輸入表示文本,包括以下步驟:[0032]A1:首先通過多模態(tài)信息采集設(shè)備,采集用戶向裸眼3D數(shù)字人發(fā)起交互請求的多模態(tài)信息數(shù)據(jù)集MID,MID=[MI?,MI?.….MIi…MIn],MI表示第i種模態(tài)信息,n表示多模態(tài)信息的種類數(shù)量;然后通過多模態(tài)識別技術(shù),對相應(yīng)的多模態(tài)信息進行識別,獲取多模態(tài)信息識別數(shù)據(jù)集IRD,IRD=[IR1,IR?….IRi…IRnJ,IR表示第i種模態(tài)信息識別的結(jié)果,n也表示相應(yīng)的模態(tài)信息識別的結(jié)果數(shù)量;[0033]本實施例需要具體說明的是多模態(tài)信息包括但不限于語音、文本、手勢、表情等多模態(tài)輸入,例如,用戶在商場中向裸眼3D數(shù)字人咨詢商品信息時,可以直接說出問題(語音輸入),也可以在旁邊的交互終端上輸入文字查詢,或者通過特定的手勢動作(如指向感興8[0034]A2:首先通過分模態(tài)向量化技術(shù),將A1得到的各種多模VD1=[VD?,VD2…VD.…VDn],VD表示第i種模態(tài)向量,n也表示多模態(tài)識別數(shù)據(jù)相信息j之間的時間差,i<j,(i,j)∈n,得到t時刻的多模態(tài)信息一致性指數(shù)MCI,表示通過組合函數(shù)得到多模態(tài)信息組信息j之間的時間差,單位統(tǒng)一為ms,例如語音起始(t=1200ms)與手勢起始(t=1210ms)差致性良好的多模態(tài)識別數(shù)據(jù)向量化數(shù)據(jù)集VD2;[0035]本實施例需要具體說明的是分模態(tài)合特征向量Efusion,Efusion=∑i=1αi·W;VDi+∑i<j 9型計算意圖理解向量IV,IV=softmax(W×[Etext;M]+b),softmax特征的總維度,結(jié)合意圖向量IV的最大值、最小值和平均值,得到文本意圖一致性指數(shù)[0041]本實施例需要具體說明的是BERT(BidirectionalEncoderRepresentations據(jù)問題和文本段落提供相關(guān)答案等;本實施例需要具體說明的是LSTM(LongShort-Term絡(luò);然后結(jié)合查詢矩陣、鍵矩陣和值矩陣,計算意圖理解向量的3D空間特征向量Adisp, n表示余弦相似度函[0046]D1:首先基于裸眼3D數(shù)字人運行應(yīng)向量進行時間戳綁定,得到多模態(tài)響應(yīng)向量時間偏差△tsync,△tsync=∑|△trkl≤t_th,△tk表示第I模態(tài)響應(yīng)與第k模態(tài)響應(yīng)之間的時間偏差,t_th表示時間偏差閾值,例如語音響應(yīng)與動作響應(yīng)的偏差小于等于40ms,I<K,(I,K)∈M;其次得到裸眼3D數(shù)字人的情感匹配度EC,EC=cos_sim(VE,VF),cos_sim表示余弦相似度函數(shù),若EC≤0,則為0,反之為EC值,VE表示語音情感特征向量,VF表示面部情感特征向量;最后通過大數(shù)據(jù)分析技術(shù),結(jié)合時間偏差△tsync、情感匹配度EC和單位時間內(nèi)視覺偽影出現(xiàn)的次數(shù),得到裸眼3D數(shù)字人的多模態(tài)響應(yīng)協(xié)調(diào)指數(shù)MRCI,MRCI=e-0.02-△tsyne.(EC+1)·,Nar表示單位時間內(nèi)視覺偽影出現(xiàn)的次數(shù);MRCI?,說明裸眼3D數(shù)字人的多模態(tài)響應(yīng)協(xié)調(diào)良好,輸出相應(yīng)的裸眼3D數(shù)字人響應(yīng)內(nèi)容文本,并將裸眼3D數(shù)字人響應(yīng)內(nèi)容文本通過裸眼3D排圖算法,生成裸眼3D動畫顯示在屏幕上;反之則觸發(fā)多模態(tài)響應(yīng)協(xié)調(diào)機制,例如啟用備用策略模板庫,直到裸眼3D數(shù)字人的多模態(tài)[0048]本實施例需要具體說明的是裸眼3D排圖算法通過拍攝不同場景、不同拍攝主體的多組左右視點圖像,將屬于同一被拍攝主體的左右視點圖像輸入至構(gòu)建的三維卷積網(wǎng)絡(luò)模型中經(jīng)過模型處理后得到對應(yīng)的左右視點融合視差圖,后將視差值轉(zhuǎn)化為深度距離值,并基于視差值、深度距離值、相機參數(shù)以及相似三角形原理計算被拍攝主體世界坐標(biāo)系下的三維坐標(biāo)進行三維重建。[0049]S6:通過大數(shù)據(jù)分析技術(shù),對用戶接收響應(yīng)內(nèi)容文本后的反饋參數(shù)進行分析,根據(jù)異常分析結(jié)果進行優(yōu)化,并記錄優(yōu)化內(nèi)容傳輸至管理員終端,包括以下步驟:[0050]E1:通過大數(shù)據(jù)技術(shù),記錄用戶與裸眼3D數(shù)字人交互的總交互次數(shù)N_tot和正確理解用戶意圖的交互次數(shù)N_cor,交互響應(yīng)延遲t_del,得到裸眼3D數(shù)字人交互能力分析指標(biāo),若(t_del-t_del)≤0,則為0,反之為計算的差[0051]E2:將裸眼3D數(shù)字人交互能力分析指標(biāo)I

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論