




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
生成式智慧駕駛艙一、概述生成式智慧駕駛艙基于先進(jìn)的認(rèn)知大模型、語音聽寫、語音合成、虛擬形象合成等人工智能技術(shù),為用戶提供與駕駛艙自由互動的全新體驗。平臺不僅支持?jǐn)?shù)據(jù)和知識的自由問答和智能分析,還能理解專業(yè)術(shù)語、進(jìn)行互聯(lián)網(wǎng)查詢,并提供多模態(tài)交互體驗,極大地豐富了在傳染病監(jiān)測預(yù)警場景下的應(yīng)用。駕駛艙可通過提供SAAS服務(wù),支持私有化部署和SDK集成等多種部署方式,可以根據(jù)具體需求和發(fā)展戰(zhàn)略,選擇最合適的服務(wù)模式。無論是需要全面托管的云服務(wù),還是希望在本地部署以保持?jǐn)?shù)據(jù)完全控制的私有化解決方案,駕駛艙都能提供相應(yīng)的支持。二、功能架構(gòu)生成式智慧駕駛艙作為一款先進(jìn)的AI產(chǎn)品,其技術(shù)架構(gòu)遵循了行業(yè)標(biāo)準(zhǔn)的多層架構(gòu)設(shè)計,以確保系統(tǒng)的高可用性、可擴展性和安全性。同時生成式智慧駕駛艙提供了一個直觀、響應(yīng)式的界面,支持多種瀏覽器和設(shè)備,確保用戶可以從任何地點、任何設(shè)備訪問應(yīng)用。以及支持虛擬人交互,提供沉浸式的用戶體驗。為了滿足全球用戶的需求,駕駛艙平臺提供了多語言界面,方便不同語言背景的用戶使用。生成式智慧駕駛艙平臺產(chǎn)品架構(gòu)如下:三、建設(shè)內(nèi)容場景應(yīng)用1.1應(yīng)用駕駛艙頁面大屏產(chǎn)品,依托于智能交互平臺底座能力,為業(yè)務(wù)大屏賦予了生動的虛擬形象和直觀的語音控制功能。在突發(fā)公共衛(wèi)生事件監(jiān)測預(yù)警場景中,頁面大屏能提供包括指令交互、知識庫查詢等在內(nèi)的全方位服務(wù)。用戶只需簡單地發(fā)出語音指令,即可輕松實現(xiàn)操作,享受一種無需接觸、自然流暢的交互體驗。這種設(shè)計可以極大地提升指揮者的掌控感,使人機互動更加便捷、高效。功能介紹:1.1.1智能演示虛擬數(shù)字人助手通過集成形象面板、語音轉(zhuǎn)寫面板、用戶問題面板和答案面板,構(gòu)建了一個直觀且高度互動的用戶體驗界面,它不僅為用戶交互增添了趣味性,而且極大地提升了用戶與大屏互動的便捷性和直觀性。語音轉(zhuǎn)寫面板作為系統(tǒng)的關(guān)鍵組成部分,負(fù)責(zé)實時將用戶的語音輸入精確轉(zhuǎn)換為文本,為后續(xù)的語義解析和指令執(zhí)行提供了基礎(chǔ)。用戶問題面板則清晰地展示了用戶的詢問,確保了交互的透明度和可追蹤性。答案面板則提供了虛擬數(shù)字人助手經(jīng)過智能處理后的回答,不僅以文本形式在大屏上呈現(xiàn),還通過語音合成技術(shù)實現(xiàn)了語音播報,使用戶能夠以多種方式接收信息。為了實現(xiàn)與業(yè)務(wù)大屏的無縫集成,虛擬數(shù)字人助手允許用戶根據(jù)具體需求配置形象和面板的位置、樣式等,使用戶能夠進(jìn)行個性化設(shè)置和優(yōu)化,從而使得虛擬數(shù)字人助手能夠更好地適應(yīng)各種場景和用戶偏好。這些特性共同確保了虛擬數(shù)字人助手在提供高效、專業(yè)服務(wù)的同時,也能保持高度的靈活性和可定制性。1.1.2語控大屏語控大屏是生成式智慧駕駛艙的一項重要功能,用戶僅需發(fā)出簡單的語音指令,便可輕松操控系統(tǒng)界面,無需再依賴傳統(tǒng)的鼠標(biāo)點擊或鍵盤輸入。語音控制技術(shù)的引入,不僅極大地提升了操作的便捷性,也為用戶帶來了更加流暢和自然的交互體驗。在實際應(yīng)用中,語控大屏能夠迅速響應(yīng)用戶的語音命令,激活大屏自動操作,可以下達(dá)頁面跳轉(zhuǎn)、地圖下鉆、打開信號卡片、返回首頁等操作指令。語音控制的交互方式大大降低了用戶的操作難度,尤其適合在無法直接接觸設(shè)備的情況下使用。語控大屏的設(shè)計充分考慮了用戶的實際需求和使用習(xí)慣,旨在提供一個無縫且直觀的操作體驗。用戶無需學(xué)習(xí)復(fù)雜的操作流程,只需像日常對話一樣發(fā)出指令,系統(tǒng)便能智能識別并執(zhí)行相應(yīng)操作。1.1.3語音播報語音播報為用戶提供了一種全新的交互體驗。智能快答、大模型問答等產(chǎn)生的答案都可以通過語音播報的方式播放出來,極大地提升了信息傳遞的效率和用戶的便捷性。在實際應(yīng)用中,語音播報功能可以作為工作人員的輔助工具,根據(jù)語音指令,大屏可以自動進(jìn)行語音講解,支持關(guān)于當(dāng)下疫情現(xiàn)狀的播報與問答,針對癥候群/傳染病的病例和預(yù)警信號的分布及趨勢分析,減輕工作負(fù)擔(dān),實現(xiàn)數(shù)字化操作,使場景更智能。這種智能化的語音播報服務(wù)不僅提高了信息傳遞的效果,還為用戶提供了更加個性化和沉浸式的體驗。1.1.4知識文檔問答智慧駕駛艙的知識庫問答功能融合了豐富的常見問題解答知識文檔,支持對大屏相關(guān)指標(biāo)的統(tǒng)計問題進(jìn)行智能作答,針對總體運行、重點監(jiān)測的病例和信號等數(shù)據(jù),可以以指標(biāo)卡、表格、統(tǒng)計圖等展現(xiàn)形式進(jìn)行回復(fù)。在展示數(shù)據(jù)的同時,大模型會對數(shù)據(jù)做總結(jié)性的趨勢分析,給用戶提供對數(shù)據(jù)的洞察和見解。平臺提供多種格式的知識文檔上傳,上傳到平臺的知識文檔平臺會自動對文檔做切片分割,用戶也可以自己整理文檔并根據(jù)標(biāo)識符切割文檔切片。完成文檔切片后,用戶就可以對綁定了該知識的大屏應(yīng)用做知識問答。用戶提問后,平臺會檢索知識文檔,找到相關(guān)的文檔切片,打包處理后,交給認(rèn)知大模型來完成對知識問題的回答。當(dāng)用戶想一邊回答問題,一邊展示知識相關(guān)的視頻或圖片時,只需將素材上傳到平臺,并在相應(yīng)的切片處綁定音視頻資源,即可實現(xiàn)邊答邊看的交互效果。當(dāng)用戶在探索的過程中提出疑問,產(chǎn)品將立即啟動智能檢索機制,對知識庫進(jìn)行高效查詢。系統(tǒng)通過精確匹配問題關(guān)鍵詞與知識庫中的信息,能夠迅速鎖定并提供最為貼切的答案。不僅顯著縮短了用戶等待答案的時間,而且大幅度提升了所提供信息的準(zhǔn)確度和相關(guān)性。1.1.5大模型問答大模型問答功能依托于認(rèn)知大模型的強大處理與分析能力,旨在為用戶提供深度的問題解答服務(wù)。大模型問答功能特別適合處理那些復(fù)雜的技術(shù)問題或個性化的用戶需求,能夠有效地填補傳統(tǒng)數(shù)據(jù)庫在知識覆蓋范圍上的不足。當(dāng)用戶提出的問題超出了知識庫的現(xiàn)有知識體系時,大模型問答功能便會啟動其高效的知識檢索和分析機制。它不僅能夠基于大模型通識知識庫,汲取其中的專業(yè)信息,還能夠結(jié)合本地知識庫中的具體數(shù)據(jù),進(jìn)行深入的分析與綜合。通過這樣的過程,大模型問答能夠理解并把握問題的實質(zhì),進(jìn)而提供詳盡、準(zhǔn)確的解釋和建議。更為關(guān)鍵的是,大模型問答功能在處理特殊問題時,能夠確保用戶獲得滿意的答案。這得益于其深度學(xué)習(xí)和自然語言處理技術(shù)的應(yīng)用,使其具備了高度的語義理解和推理能力。無論是面對技術(shù)性極強的難題,還是面對個性化程度高的用戶需求,大模型問答都能夠靈活應(yīng)對,確保每一個問題都能得到專業(yè)而精準(zhǔn)的解答。1.1.6智能打斷智能打斷功能賦予智慧駕駛艙以類似于人類的應(yīng)變能力,使其能夠在展示或解說過程中,敏感地捕捉并響應(yīng)觀眾的即時反饋或提問。用戶在聆聽講解時若需深入了解某個特定主題,或是對所接收信息存疑,無需等待講解結(jié)束,僅需通過語音命令進(jìn)行打斷,系統(tǒng)便能迅速作出反應(yīng),中斷當(dāng)前解說流程,即刻針對用戶的疑問或需求提供詳細(xì)解答。智能打斷機制的運用,極大地豐富了用戶體驗,打破了傳統(tǒng)語控大屏場景中信息的單向流動模式,實現(xiàn)了真正意義上的雙向交流。它不僅使內(nèi)容傳遞更為高效精準(zhǔn),還讓整個交互過程變得更加生動和個性化,從而顯著提升了信息傳遞的針對性及其在實際應(yīng)用場景中的效果。1.2數(shù)據(jù)問答虛擬人問答功能專門設(shè)計來提供高效、準(zhǔn)確的信息響應(yīng)。通過構(gòu)建問答數(shù)據(jù)庫,能夠覆蓋廣泛的常見問題,確保用戶咨詢得到及時且專業(yè)的答復(fù)。利用先進(jìn)的語音識別技術(shù)來捕捉用戶的詢問,并借助語義理解能力,確保即使在復(fù)雜的語言環(huán)境中也能準(zhǔn)確把握用戶的意圖。此外,通過虛擬人形象播報問答內(nèi)容,為用戶提供了一種直觀的信息獲取方式。虛擬人形象的播報不僅使得信息傳遞更加生動,也增強了用戶的互動體驗,使得問答服務(wù)更加人性化和易于接受。功能介紹:1.2.1知識庫問答用戶可以在平臺上自由配置傳染病監(jiān)測預(yù)警的業(yè)務(wù)指標(biāo)數(shù)據(jù),包括指標(biāo)的定義和計算口徑,配置完成后,用戶可以對綁定了該指標(biāo)的大屏應(yīng)用提問關(guān)于指標(biāo)術(shù)語的相關(guān)問題,平臺會快速檢索到相關(guān)指標(biāo),并讓認(rèn)知大模型完成對術(shù)語問題的準(zhǔn)確回答。知識庫問答能力的主要功能特點有:(1)指標(biāo)數(shù)據(jù)快速問答大模型內(nèi)置常用指標(biāo)計算邏輯:如同環(huán)比、極值、均值、中位值、排序、占比等,簡化指標(biāo)計算過程,即問即答。(2)自適應(yīng)圖表實時輸出根據(jù)結(jié)果數(shù)據(jù)形態(tài)自適應(yīng)選擇圖表類型,實時輸出圖表。語音切換不同統(tǒng)計維度,秒級輸出結(jié)果。(3)語音指令調(diào)度支持常用語音指令對頁面執(zhí)行下鉆、詳情、返回、切換等調(diào)度操作。(4)知識問答能力支持對組織文化、發(fā)展歷程、領(lǐng)導(dǎo)關(guān)懷、產(chǎn)品介紹等專業(yè)知識自學(xué)習(xí),實現(xiàn)智能問答。支持QA對的固定內(nèi)容問答。(5)大模型生成定制歡迎詞根據(jù)參觀嘉賓或展示內(nèi)容配置歡迎語、暖場語,支持固定腳本播報。(6)虛擬人自由走動虛擬人可根據(jù)講解背景,在屏內(nèi)進(jìn)行自適應(yīng)的走動。支持多屏聯(lián)動,虛擬人跨屏走動。1.2.2大模型問答認(rèn)知大模型,是以中文為核心的新一代認(rèn)知智能大模型。當(dāng)用戶不熟悉具體數(shù)據(jù),問的問題比較含糊時,駕駛艙也會根據(jù)應(yīng)用綁定的數(shù)據(jù),給出最合適的數(shù)據(jù)內(nèi)容,幫助用戶獲得想要的結(jié)果。當(dāng)大模型無法用數(shù)據(jù)和知識回答用戶問題,會交給大模型聊天兜底,做到有問必答。大模型能夠在與人自然的對話互動的過程中,具有以下多種能力:(1)內(nèi)容回復(fù)能力:可以進(jìn)行多風(fēng)格多任務(wù)長文本回復(fù),例如郵件、文案、公文、作文、對話等;(2)語言理解能力:可以進(jìn)行多層次跨語種語言理解,實現(xiàn)語法檢查、要素抽取、語篇歸整、文本摘要、情感分析、多語言翻譯等;(3)知識問答能力:可以回答各種各樣的問題,包括生活知識、工作技能、醫(yī)學(xué)知識等;(4)推理能力:擁有基于思維鏈的推理能力,能夠進(jìn)行科學(xué)推理、常識推理等;(5)對多元能力實現(xiàn)融合統(tǒng)一,對真實場景下的需求,具備提出問題、規(guī)劃問題、解決問題的閉環(huán)能力,可以持續(xù)從海量數(shù)據(jù)和大規(guī)模知識中不斷學(xué)習(xí)進(jìn)化,這些能力使得大模型能夠在多個行業(yè)和領(lǐng)域發(fā)揮越來越重要的作用。1.2.3智能打斷虛擬人智能交互具備智能打斷功能,允許在當(dāng)前交互過程中,通過用戶的特定指令或行為來優(yōu)先處理新的請求。在多任務(wù)或高并發(fā)的交互環(huán)境中,智能打斷功能確保了虛擬人能夠靈活響應(yīng)用戶的緊急需求或新的問題,從而提供更加及時和個性化的服務(wù)。智能打斷功能的設(shè)計考慮了用戶在實際使用場景中可能需要即時介入的情況,例如在信息查詢、客戶服務(wù)中,用戶可能在對話過程中突然想起新的疑問或需要立即解決的事項。智能打斷允許用戶通過簡單的語音指令或其他預(yù)設(shè)的交互方式,來打斷虛擬人當(dāng)前的操作流程,轉(zhuǎn)而處理新的請求。在實際應(yīng)用中,智能打斷功能使得能夠在保持對話連貫性的同時,快速適應(yīng)用戶需求的變化,確保了交互的流暢性和有效性。智能打斷功能進(jìn)一步增強了虛擬人在多樣化服務(wù)場景中的實用性和可靠性。1.3虛擬主播視頻合成虛擬人視頻合成允許用戶將靜態(tài)圖片或動態(tài)視頻作為背景,并在這些背景上疊加虛擬人形象進(jìn)行內(nèi)容播報。虛擬人視頻合成通過結(jié)合圖像處理和視頻合成技術(shù),為用戶提供了一種創(chuàng)新的內(nèi)容制作解決方案。用戶可以通過選擇一張靜態(tài)圖片或一段視頻作為背景,然后讓虛擬人在這個背景前進(jìn)行播報,使得信息展示更加生動有趣。虛擬人視頻合成功能支持用戶對虛擬人的位置、播報內(nèi)容、以及發(fā)音人的特征(包括音色、音量和語速)進(jìn)行個性化設(shè)置。這種高度的可定制性為用戶提供了更大的靈活性,使得視頻內(nèi)容能夠更好地符合用戶的個性化需求和特定場景的應(yīng)用。在新聞播報場景中,虛擬人可以作為新聞主播,提供24小時不間斷的新聞播報服務(wù)。它們能夠根據(jù)實時新聞內(nèi)容自動生成播報視頻,提高新聞制作的效率和覆蓋率。在企業(yè)宣傳方面,虛擬人可以制作宣傳視頻,介紹公司文化、產(chǎn)品和服務(wù),以新穎的方式吸引觀眾注意力,提升品牌形象和市場影響力。而在傳染病監(jiān)測的場景下,虛擬人可作為權(quán)威信息發(fā)言人,自動生成并發(fā)布疫情通報視頻。它們能夠?qū)崟r解析最新疫情數(shù)據(jù)(如病例數(shù)、風(fēng)險區(qū)域),合成多語言播報內(nèi)容,確保信息傳遞的準(zhǔn)確性和時效性,同時支持24小時滾動播報,緩解政府人力壓力。通過這些應(yīng)用場景,虛擬人視頻合成功能不僅提升了信息傳遞的效果,還能夠為用戶提供更加個性化和沉浸式的體驗。隨著技術(shù)的不斷發(fā)展,虛擬人視頻合成功能有望在未來的多媒體內(nèi)容制作中發(fā)揮更加重要的作用,為用戶提供更加豐富多彩的服務(wù)。平臺管理2.1智能交互管理系統(tǒng)智能交互管理系統(tǒng)是智能交互平臺的核心,它以機器人為主體,整合了多項技能和功能,以提供全面的交互服務(wù)。用戶可以使用文本或語音對駕駛艙的大屏應(yīng)用提問,平臺分析出結(jié)果后,會根據(jù)問題的不同,給出文本或數(shù)據(jù)圖表。同時虛擬形象會像真人一樣將分析結(jié)果朗讀,自然而融入。整個問答過程,包含了文本、語音、視頻等多種信息流交互模態(tài),使得交互過程更加直觀和生動。機器人通過智能交互管理系統(tǒng)添加常見知識庫的能力,能夠快速響應(yīng)用戶的常見問題。此外,系統(tǒng)調(diào)用語義匹配管理系統(tǒng)的能力,使得機器人能夠理解和執(zhí)行基于語義的控制命令,進(jìn)一步增強了交互的自然性和便捷性。此外,機器人還可以被賦予大模型通用問答或大模型私域問答技能,這些技能使得機器人在處理用戶問題時能夠提供更加擬人化、精準(zhǔn)的回答,使得機器人滿足真實場景下的需求,對醫(yī)學(xué)、疾控、日常等各領(lǐng)域知識進(jìn)行廣泛、深度的剖析。2.1.1機器人管理一個機器人相當(dāng)于懂某類業(yè)務(wù)的機器人,能代替人工客服服務(wù)。機器人管理功能主要應(yīng)用于不同人機交互場景的組合管理,包含了機器人創(chuàng)建、機器人知識配置、編輯和刪除等功能。該模塊可以根據(jù)現(xiàn)場的業(yè)務(wù)數(shù)據(jù)進(jìn)行機器人創(chuàng)建,在機器人配置中進(jìn)行知識配置,從而讓機器人具備不同場景下的對話能力。2.1.1.1創(chuàng)建機器人創(chuàng)建機器人使用戶能夠根據(jù)自己的特定需求定制和創(chuàng)建個性化的機器人。以下是該模塊的詳細(xì)功能介紹:基本信息輸入用戶可以通過輸入機器人的名稱、上傳機器人圖片以及選擇機器人類型等信息來定義機器人的基本屬性。機器人類型選擇支持用戶根據(jù)機器人的實際用途選擇合適的類型,例如問答機器人、語控機器人等,以滿足不同的應(yīng)用場景和用戶需求。選擇不同類型的機器人將決定其主要功能和交互方式,確保機器人能夠提供最符合用戶期望的服務(wù)。語控機器人:支持自定義問答過程中的話術(shù),包括自定義退出話術(shù)、歡迎時應(yīng)答話術(shù)、退出時應(yīng)答話術(shù)、對話面板歡迎語話術(shù)、無答案默認(rèn)話術(shù),便于業(yè)務(wù)根據(jù)實際需求實時更新優(yōu)化;支持為機器人自定義添加推薦命令,便于引導(dǎo)用戶快速理解機器人的知識領(lǐng)域,提升語控交互體驗。問答機器人:支持自定義問答過程中的話術(shù),包括問答歡迎語、無答案默認(rèn)話術(shù),便于業(yè)務(wù)根據(jù)實際需求實時更新優(yōu)化;支持為機器人自定義添加推薦問題,便于引導(dǎo)用戶快速理解機器人的知識領(lǐng)域,提升問答交互體驗。虛擬形象配置用戶可以為機器人配置虛擬形象,這對于虛擬人交互場景至關(guān)重要,能夠?qū)崿F(xiàn)更加直觀和自然的“面對面”交流體驗。虛擬形象的配置需要與虛擬形象管理系統(tǒng)相結(jié)合,以確保形象的一致性和交互的流暢性,增強用戶與機器人之間的互動效果。創(chuàng)建機器人模塊的設(shè)計目標(biāo)是提供一個靈活、易用的定制平臺,使用戶能夠根據(jù)自己的業(yè)務(wù)需求和創(chuàng)意,快速創(chuàng)建出功能豐富、外觀吸引人的機器人。通過這一模塊,虛擬數(shù)字人助手能夠更好地適應(yīng)多樣化的應(yīng)用場景,提供高效、個性化的交互體驗。2.1.1.2配置機器人2.1.1.2.1智能命令智能命令模塊允許用戶為機器人賦予特定的語控命令,以實現(xiàn)對大屏操作的語音控制。以下是智能命令模塊的功能介紹:語控命令模板系統(tǒng)預(yù)置了多個大屏類通用命令模板,這些模板覆蓋了常見的操作,如打開菜單、點擊按鈕等模擬鼠標(biāo)鍵盤的動作。用戶可以通過配置相關(guān)關(guān)鍵詞,快速實現(xiàn)簡單命令的實時上線,這顯著降低了用戶在語義技能配置上的技術(shù)門檻。復(fù)雜命令開發(fā)對于更復(fù)雜的大屏語控命令,需要業(yè)務(wù)大屏廠商配合開發(fā)特定的函數(shù)。通過系統(tǒng)提供的自定義命令可視化配置工具,用戶可以將命令和特定函數(shù)快速關(guān)聯(lián),從而實現(xiàn)對大屏的精確控制。Chrome插件支持用戶可以通過安裝生成式駕駛艙谷歌Chrome插件,實現(xiàn)開箱即用的語控功能,便于業(yè)務(wù)的快速集成與拓展。智能命令模塊的設(shè)計目標(biāo)是提供一個高效、靈活的命令配置平臺,使用戶能夠根據(jù)自己的業(yè)務(wù)需求,輕松地為機器人配置和管理語控命令。2.1.1.2.2智能問答智能問答模塊為機器人提供了多樣化的問答能力,包括知識庫問答、大模型通識問答和大模型私域問答。以下是智能問答模塊的功能介紹:知識庫問答該模塊允許用戶從預(yù)設(shè)的知識庫中選擇特定目錄進(jìn)行知識綁定。用戶可以針對特定場景或業(yè)務(wù)需求,選擇相應(yīng)的知識庫目錄,使得機器人能夠提供準(zhǔn)確的答案和信息。大模型通識問答利用先進(jìn)的大語言模型,該模塊能夠處理廣泛的通用問題,提供深入且準(zhǔn)確的回答。它適用于處理各種開放性問題,能夠結(jié)合大量數(shù)據(jù)和知識,為用戶提供全面的信息。大模型私域問答在“文檔管理”模塊中,用戶可以創(chuàng)建和管理一個專門的文檔庫,用于存儲和管理私域問答中的本地知識庫。該模塊支持用戶上傳和管理私域數(shù)據(jù),使得機器人能夠訪問和回答特定于企業(yè)或組織內(nèi)部的問題。智能問答模塊的設(shè)計目標(biāo)是提供一個全面、靈活且高效的問答系統(tǒng),使得機器人能夠根據(jù)用戶的具體需求提供定制化的答案。通過整合不同類型的問答能力,智能問答模塊確保了機器人在各種交互場景中的專業(yè)性和實用性,為用戶提供了豐富、便捷的服務(wù)體驗。2.1.2.2.3熱詞管理熱詞管理模塊是虛擬人問答中用于提升語音識別對特定詞匯識別準(zhǔn)確性的功能。該模塊提供了一系列功能,以支持用戶根據(jù)個性化需求上傳和管理熱詞列表。以下是熱詞管理模塊的功能介紹:熱詞上傳模塊為用戶提供了一個便捷的上傳入口,允許用戶上傳自定義的熱詞列表,以提升對專有詞匯的識別準(zhǔn)確率。這些熱詞可能包括人名、地名、產(chǎn)品名、公司名或特定領(lǐng)域的專業(yè)術(shù)語,它們在標(biāo)準(zhǔn)語音識別中可能難以被準(zhǔn)確識別。靈活性和便捷性該模塊的設(shè)計注重靈活性和便捷性,用戶可以輕松地更新熱詞列表,以適應(yīng)不斷變化的業(yè)務(wù)需求和語言使用情況。熱詞的上傳過程簡單直觀,無需復(fù)雜的技術(shù)知識,使得非技術(shù)用戶也能輕松操作。熱詞管理模塊的建設(shè)目標(biāo)是提供一個用戶友好的界面,使用戶能夠根據(jù)自己的需求快速定制和優(yōu)化語音識別的功能。通過這一模塊,能夠更好地適應(yīng)多樣化的應(yīng)用場景,提供高效、準(zhǔn)確的語音識別服務(wù)。2.1.1.3機器人列表機器人列表模塊用于管理和維護(hù)機器人的功能。該模塊提供了一個集中的平臺,使管理員能夠有效地執(zhí)行查詢、編輯和刪除等操作。以下是機器人列表模塊的詳細(xì)介紹:機器人查詢模塊提供高級查詢功能,允許管理員通過機器人名稱進(jìn)行快速檢索。支持模糊查詢。機器人刪除管理員可以通過該模塊刪除不再需要的機器人賬戶。刪除操作會徹底移除機器人的所有信息和內(nèi)容,確保不再占用系統(tǒng)資源,同時保持機器人列表的整潔。機器人管理機器人列表模塊不僅支持查詢和刪除,還允許管理員進(jìn)行其他管理操作,如編輯機器人的配置、更新權(quán)限設(shè)置或分配不同的服務(wù)角色。機器人列表模塊的設(shè)計目標(biāo)是提供一個全面、高效的管理工具,使管理員能夠輕松地管理和維護(hù)機器人。2.2語義匹配管理系統(tǒng)語義匹配管理系統(tǒng)是智能交互平臺中的一個關(guān)鍵組成部分,它專門負(fù)責(zé)處理和解析語義命令,以便機器人可以理解和執(zhí)行用戶的指令。首先,利用預(yù)訓(xùn)練的語義相似度模型(SimBERTv2)對意圖進(jìn)行向量化處理,這一步驟將意圖轉(zhuǎn)化為高維空間中的向量表示,以便更精確地捕捉和存儲意圖的語義信息。這些向量化的意圖隨后被存儲在一個專門的向量數(shù)據(jù)庫中,以便快速檢索和比對。當(dāng)用戶發(fā)起輸入時,我們同樣使用Embedding技術(shù)將用戶的輸入轉(zhuǎn)換為向量形式,并在向量數(shù)據(jù)庫中進(jìn)行高效檢索。一旦檢索到與用戶輸入向量高度一致的意圖向量,我們便可以確認(rèn)用戶的輸入已經(jīng)成功匹配到了相應(yīng)的意圖。確認(rèn)匹配后,系統(tǒng)將進(jìn)入下一階段,即實體提取和執(zhí)行器執(zhí)行。實體提取過程將從用戶輸入中識別出關(guān)鍵信息,而執(zhí)行器則根據(jù)已識別的意圖和實體信息執(zhí)行相應(yīng)的操作或服務(wù)。這整個過程的設(shè)計旨在提高系統(tǒng)的響應(yīng)速度和準(zhǔn)確性,確保用戶能夠獲得滿足其需求的精準(zhǔn)服務(wù)。在實際應(yīng)用中,語義匹配管理系統(tǒng)可以與智能交互管理系統(tǒng)緊密結(jié)合,為機器人提供強大的語義理解能力,使其能夠更準(zhǔn)確地執(zhí)行基于語義的控制命令。這種整合不僅提升了用戶體驗,也為機器人在各種場景下的應(yīng)用提供了更多可能性。2.3虛擬形象管理系統(tǒng)虛擬形象管理系統(tǒng)是智能交互平臺中的關(guān)鍵組成部分,它專門負(fù)責(zé)創(chuàng)建和管理虛擬形象,以支持多種交互場景。隨著數(shù)字化和智能化的快速發(fā)展,虛擬形象在大屏語控、問答交互和視頻生產(chǎn)等場景中的應(yīng)用日益增多,成為提升用戶體驗和品牌互動的重要工具。虛擬形象管理系統(tǒng)提供了一系列功能,包括大屏語控場景、問答交互場景、背景素材管理以及形象管理等。用戶可以通過系統(tǒng)提供的可視化配置工具,自定義虛擬形象的面板樣式,以及發(fā)音人的選擇,實現(xiàn)個性化定制。在實際應(yīng)用中,虛擬形象管理系統(tǒng)可以與智能交互管理系統(tǒng)緊密結(jié)合,使得機器人在執(zhí)行任務(wù)時更加直觀和生動。這種整合不僅提升了用戶體驗,也為機器人在各種場景下的應(yīng)用提供了更多可能性,如語控大屏、虛擬人問答等。2.3.1場景管理2.3.1.1大屏語控場景大屏語控場景模塊是為用戶提供了一個定制虛擬助手交互樣式的模塊。大屏語控場景模塊的設(shè)計目標(biāo)是提供一個高度可定制的交互環(huán)境,使用戶能夠根據(jù)項目的需求和偏好,輕松地調(diào)整和優(yōu)化大屏幕上的虛擬助手的視覺展示效果,能夠更好地適應(yīng)各種業(yè)務(wù)場景,如企業(yè)展廳、客戶服務(wù)中心、疾病監(jiān)控駕駛艙等,從而提供高效、直觀且用戶友好的交互體驗。2.3.1.1.1配置語控場景配置語控場景模塊為用戶提供了一套直觀的工具,用于創(chuàng)建和管理大屏中助手的樣式。以下是該模塊的詳細(xì)介紹:基礎(chǔ)設(shè)置用戶可以為場景定義一個獨特的名稱,以便在多個場景中進(jìn)行區(qū)分和管理。從預(yù)設(shè)的虛擬形象庫中選擇合適的形象或上傳自定義形象,以個性化語控交互體驗。上傳實際大屏背景圖片,確保虛擬形象和面板與大屏的視覺風(fēng)格一致。輸入場景描述,為項目團隊提供額外的上下文信息。樣式配置對命令面板、歡迎面板、問答面板和轉(zhuǎn)寫面板進(jìn)行細(xì)節(jié)樣式配置,包括顏色、字體、邊距等,以符合設(shè)計需求。實時預(yù)覽配置效果,確保樣式設(shè)置滿足預(yù)期的視覺效果。命令面板:自定義已命中的命令的文本樣式,包括文本框高度、字體大小、行高、對齊方式、字體顏色和加粗。調(diào)整文本框的邊距,優(yōu)化面板布局。歡迎面板:自定義歡迎語和推薦命令的文本樣式,包括文本框高度、字體大小、行高、對齊方式、字體顏色和加粗。調(diào)整文本框的邊距,優(yōu)化面板布局。問答面板:自定義用戶問和機器人答的文本樣式,包括文本框高度、字體大小、行高、對齊方式、字體顏色和加粗。設(shè)置問答內(nèi)容的顯示方式和邊距。轉(zhuǎn)寫面板:定義轉(zhuǎn)寫面板的大小,選擇顏色或圖片填充。自定義轉(zhuǎn)寫文本的字體大小、行高和對齊方式。虛擬形象面板:調(diào)整面板大小、邊框樣式和圓角效果,選擇顏色或圖片填充。頂部狀態(tài)欄:啟用或禁用狀態(tài)欄,并自定義頭像、昵稱和文本樣式。收音圖:啟用收音圖,并上傳靜止和動態(tài)圖片,定義圖片大小和邊距。音色設(shè)置:選擇不同的發(fā)音人,每個發(fā)音人都有獨特的聲音特點。調(diào)整音量大小和語速,以適應(yīng)不同的聽覺環(huán)境和用戶偏好。調(diào)整語調(diào),為語音輸出賦予不同的情感色彩。配置語控場景模塊的設(shè)計目標(biāo)是提供一個高度可定制的界面,使用戶能夠精確地控制語控場景的每個視覺和聽覺元素,從而創(chuàng)造出符合特定場景需求的交互體驗。通過這一模塊,語控大屏能夠更好地適應(yīng)各種業(yè)務(wù)場景,提供高效、直觀且用戶友好的交互體驗。2.3.1.1.2語控場景列表語控場景列表提供用戶能夠有效地維護(hù)和組織他們的語控場景。以下是該模塊的主要功能介紹:編輯功能用戶可以輕松訪問并修改已經(jīng)保存的場景,包括場景的基本信息、樣式設(shè)置、面板配置和音色設(shè)置等。編輯功能使得用戶能夠根據(jù)最新的需求或反饋,對場景進(jìn)行更新和優(yōu)化,確保場景始終保持最新狀態(tài)。復(fù)制功能用戶可以選擇一個已有的場景并復(fù)制,創(chuàng)建一個全新的場景副本。復(fù)制的場景作為一個獨立的新場景出現(xiàn)在場景列表中,用戶可以在此基礎(chǔ)上進(jìn)行進(jìn)一步的編輯和定制,而不影響原始場景。預(yù)覽功能提供了一個直觀的預(yù)覽界面,展示語控場景在大屏上的完整效果。用戶可以根據(jù)預(yù)覽效果對場景進(jìn)行視覺和功能上的調(diào)整,以確保最終的展示效果符合預(yù)期。刪除功能用戶可以通過刪除功能移除不再需要的場景,保持場景列表的整潔和有序。刪除操作確保用戶只保留最相關(guān)和最常用的場景,簡化了場景管理過程。語控場景列表使用戶能夠高效地進(jìn)行場景的創(chuàng)建、修改、復(fù)制、預(yù)覽和刪除。通過這一模塊,虛擬人問答產(chǎn)品能夠更好地適應(yīng)各種業(yè)務(wù)場景,提供靈活、個性化的語控交互體驗。2.3.1.2問答交互場景問答交互場景是專門設(shè)計用于虛擬人交互界面樣式定制的功能模塊。它提供了一個直觀且易于操作的可視化配置界面,使用戶能夠根據(jù)自己的項目風(fēng)格和用戶體驗需求,對交互界面進(jìn)行個性化設(shè)置。問答交互場景的功能旨在提供一個高度可定制的交互體驗,使用戶能夠根據(jù)自己的需求和偏好,輕松創(chuàng)建和優(yōu)化交互界面。通過這些功能,虛擬數(shù)字人助手問答產(chǎn)品能夠更好地適應(yīng)各種業(yè)務(wù)場景,提供高效、直觀且用戶友好的交互體驗。2.3.1.2.1配置問答場景基礎(chǔ)設(shè)置提供填寫問答交互場景基本信息的功能,包括場景名稱、終端分辨率、背景圖片、Logo、歡迎語圖片和場景描述等基礎(chǔ)信息的配置。用戶可以通過右側(cè)配置上傳相關(guān)圖片后,在左側(cè)實時預(yù)覽調(diào)整后的樣式。此外,用戶還可以在左側(cè)預(yù)覽區(qū)域中拖拽虛擬形象的位置或者縮放虛擬形象大小,以達(dá)到更好的視覺效果。靜默樣式配置此部分用于配置靜默狀態(tài)(虛擬形象未被喚醒)時的展示樣式,包括靜默視頻、喚醒提示詞面板兩部分。在配置的過程中,用戶可實時預(yù)覽配置效果,更好地理解和掌握細(xì)節(jié)樣式的配置功能和效果。靜默視頻:支持用戶手動生成靜默視頻,并進(jìn)行預(yù)覽。系統(tǒng)將基于大屏背景、Logo和虛擬形象的排版布局,自動生成一段虛擬形象靜默狀態(tài)的視頻。喚醒提示詞面板:支持用戶自定義喚醒提示詞的顯示內(nèi)容。在虛擬形象靜默狀態(tài)下,喚醒提示詞將以文字的形式展示在大屏上,用來引導(dǎo)用戶使用正確的喚醒詞進(jìn)行語音控制。支持通過輸入坐標(biāo)軸或直接在畫布上拖拽兩種方式靈活定義喚醒詞面板的位置。支持通過輸入像素值或直接在畫布上拖拽兩種方式靈活定義喚醒詞面板的大小。用戶可通過調(diào)色板選取喚醒詞面板的填充背景色,也可以通過調(diào)整RGB值來自定義顏色。允許用戶為面板添加圓角效果,支持設(shè)置圓角的半徑大小。允許用戶調(diào)整面板邊框線度和邊框顏色。用戶可通過自行上傳圖片來填充喚醒詞面板,圖片僅支持.png/.jpg兩種格式。支持用戶自定義喚醒詞面板里的文本樣式。具體包括:文字大小、字體顏色、行高、對齊方式。用戶可以自定義喚醒詞文本框的內(nèi)部邊距值。通過調(diào)整邊距,可以使喚醒詞的文字區(qū)域顯示在面板中合適的位置,提升整體美觀度。問答面板配置此部分用于配置用戶與機器人問答交互時顯示的面板樣式,包括用戶問和機器人答兩部分。用戶問:支持通過輸入坐標(biāo)軸或直接在畫布上拖拽兩種方式靈活定義用戶問面板的位置。支持通過輸入像素值或直接在畫布上拖拽兩種方式靈活定義用戶問面板的大小。用戶可通過調(diào)色板選取用戶問面板的填充背景色,也可以通過調(diào)整RGB值來自定義顏色。允許用戶為面板添加圓角效果,支持設(shè)置圓角的半徑大小。允許用戶調(diào)整面板邊框線度和邊框顏色。用戶可通過自行上傳圖片來填充用戶問面板,圖片僅支持.png/.jpg兩種格式。用戶可以自定義預(yù)覽的文案內(nèi)容,以實時查看預(yù)覽效果;用戶可以自定義用戶問的文本樣式。具體包括:字體大小、字體顏色、行高、加粗、對齊方式;用戶可以自定義用戶問文本框的內(nèi)部邊距值。通過調(diào)整邊距,可以使用戶問的文字區(qū)域顯示在面板中合適的位置,提升整體美觀度。機器人答:支持通過輸入坐標(biāo)軸或直接在畫布上拖拽兩種方式靈活定義機器人答面板的位置。支持通過輸入像素值或直接在畫布上拖拽兩種方式靈活定義機器人答面板的大小。用戶可通過調(diào)色板選取機器人答面板的填充背景色,也可以通過調(diào)整RGB值來自定義顏色。允許用戶為面板添加圓角效果,支持設(shè)置圓角的半徑大小。允許用戶調(diào)整面板邊框線度和邊框顏色。用戶可通過自行上傳圖片來填充機器人答面板,圖片僅支持.png/.jpg兩種格式。用戶可以自定義預(yù)覽的文案內(nèi)容,以實時查看預(yù)覽效果;用戶可以自定義機器人答的文本樣式。具體包括:文字大小、字體顏色、行高、加粗、對齊方式;用戶可以自定義用戶問文本框的內(nèi)部邊距值。通過調(diào)整邊距,可以使機器人答的文字區(qū)域顯示在面板中合適的位置,提升整體美觀度。AI生成水?。ˋI生成水印面板的顯示依賴于大模型相關(guān)配置)支持通過輸入坐標(biāo)軸或直接在畫布上拖拽兩種方式靈活定義AI生成水印面板的位置。支持通過輸入像素值或直接在畫布上拖拽兩種方式靈活定義AI生成水印面板的大小。用戶可通過調(diào)色板選取面板的填充背景色,也可以通過調(diào)整RGB值來自定義顏色。允許用戶為面板添加圓角效果,支持設(shè)置圓角的半徑大小。允許用戶調(diào)整面板邊框線度和邊框顏色。用戶可通過自行上傳圖片來填充轉(zhuǎn)寫面板,圖片僅支持.png/.jpg兩種格式。用戶可以自定義水印中的文案內(nèi)容,以實時查看預(yù)覽效果;用戶可以自定義水印的文本樣式。具體包括:文字大小、顏色、行高、加粗、對齊方式;用戶可以自定義水印文字到水印面板的內(nèi)部邊距。通過調(diào)整邊距值,可以使水印文字顯示在面板中合適的高度,提升整體美觀度。轉(zhuǎn)寫面板配置實時轉(zhuǎn)寫面板用于展示用戶的語音轉(zhuǎn)寫文字內(nèi)容。它通過將用戶的語音輸入實時轉(zhuǎn)換成文字形式,使用戶能夠輕松閱讀和理解轉(zhuǎn)寫的內(nèi)容。實時轉(zhuǎn)寫面板配置主要包括實時語音轉(zhuǎn)寫面板樣式及位置、收音圖樣式及位置、實時轉(zhuǎn)寫文字樣式相關(guān)配置。實時語音轉(zhuǎn)寫面板:支持通過輸入坐標(biāo)軸或直接在畫布上拖拽兩種方式靈活定義實時語音轉(zhuǎn)寫面板的位置。支持通過輸入像素值或直接在畫布上拖拽兩種方式靈活定義實時語音轉(zhuǎn)寫面板的大小。用戶可通過調(diào)色板選取轉(zhuǎn)寫面板的填充背景色,也可以通過調(diào)整RGB值來自定義顏色。允許用戶為面板添加圓角效果,支持設(shè)置圓角的半徑大小。允許用戶調(diào)整面板邊框線度和邊框顏色。用戶可通過自行上傳圖片來填充轉(zhuǎn)寫面板,圖片僅支持.png/.jpg兩種格式。收音圖:支持配置收音圖是否啟用;啟用情況下,支持用戶上傳收音圖:收音圖需要上傳靜止圖和動態(tài)圖兩種狀態(tài)的圖片。靜止圖用于表示收音狀態(tài)下,未識別到聲音的圖片。動態(tài)圖用于表示收音狀態(tài)下,識別到音波起伏的圖片。系統(tǒng)會根據(jù)收音的狀態(tài)自動切換顯示收音圖片。用戶可從本地計算機中選擇圖片進(jìn)行上傳,圖片僅支持.png格式。啟用情況下,支持用戶支持通過輸入像素值的方式定義收音圖的大小。啟用情況下,支持用戶配置收音圖與實時轉(zhuǎn)寫文字之間的位置關(guān)系。用戶可以自定義收音圖顯示在轉(zhuǎn)寫面板的頂部還是底部。通過調(diào)整邊距值,可以使收音圖顯示在面板中合適的高度,提升整體美觀度。轉(zhuǎn)寫文字:用戶可以自定義預(yù)覽的文案內(nèi)容,以實時查看預(yù)覽效果;用戶可以自定義轉(zhuǎn)寫文字的文本樣式。具體包括:文字大小、行高、加粗、對齊方式;用戶可以自定義轉(zhuǎn)寫中、轉(zhuǎn)寫完成狀態(tài)的字體顏色;用戶可以自定義轉(zhuǎn)寫文字的外部邊距。通過調(diào)整邊距值,可以使轉(zhuǎn)寫文字顯示在面板中合適的高度,提升整體美觀度。多媒體面板支持配置多媒體面板是否啟用;用戶可靈活定義圖片、視頻類型的多媒體面板布局,可選擇固定展示在機器人答面板中或者以獨立面板單獨存在。固定布局模式:用戶可定義多媒體面板高度占據(jù)機器人答面板高度的最小比例;支持用戶配置機器人面板中,多媒體與機器人答文字之間的位置關(guān)系。用戶可以自定義多媒體在機器人答面板的內(nèi)部邊距。通過調(diào)整邊距值,可以使多媒體顯示在面板中合適的高度,提升整體美觀度。獨立面板模式:支持通過輸入坐標(biāo)軸或直接在畫布上拖拽兩種方式靈活定義多媒體面板的位置。支持通過輸入像素值或直接在畫布上拖拽兩種方式靈活定義多媒體面板的大小。用戶可通過調(diào)色板選取面板的填充背景色,也可以通過調(diào)整RGB值來自定義顏色。允許用戶為面板添加圓角效果,支持設(shè)置圓角的半徑大小。允許用戶調(diào)整面板邊框線度和邊框顏色。用戶可通過自行上傳圖片來填充轉(zhuǎn)寫面板,圖片僅支持.png/.jpg兩種格式。用戶可以自定義多媒體在多媒體面板的內(nèi)部邊距。通過調(diào)整邊距值,可以使多媒體顯示在面板中合適的高度,提升整體美觀度。三方面板支持配置三方面板是否啟用;用戶可靈活定義三方面板布局,可選擇固定展示在機器人答面板中或者以獨立面板單獨存在;固定布局模式:固定布局下,用戶可定義三方頁面高度占據(jù)機器人答面板高度的最小比例;支持用戶配置機器人面板中,三方頁面與機器人答文字之間的位置關(guān)系。用戶可以自定義三方頁面在機器人答面板的內(nèi)部邊距。通過調(diào)整邊距值,可以使多媒體顯示在面板中合適的高度,提升整體美觀度。獨立面板模式:支持通過輸入坐標(biāo)軸或直接在畫布上拖拽兩種方式靈活定義三方面板的位置。支持通過輸入像素值或直接在畫布上拖拽兩種方式靈活定義三方面板的大小。用戶可通過調(diào)色板選取面板的填充背景色,也可以通過調(diào)整RGB值來自定義顏色。允許用戶為面板添加圓角效果,支持設(shè)置圓角的半徑大小。允許用戶調(diào)整面板邊框線度和邊框顏色。用戶可通過自行上傳圖片來填充轉(zhuǎn)寫面板,圖片僅支持.png/.jpg兩種格式。用戶可以自定義三方頁面在三方面板的內(nèi)部邊距。通過調(diào)整邊距值,可以使三方頁面顯示在面板中合適的高度,提升整體美觀度。音色設(shè)置提供豐富的音色配置選項,包括發(fā)音人選擇、音量調(diào)節(jié)、語速控制和語調(diào)設(shè)置等。這些功能可根據(jù)具體的場景需求,定制出最適合的語音交互體驗。試聽文本:用戶可以通過自定義試聽文本來測試音色聲音,以獲得最佳的音色效果。發(fā)音人選擇:支持用戶選擇不同的發(fā)音人(發(fā)音人的選擇需要選購多個發(fā)音人)。每個發(fā)音人都具有獨特的聲音特點,可以滿足不同用戶的需求。音量:用戶可以根據(jù)需要調(diào)整音量大小。語速:用戶可以根據(jù)需要調(diào)整語速,從慢到快自由選擇。語調(diào):用戶可以通過調(diào)整語音輸出的音調(diào)高低來改變語音的情感色彩和表達(dá)方式。通過增加或降低音調(diào),用戶可以為語音賦予不同的情緒和語氣,使其更加生動有趣。2.3.1.2.2問答場景列表問答場景列表模塊是用于管理和維護(hù)問答交互場景的關(guān)鍵功能。使用戶能夠創(chuàng)建、編輯、復(fù)制、預(yù)覽和刪除問答場景,確保每個場景都能滿足特定的交互需求。以下是該模塊的詳細(xì)介紹:允許用戶對已保存的場景進(jìn)行修改,包括更新場景信息和樣式配置,確保場景始終保持最新狀態(tài)。用戶可以選擇特定場景并復(fù)制,創(chuàng)建一個全新的場景副本,以便進(jìn)行進(jìn)一步的編輯和定制。提供場景的整體效果預(yù)覽,用戶可以根據(jù)預(yù)覽結(jié)果進(jìn)行調(diào)整和優(yōu)化,以確保場景的展示效果符合預(yù)期。問答場景列表模塊的設(shè)計目標(biāo)是提供一個直觀、易用的場景管理界面,使用戶能夠高效地管理問答交互場景。2.3.2素材管理2.3.2.1背景素材背景素材模塊為用戶提供了一個全面的背景管理解決方案,以支持虛擬形象視頻合成和虛擬人智能問答中的視覺效果需求。以下是背景素材模塊的功能介紹:上傳背景模塊支持用戶上傳圖片或視頻格式的背景素材,以適應(yīng)不同的視覺展示需求。用戶可以為上傳的背景素材添加基本信息,包括背景名稱和描述,以便于管理和識別。支持上傳不同比例的背景素材,確保背景與虛擬形象的顯示比例協(xié)調(diào)一致。系統(tǒng)會自動對上傳的背景進(jìn)行規(guī)范性校驗,確保素材的質(zhì)量和兼容性。背景素材管理提供一個背景列表界面,支持自動識別上傳背景的格式、大小和分辨率,方便用戶進(jìn)行管理和選擇。允許用戶對已上傳的背景信息進(jìn)行編輯,包括更新背景上傳、名稱和描述等信息。支持用戶對背景進(jìn)行刪除操作,包括單個背景刪除和批量選中后刪除,以維護(hù)背景庫的整潔。已上傳的背景支持在線預(yù)覽功能,用戶可以實時查看背景效果,確保素材符合預(yù)期。提供背景查詢功能,用戶可以根據(jù)背景名稱、比例等字段進(jìn)行模糊查詢,快速定位所需背景。背景素材模塊的設(shè)計目標(biāo)是提供一個直觀、易用的背景素材管理工具,使用戶能夠輕松地創(chuàng)建、管理和應(yīng)用多樣化的背景素材。通過這一模塊,虛擬形象視頻合成和虛擬人智能問答的視覺效果將更加豐富和專業(yè),滿足不同業(yè)務(wù)場景的需求。2.3.3形象管理內(nèi)置10種以上虛擬人形象和音色庫,用戶可以根據(jù)自己的偏好和場景需求進(jìn)行個性化組合和選擇。這種靈活性確保了能夠無縫適應(yīng)各種環(huán)境,為用戶提供定制化的交互體驗,無論是在商務(wù)匯報、營銷宣傳還是經(jīng)營分析等場景,都能發(fā)揮出色的表現(xiàn)。虛擬人技術(shù)主要功能參數(shù)如下:(1)支持提供標(biāo)準(zhǔn)API接口或SDK,以接入第三方應(yīng)用系統(tǒng);(2)支持以語音對話的形式,為用戶提供服務(wù);(3)交互打斷:支持全雙工交互方式,支持交互過程中隨時打斷,終止當(dāng)前對話進(jìn)入下一輪交互;(4)調(diào)整語速:支持對虛擬人說話語速進(jìn)行調(diào)節(jié);(5)切換分辨率:支持對虛擬人視頻進(jìn)行分辨率切換,應(yīng)支持1080P、720P、480P;(6)切換幀率:支持對虛擬人視頻進(jìn)行幀率設(shè)置;(7)切換流格式:虛擬人視頻流支持H264、FLV格式切換,以滿足客戶端對不同視頻流的格式要求;(8)橫豎屏:支持豎屏、橫屏展示,虛擬人形象大小、背景尺寸根據(jù)橫豎屏進(jìn)行適應(yīng),滿足在不同終端屏幕尺寸下的顯示效果;(9)字幕顯示:數(shù)字人播報的同時,支持設(shè)置字幕顯示;(10)語義提取正確率和召回率F-1值平均≥80%。2.3.3.1卡通形象卡通形象管理模塊為用戶提供了一套工具,以便靈活定義和定制虛擬形象的狀態(tài)樣式,滿足不同場景下的視覺和交互需求。以下是卡通形象管理模塊的功能介紹:創(chuàng)建2D卡通形象用戶可以為2D卡通形象定義一個獨特的名稱和頭像,這些標(biāo)識信息有助于在后續(xù)的操作和管理中進(jìn)行快速識別和區(qū)分。支持用戶根據(jù)虛擬形象的不同交互狀態(tài)(如默認(rèn)、說話、聆聽、再見等)上傳相應(yīng)的動態(tài)圖像。這些圖像應(yīng)為png或webp格式,以確保在不同狀態(tài)下的流暢顯示和視覺一致性。需要注意的是,上傳的動態(tài)圖像必須是已經(jīng)設(shè)計和制作完成的,卡通形象管理模塊不提供形象設(shè)計和制作的功能。2D卡通形象列表系統(tǒng)提供一個清晰的列表視圖,展示所有已創(chuàng)建的2D卡通形象,包括形象名稱、創(chuàng)建時間和形象縮略圖等關(guān)鍵信息。列表支持對卡通形象進(jìn)行編輯,允許用戶更新形象的名稱、頭像和動態(tài)圖像,以適應(yīng)新的場景或品牌要求。支持對卡通形象進(jìn)行預(yù)覽,用戶可以在線查看形象的動態(tài)效果,確保其符合預(yù)期的視覺效果。支持對卡通形象進(jìn)行刪除操作,允許用戶移除不再需要的形象,保持形象庫的整潔和有序。卡通形象管理模塊的設(shè)計目標(biāo)是提供一個直觀、易用的形象定制平臺,使用戶能夠輕松地創(chuàng)建和管理多樣化的虛擬形象。通過這一模塊,虛擬助手的形象能夠更加生動和個性化,從而提升用戶的交互體驗和品牌形象的一致性。2.3.4視頻生產(chǎn)2.3.4.1視頻制作視頻制作提供一站式視頻內(nèi)容生產(chǎn)功能,通過可視化、簡單化的操作,生產(chǎn)多種多樣的虛擬形象視頻,如天氣預(yù)報、宣傳視頻等,滿足多種場景的業(yè)務(wù)應(yīng)用。視頻制作提供以下功能:視頻配置,視頻配置支持以下功能:合成視頻格式支持.MP4;合成視頻分辨率支持4K/1080P/720P/480P;視頻比例支持16:9/4:3/9:16/3:4/2:3;支持選擇虛擬形象;支持更換背景。內(nèi)容編輯,內(nèi)容編輯支持以下功能:支持一鍵導(dǎo)入文本,導(dǎo)入文本格式支持.txt;支持更換虛擬形象和背景圖片/視頻;支持動作編排,在指定文字內(nèi)容處自定義插入系統(tǒng)內(nèi)置虛擬人動作(20個字內(nèi)不允許重復(fù)插入),當(dāng)虛擬人合成視頻播放到該段文字時虛擬人即可根據(jù)配置內(nèi)容做出指定動作;支持視頻制作內(nèi)容實時預(yù)覽功能。2.3.4.2視頻管理視頻管理提供針對虛擬形象視頻的統(tǒng)一查詢和統(tǒng)一管理功能,自動歸集匯總視頻制作中已經(jīng)編輯完成的視頻,按照視頻合成的不同狀態(tài)列表展示,根據(jù)不同的業(yè)務(wù)場景,可進(jìn)行在線播放、下載到本地、重新制作等操作。視頻管理提供以下功能:視頻播放,可播放已經(jīng)合成成功的視頻;視頻下載,可將已經(jīng)合成成功的視頻下載到本地保存;視頻重新制作,可將視頻進(jìn)行重新制作后重新合成;視頻合成取消,可將排隊中的視頻取消視頻合成;視頻重新合成,可將已經(jīng)取消合成的視頻重新進(jìn)行合成;視頻刪除。支持單個視頻刪除和批量選中后刪除。視頻查詢,查詢項包括視頻名稱、制作時間、合成狀態(tài)、文本信息,支持左右模糊查詢。2.4大模型應(yīng)用服務(wù)智能交互平臺提供通識問答、私域問答等產(chǎn)品特性,支持用戶對接不同型態(tài)大模型以滿足不同業(yè)務(wù)需求。系統(tǒng)依賴大模型開放服務(wù),實現(xiàn)大模型問答交付服務(wù),確保智能交互平臺能夠提供專業(yè)且高效的服務(wù)體驗。2.5數(shù)據(jù)源管理系統(tǒng)2.5.1數(shù)據(jù)源駕駛艙的底層數(shù)據(jù)來源支持鏈接多種類型數(shù)據(jù)庫,數(shù)據(jù)庫類型支持MySQL、GAUSS、SQLServer、POSTGRESQL、DORIS、STARROCKS、oracle、apachkylin等、csv數(shù)據(jù)文件上傳、支持接口數(shù)據(jù)源,提供詳細(xì)的連接參數(shù)配置和連接測試,確保了數(shù)據(jù)的準(zhǔn)確接入和高效處理。同時針對上傳后的數(shù)據(jù)支持添加字段描述,提高大模型對于數(shù)據(jù)的理解能力。2.5.2指標(biāo)管理①名詞定義數(shù)據(jù)指標(biāo)(Dataindicator),也稱為度量或關(guān)鍵性能指標(biāo),用來衡量特定業(yè)務(wù)表現(xiàn)的數(shù)值,幫助組織了解他們在實現(xiàn)目標(biāo)和戰(zhàn)略上的進(jìn)展。數(shù)據(jù)指標(biāo)可以涵蓋各種不同的領(lǐng)域,包括但不限于銷售、市場營銷、人力資源、運營、財務(wù)等。例如,銷售部門可能會關(guān)注“銷售額”、“新客戶數(shù)量”等指標(biāo)。原子指標(biāo):即最小粒度的數(shù)據(jù)指標(biāo),構(gòu)建一些簡單的不需要涉及指標(biāo)之間的計算。例如“銷售額數(shù)值”、“新客戶數(shù)量”。也是組成復(fù)合指標(biāo)的最小顆粒度。系統(tǒng)默認(rèn)數(shù)據(jù)源充分的條件下不需要配置則支持原子指標(biāo)查詢其同比與環(huán)比。復(fù)合指標(biāo):構(gòu)建一些較為復(fù)雜的數(shù)據(jù)指標(biāo)需要涉及原子指標(biāo)間的計算,例如“銷售額”,通過“銷售單價”*“銷售數(shù)量”計算得出。數(shù)據(jù)明細(xì):用于查詢數(shù)據(jù)源中的某個數(shù)據(jù)明細(xì),例如上傳的數(shù)據(jù)csv文件中的某一單元格的數(shù)據(jù)值,無聚合方式數(shù)據(jù)維度:在數(shù)據(jù)分析中,業(yè)務(wù)需要在得到特定條件或分類下的數(shù)據(jù)指標(biāo)數(shù)值,某個特定條件和分類就是單個的數(shù)據(jù)維度,例如,如果我們有一個銷售額的數(shù)據(jù)指標(biāo),而維度則是對這些指標(biāo)進(jìn)行分類或分組的方式,如按地理位置、時間、產(chǎn)品類型等進(jìn)行分類。那么“各項維度下的數(shù)據(jù)指標(biāo)值”可能就包括按地區(qū)劃分的銷售額、按季度劃分的銷售額、按產(chǎn)品類型劃分的銷售額等。②指標(biāo)構(gòu)建支持多層次、多維度的指標(biāo)體系構(gòu)建。設(shè)置相應(yīng)的數(shù)據(jù)指標(biāo)描述,可增強大模型對數(shù)據(jù)指標(biāo)的理解能力,從而更加精準(zhǔn)的深度分析數(shù)據(jù);設(shè)置數(shù)據(jù)指標(biāo)的數(shù)據(jù)格式和計算方式,幫助平臺準(zhǔn)確快速的計算處理數(shù)據(jù)并呈現(xiàn)。設(shè)置數(shù)據(jù)維度得到各分類和分組下的數(shù)據(jù)指標(biāo)值,幫助更深入地理解和分析數(shù)據(jù),發(fā)現(xiàn)潛在的趨勢和模式。設(shè)置數(shù)據(jù)篩選條件,可過濾無用的數(shù)據(jù)源,增加數(shù)據(jù)的可靠性和數(shù)據(jù)分析的真實性。設(shè)置時間維度:年、季度、月、日等,平臺將按照選擇的時間顆粒度對數(shù)據(jù)進(jìn)行統(tǒng)計與分析。③指標(biāo)分類采用指標(biāo)域分類管理數(shù)據(jù),將數(shù)據(jù)按照業(yè)務(wù)規(guī)則和標(biāo)準(zhǔn)通過指標(biāo)域名稱進(jìn)行分類、整理,支持按照指數(shù)據(jù)檢索。2.5.3知識庫支持多種文檔格式的上傳:doc、pdf、txt,并以文件夾形式進(jìn)行分類管理,系統(tǒng)支持默認(rèn)規(guī)則的文檔切片,用戶可自行調(diào)整,并綁定圖片或者視頻,以增強駕駛艙在知識庫模塊對企業(yè)專有名詞、規(guī)則、文化等知識的展示與講解,使得企業(yè)內(nèi)部的知識資源可以得到有效整合和充分利用,實現(xiàn)知識的快速檢索和智能推薦,提升知識共享和應(yīng)用的效率。AI服務(wù)3.1語音類3.1.1語音聽寫語音聽寫(iFlyAutoTransform,IAT)技術(shù)是將語音中包含的文字信息“提取”出來,把語音轉(zhuǎn)換成對應(yīng)的文字信息,讓機器能夠“聽懂”人類的語言,相當(dāng)于給機器安裝上“耳朵”,使其具備“能聽”的功能。該系統(tǒng)擁有領(lǐng)先的語音聽寫技術(shù),核心技術(shù)達(dá)到國際領(lǐng)先水平,語音聽寫準(zhǔn)確率已經(jīng)超過98%,在業(yè)界遙遙領(lǐng)先。語音聽寫主要面向朗讀風(fēng)格的語音轉(zhuǎn)文字,適用于人機會話的場景。語音聽寫私有云服務(wù)部署在企業(yè)局域網(wǎng)內(nèi),用戶語音及業(yè)務(wù)數(shù)據(jù)保存在內(nèi)網(wǎng),有效的保證了客戶機密信息,具有高安全性。語音聽寫技術(shù)主要功能特點有:(1)支持多種語種和方言語音聽寫技術(shù)對于日常使用的常用對話有著很高的識別準(zhǔn)確率,包含短信類、生活、交通、娛樂、科技、數(shù)字?jǐn)?shù)值、名人、互聯(lián)網(wǎng)熱詞、新聞等領(lǐng)域。語音聽寫技術(shù)支持中文和英文兩個語種的識別,同時還支持中文中夾帶英文單詞、簡單的英文語句,基本可以達(dá)到中國人日常生活的要求。語音聽寫技術(shù)也支持中文多種方言的識別,其中包括廣東話、東北話、四川話、河南話、山東、貴州、天津、河北、閩南等24種方言。注:支持23種方言和1種民族語言,方言包含有四川話、河南話、武漢話、廣東話、甘肅話、客家話、河北話、合肥話、閩南話、南京話、臺灣話、云南話、東北話、陜西話、太原話、天津話、皖北話、貴州話、寧夏話、長沙話、南昌話、山東話、上海話,民族語言包含有彝族。咨詢可視項目情況進(jìn)行列舉。(2)支持多種音頻編解碼格式目前語音聽寫支持pcm、wav、speex、speex-wb、opus等音頻編解碼算法。(3)語音預(yù)處理語音聽寫技術(shù)支持對輸入的音頻流進(jìn)行前后端點檢測,可以在會話啟動時動態(tài)設(shè)置前后端點超時時間,也可以關(guān)閉端點檢測功能以達(dá)到長音頻語音聽寫。在實際應(yīng)用中,背景噪聲對于語音識別應(yīng)用是一個現(xiàn)實的挑戰(zhàn),即便說話人處于安靜的辦公室環(huán)境,在人機交互過程中也難以避免會有一定的噪聲。語音聽寫技術(shù)具備高效的噪音消除能力,以適應(yīng)用戶在千差萬別的環(huán)境中應(yīng)用的要求。(4)文本后處理語音聽寫技術(shù)支持對識別結(jié)果語句智能預(yù)測其對話語境,提供智能斷句和標(biāo)點符號的預(yù)測,同時也支持?jǐn)?shù)字規(guī)整和替換列表能力。(5)中間結(jié)果實時語音聽寫支持中間識別結(jié)果返回的功能。中間結(jié)果,即識別過程中產(chǎn)生的過渡結(jié)果,這個結(jié)果可能會根據(jù)后面音頻的上下文分析發(fā)生修正。開啟中間結(jié)果功能可以大大減少識別結(jié)果返回的時間間隔,提高識別過程中的視覺流暢度,并達(dá)到動態(tài)修正的功能體驗。非實時語音聽寫和英文實時語音聽寫暫不支持此功能。(6)角色分離角色分離可以根據(jù)輸入的音頻中不同角色將識別結(jié)果標(biāo)記分類,目前僅非實時語音聽寫支持角色分離,且僅支持2人角色分離。3.1.2語音合成語音合成,英文全稱TextToSpeech,簡稱TTS。主要解決的問題是如何將文字信息轉(zhuǎn)化為可聽的聲音信息,涉及聲學(xué)、語言學(xué)、數(shù)字信號處理、計算機科學(xué)等多個學(xué)科技術(shù),可以“讓機器像人一樣開口說話”。該系統(tǒng)采用最先進(jìn)的中文文本、韻律分析算法和最大語料庫的合成方法,合成語音已經(jīng)接近真人的自然效果。語音合成引擎在完成文本到語音數(shù)據(jù)的轉(zhuǎn)化過程中可以簡單分解為兩個步驟的處理。文本先經(jīng)過前端的語法分析,通過精心制作的詞典和規(guī)則的處理,得到格式規(guī)范,攜帶語法層次的信息,傳送到后端。后端在前端分析的結(jié)果基礎(chǔ)上,經(jīng)過韻律方面的分析處理,得到語音的時長、音高等韻律信息,再根據(jù)這些信息在音庫中挑選最合適的語音單元,語音單元再經(jīng)過調(diào)整和拼接,就能得到最終的語音數(shù)據(jù)。在整個轉(zhuǎn)化處理的過程中牽涉到大量的中英文語法和韻律知識的運用,以及語法和語義分析的算法,最佳路徑搜索,單元挑選和調(diào)整的算法,語音數(shù)據(jù)編碼方面的知識。語音合成私有云服務(wù)部署在企業(yè)局域網(wǎng)內(nèi),用戶語音及業(yè)務(wù)數(shù)據(jù)保存在內(nèi)網(wǎng),有效的保證了客戶機密信息,具有高安全性。語音合成技術(shù)主要功能特點有:(1)支持多類型發(fā)音人發(fā)音人涵蓋男女播音員標(biāo)準(zhǔn)發(fā)音、童聲發(fā)音、機器發(fā)音、動漫人物發(fā)音、中老年發(fā)音、明星發(fā)音等。(2)支持多語種支持中文、美式英語、法語、俄語、西班牙語、印地語、日語、韓語、泰語、德語、意語、葡語等語種。注:支持35個語種,包含有英語、日語、韓語、俄語、德語、法語、阿拉伯語、保加利亞語、波斯語、波蘭語、巴西葡萄牙語、菲律賓語、荷蘭語、豪薩語、捷克語、羅馬尼亞語、孟加拉語、馬來語、葡萄牙語、瑞典語、斯瓦希里語、意大利語、土耳其語、泰米爾語、泰語、烏克蘭語、烏爾都語、烏茲別克語、維吾爾語、西班牙語、希臘語、印地語、藏語。咨詢可視項目情況進(jìn)行列舉。(3)支持多種方言支持廣東話、上海話、東北話、河南話、湖南話、陜西話等方言。注:支持13個地區(qū)方言發(fā)音,包含有東北、成都、合肥、河南、湖南、廣東、內(nèi)蒙古、山東、上海、陜西、臺灣、武漢、香港。咨詢可視項目情況進(jìn)行列舉。(4)音頻調(diào)參支持語速、音量、音調(diào)等多種合成參數(shù)調(diào)節(jié)。(5)文本控制標(biāo)記可以通過文本控制標(biāo)記對文本中特定字段標(biāo)記特定的發(fā)音選項,以達(dá)到用戶自行控制合成效果。目前該功能不支持維語、藏語、蒙語和小語種的文本標(biāo)記。3.2NLP類3.2.1語義理解語義理解引擎的處理主要依賴于規(guī)則匹配,即基于業(yè)務(wù)專家建立的高精度規(guī)則,本質(zhì)上進(jìn)行的是規(guī)則的匹配。語義解析在某一垂直應(yīng)用領(lǐng)域,通過限定應(yīng)用的范圍,為機器補充相應(yīng)的背景知識,可
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 漢字筆畫課件演示
- 遼寧省七校協(xié)作體2025-2026學(xué)年高三上學(xué)期開學(xué)考試英語模擬試題(含解析)
- 2025年山西省臨汾市中考物理模擬試卷(含答案)
- 3D打印技術(shù)與應(yīng)用知到智慧樹答案
- 互聯(lián)網(wǎng)醫(yī)療機構(gòu)經(jīng)營模式分析
- 內(nèi)衣行業(yè)市場趨勢預(yù)測
- 2025雙方合作經(jīng)營教育公司合同范本
- 軍事理論-國家安全環(huán)境強化版知到智慧樹見面課答案
- 漢字書寫與鑒賞課件
- 水粉陶罐基礎(chǔ)知識培訓(xùn)課件
- TCAPC 016-2024 院外呼吸慢病健康管理規(guī)范
- 露天礦山安全知識培訓(xùn)課件
- 《中小企業(yè)員工激勵機制存在的問題及完善對策研究》4000字
- 第1章 汽車4S店概述
- 呼蘭河傳完整版課件
- 醫(yī)療器械監(jiān)管實務(wù)
- 旅游景區(qū)反恐防爆應(yīng)急預(yù)案
- 實驗室隱患排查培訓(xùn)
- 浪潮iqt在線測評題及答案
- 中外運社招在線測評題
- GB/T 18802.331-2024低壓電涌保護(hù)器元件第331部分:金屬氧化物壓敏電阻(MOV)的性能要求和試驗方法
評論
0/150
提交評論