解讀AI數(shù)字人:技術基本Ready、應用層即將爆發(fā)下一個十億級賽道_第1頁
解讀AI數(shù)字人:技術基本Ready、應用層即將爆發(fā)下一個十億級賽道_第2頁
解讀AI數(shù)字人:技術基本Ready、應用層即將爆發(fā)下一個十億級賽道_第3頁
解讀AI數(shù)字人:技術基本Ready、應用層即將爆發(fā)下一個十億級賽道_第4頁
解讀AI數(shù)字人:技術基本Ready、應用層即將爆發(fā)下一個十億級賽道_第5頁
已閱讀5頁,還剩18頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

AI數(shù)字人跨越「恐怖谷」AIAvatarsEscapetheUncannyValleyJustineMoor當AI不僅是內容的制造者,而化身為內容本身,會帶來怎樣的變革?人工智能已經掌握了生成逼真照片、視頻和聲音的能力,通過了視覺和聽覺圖靈測試。下一個重大飛躍是AI數(shù)字人:將面部與聲音結合,創(chuàng)造出一個會說話的角色。難道不能直接生成人臉圖像、制作動畫并添加配音嗎?不盡然。挑戰(zhàn)不僅在于實現(xiàn)口型同步,更在于確保面部表情和肢體語言的協(xié)調一致。如果嘴巴張大表示驚訝,但臉頰和下巴紋絲不動,就會顯得非常不自然。而且,如果一個聲音聽起來很興奮,但對應的臉部卻沒有相應的反應,這種類人幻覺就會立刻破滅。我們已經在該領域看到了顯著進展。AI數(shù)字人正逐步應用于內容創(chuàng)作、廣告宣傳和企業(yè)內部溝通等場景。目前的技術主要表現(xiàn)為「會說話的頭像」,雖然具備基本功能,但很有限。不過,近幾個月我們觀察到一些令人鼓舞的突破,預示著該技術領域將迎來更為實質性的發(fā)展。在本文中,我們將根據20多款AI數(shù)字人產品的實際測試結果,深入分析當前AI數(shù)字人技術的發(fā)展現(xiàn)狀,探討其未來發(fā)展趨勢,并重點介紹當前市場上備受矚目的相關產「我測試了超過20款用于創(chuàng)建AI角色的產品。作為一個多年來持續(xù)體驗這些工具的人,我對現(xiàn)在能夠實現(xiàn)的效果感到非常震撼?!笰I數(shù)字人的研究進展AI數(shù)字人是一個極具挑戰(zhàn)性的研究課題。為了生成逼真的「會說話的臉」,模型需要學習精確的「音素-視素」映射關系,也就是語音中的音素與對應的口型動作(視素)之間的關聯(lián)。如果這種映射關系出現(xiàn)偏差,就會導致口型與聲音不同步,甚至完全分離,影響用戶體驗。更復雜的是,說話時不僅僅是嘴部在運動。面部其他肌肉、上半身,甚至有時手部也會協(xié)同運動。而且,每個人都有其獨特的說話習慣和風格。不妨比較一下你和喜歡的名人說話的方式:即便說著相同的句子,嘴部的動作也會存在差異。如果將你的唇動強行匹配到對方的臉上,效果會顯得非常不自然。近年來,這一領域的研究取得了顯著進展。我查閱了自2017年以來的70余篇關于「會說話的AI頭像」論文,清晰地觀察到模型架構的演變歷程:從最初的卷積神經網絡(CNN)和生成對抗網絡(GANs發(fā)展到基于3D技術的方法,例如神經輻射場Transformer架構的擴散模型(DiT)。下面的時間軸展示了歷年來被引用次數(shù)最多的相關研究論文。AI數(shù)字人研究進展圖可見,生成的質量和模型性能都得到了顯著提升。早期的技術手段較為局限,例如,僅使用單張人物照片,遮蓋其面部下半部分,然后根據音頻輸入中提取的面部特征點來生成新的口型動作。這些模型依賴于數(shù)量有限的高質量唇形同步數(shù)據進行訓練,而這些數(shù)據大多是對人臉進行近距離裁剪得到的。為了實現(xiàn)更逼真的效果,比如讓奧巴馬的頭像進行唇形同步,則需要數(shù)小時的奧巴馬視頻素材,并且輸出的動作也受到很大限制。如今的模型在靈活性和功能性上都得到了極大的提升。它們可以在同一視頻中生成半身甚至全身運動、逼真的說話表情和動態(tài)背景。這些新型模型更像是在更大的數(shù)據集上進行訓練的、傳統(tǒng)的文本到視頻模型,采用多種技術手段來確保在復雜的運動場景中唇形同步的精確度。字節(jié)跳動于二月份推出的OmniHuman-1模型,首次體現(xiàn)了這種發(fā)展趨勢(該模型近期已在Dreamina平臺上線)。該領域的技術迭代速度非??臁狧edra公司在三月份發(fā)布了Character-3模型,經過我們的一對一對比測試,該模型在大多數(shù)應用場景中都表現(xiàn)出最佳性能。Hedra模型也適用于非人類角色,例「會說話的Waymo」,并且允許用戶通過文本輸入來控制角色的情緒和動作。受吉卜力工作室(StudioGhibli)風格等趨勢的推動,AI動畫領域也正在涌現(xiàn)出新的應用場景。下面的視頻由一張初始圖像幀和一段音軌生成。其中,角色的唇形同步、面部表情以及上半身動作均由Hedra模型生成。請注意觀察,背景中的角色也能夠自然地活動。AI數(shù)字人在現(xiàn)實世界的應用AI數(shù)字人的應用案例數(shù)不勝數(shù)——無論是角色互動,還是講解視頻,都能看到它們的身影。目前,我們已經觀察到AI數(shù)字人在消費者、中小型企業(yè)乃至大型企業(yè)等多個領域都得到了廣泛應用。AI數(shù)字人市場概覽這是AI數(shù)字人市場的早期概覽圖。這一領域發(fā)展迅速,各產品之間的界限還比較模糊。理論上,許多產品都具備為上述大部分甚至所有應用場景創(chuàng)建虛擬形象的能力,但我們發(fā)現(xiàn),在實際應用中,很難構建完善的工作流程并對精細調整模型,使其在所有領域都表現(xiàn)出色。下面,我們將分別介紹各個細分市場如何利用AI數(shù)字人的具體案例。消費者領域:角色創(chuàng)建現(xiàn)在,任何人都可以僅憑一張圖像就能創(chuàng)建出動畫角色,這極大地釋放了創(chuàng)造力。對于那些希望利用人工智能來講述故事的普通用戶來說,這項技術的重要性無論如何強調都不過分。早期的人工智能視頻之所以常被批評為「圖片幻燈片」,原因之一就是缺乏會說話的角色,或者僅以旁白形式呈現(xiàn)語音內容。當內容中的角色能夠開口說話時,其趣味性將大幅提升。除了傳統(tǒng)的敘事視頻外,這項技術還能應用于創(chuàng)作AI主播、播客節(jié)目,以及音樂視頻等多種形式的內容。Hedra平臺允許用戶僅憑借一張初始圖片以及一段音頻或文字腳本,即可生成生動且能說話的虛擬角色。使用Hedra生成的AI主播如果你的素材是視頻而非圖片,可以使用Sync工具實現(xiàn)唇形同步,使角色面部表情與音頻內容精準匹配。若希望通過捕捉真人表演來驅動虛擬角色的動作,則可以借助RunwayAct-One和Viggle等工具實現(xiàn)。我很喜歡的一位使用AI制作動畫角色的創(chuàng)作者是NeuralViz,他的系列作品TheMonoverse構想了一個后人類時代,其中居住著名為Glurons的生物。如今,技術門檻已大幅降低,相信在不久的將來,我們將看到大量由AI生成的節(jié)目,甚至是獨立的虛擬網紅涌現(xiàn)出來。未解之謎–第一集:人類(/@NeuralViz)隨著數(shù)字人的實時流式傳輸變得更加便捷,我們也希望看到面向消費者的公司將它們作為用戶界面的核心部分。試想一下,通過一位實時的AI「教練」來學習語言,這位「教練」不再僅僅是冰冷的語音,而是一位擁有生動面容和獨特個性的完整角色。像Praktika這樣的公司已經開始探索這種模式,并且隨著技術的不斷發(fā)展,交互體驗將會變得更加自然流暢。中小企業(yè)領域:潛在客戶開發(fā)廣告已然成為AI數(shù)字人的首要應用場景之一。企業(yè)現(xiàn)在無需雇傭演員和組建制作團隊,即可利用高度逼真的AI角色來推廣產品。Creatify和Arcad等公司提供了便捷的解決方案:只需提供產品鏈接,它們便能自動生成廣告,包括撰寫腳本、選擇輔助素材和圖片,以及「啟用」一位AI虛擬演員。這為以往無力負擔傳統(tǒng)廣告制作成本的企業(yè)提供了廣告營銷的新途徑。尤其在電商、游戲和消費類應用領域,這種方式廣受歡迎。相信你已經在YouTube或TikTok等平臺上看過由人工智能生成的廣告。目前,B2B企業(yè)也開始探索這項技術,利用AI數(shù)字人進行內容營銷,或借助YuzuLabs和Vidyard等工具實現(xiàn)個性化的客戶拓展。許多此類產品將AI演員(無論是真人克隆形象還是原創(chuàng)角色)與產品照片、視頻片段、音樂等其他素材相結合。用戶既可以自定義這些素材的位置,也可以選擇「自動模式」,讓系統(tǒng)自動將它們組合成視頻。腳本方面,用戶可以選擇自行編寫,也可以使用AI自動生成的版本。由AI工具Creatify生成的Grok推廣視頻大型企業(yè)領域:內容擴展除了營銷領域,企業(yè)還在探索AI數(shù)字人的諸多應用場景。接下來舉幾個例子:員工學習與提升:大多數(shù)大型企業(yè)都會為員工制作培訓和教育視頻,內容涵蓋入職引導、合規(guī)培訓、產品教程和技能提升等多個方面。Synthesia等AI工具能夠自動化這些流程,提高內容制作效率和規(guī)模化能力。某些崗位還需持續(xù)進行基于視頻的培訓。比如,可以想象一下,銷售人員使用Anam等產品的AI數(shù)字人練習談判技巧的場景。全球拓展和本地化:如果企業(yè)面向不同國家或地區(qū)的客戶和員工,可能需要將內容翻譯成當?shù)卣Z言,并替換其中的文化元素。AI數(shù)字人可以快速便捷地實現(xiàn)視頻內容的個性化定制。借助ElevenLabs等公司提供的AI語音翻譯技術,企業(yè)能夠以數(shù)十種語言生成相同的視頻,并配以自然流暢的語音。高管形象塑造:AI數(shù)字人讓高管們可以通過克隆自身形象來為員工或客戶創(chuàng)建個性化內容,從而提高他們的影響力。企業(yè)無需為每次產品發(fā)布或感謝致辭都進行拍攝,而是可以生成一位逼真的CEO或產品負責人AI數(shù)字人分身。Delphi和Cicero等公司也在積極探索,讓行業(yè)領袖能夠更便捷地與以往難以直接接觸的人群進行1對1的互動和疑問解答。AI數(shù)字人的構成要素打造一個逼真可信的AI數(shù)字人極具挑戰(zhàn)性,每個細節(jié)的真實性都面臨著各自的技術難題。這不僅僅是避免陷入「恐怖谷效應」,更需要解決動畫制作、語音合成和實時渲染等領域的基礎性問題。下面我們將詳細分析一個逼真AI數(shù)字人所需的技術要素、其難點所在,以及當前取得的進展:面部:無論是克隆現(xiàn)有人物,還是創(chuàng)建全新角色,都需要保證面部在不同幀之間的連貫性,并且在說話時呈現(xiàn)真實的動態(tài)。目前,上下文感知的表情表達仍是一大挑戰(zhàn)(例如,當虛擬形象說「我累了」時,能夠自然地打哈欠)。.聲音:聲音必須聽起來真實,并且與人物角色相匹配。例如,一位少女的形象不應配以老年女性的聲音。我們接觸過的大部分AI數(shù)字人公司都在使用ElevenLabs,該公司擁有龐大的語音庫,并支持用戶克隆自己的聲音。.唇形同步:實現(xiàn)高質量的唇形同步非常困難。許多公司,如Sync都致力于解決這一問題。其他模型,例如Meta的MoCha和字節(jié)的OmniHuman,則基于更龐大的數(shù)據集進行訓練,并采用多種技術,根據伴隨音頻精確地控制面部生成過程。這些模型通過在海量數(shù)據上訓練,找到了根據音頻信息有效控制面部幀生成的方法。.身體:數(shù)字人不能僅僅是漂浮的頭部!新的模型已經能夠生成具有完整身體,并能進行動作的數(shù)字人。然而,在規(guī)?;瘧靡约皩⑦@些技術交付給用戶方面,我們仍處于早期探索階段。.背景環(huán)境:虛擬形象并非獨立存在。周圍環(huán)境的光照、景深以及交互效果,都需要與場景相協(xié)調。理想情況下,數(shù)字人甚至應該能夠與環(huán)境中的物體進行互動,例如拿起某個產品。如果希望數(shù)字人能夠參與實時對話,例如加入Zoom會議,還需要額外考慮以下幾點:·大腦(智能):數(shù)字人需要具備「思考」能力。目前支持對話的產品通常允許用戶上傳或連接至知識庫。未來,更高級的數(shù)字人將有望具備更強的記憶功能和獨特的個性特征。它們應該能夠記住與用戶的歷史對話,并展現(xiàn)出自身的「風格」。.實時流傳輸:以盡可能低的延遲傳輸所有這些數(shù)據并非易事。Agora等產品正在努力解決這個問題,但要讓所有這些模型協(xié)同工作,同時最大限度地降低延遲,仍然面臨挑戰(zhàn)。我們已經看到一些產品在這方面表現(xiàn)出色,例如擁有語音和面部的AI外星人伙伴Tolan。然而,這方面仍有很大的提升空間。未來我們希望看到什么?該領域仍有巨大的發(fā)展和改進空間。以下是一些當前最受關注的重點方向:角色一致性與形態(tài)轉換一直以來,AI數(shù)字人通常采用單一、固定的「外觀」,包括靜態(tài)的服裝、姿勢和環(huán)境?,F(xiàn)在,一些產品開始提供更多樣的選擇。例如,HeyGen的角色Raul就擁有20種不同的外觀見下方視頻)然而,如果能夠更輕松地根據用戶的意愿自由變換虛擬形象,將會帶來更好的體驗。更精細的面部動作與更豐富的表情長期以來,面部一直是AI數(shù)字人的短板,往往顯得僵硬和缺乏生氣。隨著Captions推出的Mirage等新產品,這一狀況正在得到改善,它們能夠呈現(xiàn)更自然的外觀和更豐富的表情。我們期待AI數(shù)字人能夠理解腳本的情感內容,并做出恰當?shù)姆磻?。比如,當角色正從怪物手中逃脫時,能夠表現(xiàn)出恐懼的神情。身體動作目前,大多數(shù)數(shù)字人的面部以下動作都非常有限,即使是基本的手勢也難以實現(xiàn)。手勢控制通常依賴于程序化的設定,例如Argil允許用戶為視頻的每個片段選擇不同的肢體語言類型。我們期待未來能夠看到更加自然和智能的動作推斷,讓數(shù)字人的肢體語言更加生動。與「現(xiàn)實世界」互動目前,AI數(shù)字人還無法與周圍環(huán)境互動。近期一個可行的目標是使它們能夠在廣告中展示產品。Topview在這方面已經取得了一些進展(請參考以下視頻,了解他們的實現(xiàn)過程和效果我們期待著隨著模型技術的不斷提升,能夠實現(xiàn)更多互動功能。更多實時應用未來,AI數(shù)字人將

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論