海外大模型:生成式AI加速創(chuàng)新行業(yè)迎歷史性機遇(2024年)_第1頁
海外大模型:生成式AI加速創(chuàng)新行業(yè)迎歷史性機遇(2024年)_第2頁
海外大模型:生成式AI加速創(chuàng)新行業(yè)迎歷史性機遇(2024年)_第3頁
海外大模型:生成式AI加速創(chuàng)新行業(yè)迎歷史性機遇(2024年)_第4頁
海外大模型:生成式AI加速創(chuàng)新行業(yè)迎歷史性機遇(2024年)_第5頁
已閱讀5頁,還剩89頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

分析師:耿軍軍郵箱:gengjunjun@SAC執(zhí)業(yè)資格證書編碼:S0020519070002聯(lián)系人:王朗郵箱:wanglang2@請務必閱讀正文之后的免責條款部分3資料來源:信通院《人工智能生成內(nèi)容(AIGC)白皮書》,CSDN官網(wǎng),阿里云開發(fā)者社區(qū),NIHRecord官網(wǎng),MIT官網(wǎng),5之心官網(wǎng),騰訊云開發(fā)者社區(qū),科技行者官網(wǎng),雷鋒網(wǎng),澎湃新聞安全客官網(wǎng),AIGC開放社區(qū)公眾號,IT之家官網(wǎng),OpenAI官網(wǎng),36氪官網(wǎng),國元證券3 GAN使用合作的零和博弈框架來學習,被廣泛用于生成圖像、視頻、語音和三維物體模型。Transformer模型是一種采用自注意力機制的深度學習模型,這一機制可按輸入數(shù)據(jù)各4請務必閱讀正文之后的免責條款部分資料來源:騰訊研究院《AIGC發(fā)展趨勢報告》,國4 直至圖像被破壞變成完全的高斯噪聲,然后在逆向階段學習從高斯噪聲還原為原始圖像的過一種基于自注意力機制的神經(jīng)網(wǎng)絡模型,最初用來完成不包含Encoder和Decoder部分,分別提出了一種從一組輸入圖像中優(yōu)化連續(xù)5D神經(jīng)輻射場的表示(任何連續(xù)位置的2)使用已經(jīng)標記好的“文字-圖像”訓練數(shù)據(jù)。一方面對文字進行模型訓進行另一個模型的訓練,不斷調(diào)整兩個模型的內(nèi)部參數(shù),使得模型分別輸Transformer的注意力機制學習圖像的全局依賴關(guān)系,具有良好的可擴展性,可以訓練到更資料來源:騰訊研究院《AIGC發(fā)展趨勢報告》,經(jīng)緯創(chuàng)投55 通過梳理全球主流大語言模型(LLM)的發(fā)展脈絡,2018年以來的GPT系列、LLaMA系列、BERT等多款大模型均發(fā)66 預訓練模型是為了完成特定任務基于大型數(shù)據(jù)集訓練的深度學習模型,讓AI模型的開發(fā)從手工作坊走向工廠模2017年,Google顛覆性地提出了基于自注意力機制的神經(jīng)網(wǎng)絡結(jié)構(gòu)——Transfor圖:預訓練相當于“通識教育”資料來源:IDC《2022中國大模型發(fā)展白皮書》77 4810億4810億StableDiffusion語言理解與圖StableDiffusion語言理解與圖 AnthropicAnthropic8AIGC開放社區(qū)公眾號,機器之心公眾號,CSDN官網(wǎng),國元證券研究所8 ScalingLaws:模型容量、數(shù)據(jù)量、訓練成本共同構(gòu)成了大模型訓練的不可能三角。大模型訓練的目標是最大化模型性能,成本(GPU的數(shù)量和訓練時間等)是受限的,因此一般通過增加數(shù)據(jù)集大小和增加模型中的參數(shù)量兩種途徑來提升模型性能。99 預訓練數(shù)據(jù)從數(shù)據(jù)來源多樣性、數(shù)據(jù)規(guī)模、數(shù)據(jù)質(zhì)量三方面影響模型性能。以GPT模型為例,其架構(gòu)從第1代到用來訓練數(shù)據(jù)的數(shù)據(jù)規(guī)模和質(zhì)量卻有很大的提升,進而引發(fā)模型性能的飛躍。以吳恩達(AndrewNg)為代表的學者觀點認為,人工智能是以數(shù)據(jù)為中心的,而不是以模型為中心。“有標注的高質(zhì)量數(shù)據(jù)才能釋放人工智能的價值,如果來源多樣性來源多樣性數(shù)據(jù)規(guī)模數(shù)據(jù)規(guī)模數(shù)據(jù)質(zhì)量數(shù)據(jù)質(zhì)量u針對大模型需求制定配比u足夠規(guī)模的高質(zhì)量語料u高質(zhì)量訓練集能提高模型精度,不同場景/領(lǐng)域的數(shù)據(jù)具有不同的語言隨著模型參數(shù)量的增加,也需要更多數(shù)減少訓練時長特征,對模型能力提升的點也不同。如:據(jù)來訓練。只有參數(shù)規(guī)模突破了100億有重復、噪聲、錯誤數(shù)據(jù)等低質(zhì)量語料書籍語料占比提升,可以提升上下文理以上的大模型才具有“涌現(xiàn)能力”會損害模型性能。如:訓練語料有重復, 為了追求更好的模型性能,模型參數(shù)規(guī)模也與訓練數(shù)據(jù)量同步快速增長,模型參數(shù)量大約每18個月時間就會增長40倍。例如2016年 隨著人工智能技術(shù)的不斷發(fā)展,其應用場景日益豐富,各行各業(yè)所匯聚的龐大數(shù)據(jù)資源為技術(shù)的實際應根據(jù)第三方咨詢機構(gòu)格物致勝的統(tǒng)計數(shù)據(jù),2022年中國人工智能市場規(guī)模達到2058億元,預計2023-2027年市場規(guī)模將保持28.2%的復合增長率,2027年中國人工智能市場規(guī)模將達到7119億元。根據(jù)statista的統(tǒng)計數(shù)據(jù),2023年全球人工智能市場規(guī)02020202120222023E2024E0202120222023 多模態(tài)較單一模態(tài)更進一步,已經(jīng)成為大模型主戰(zhàn)場。人類通過圖片、文字、語言等多種途徑來學習和理解,多模態(tài)技術(shù)也是通過整合多種模態(tài)、對齊不同模態(tài)之間的關(guān)系,使信息在模態(tài)之間傳遞。2023年以來,OpenAI發(fā)布的GPT-4V、Google發(fā)布的Gemini、Anthropic發(fā)布的Claude3均為多模態(tài)模型,展現(xiàn)出了出色的多模態(tài)輸出,包括文本、圖像、音頻、視頻、3D模型等多種模態(tài)。 多模態(tài)大型語言模型(MLLMs)的通用架構(gòu),由1)視覺編碼器(VisualEncoder)、2)語言模型(LanguageModel)和3)適配器模塊(AdapterModule)組成。1)負資料來源:DavideCaffagni等 3D生成技術(shù)應用廣闊,但仍處在技術(shù)臨界點以前。3D生成技術(shù)可廣泛應用于3D虛擬人、3D人臉、3D場景等領(lǐng)域,目前3D生成的主流技術(shù)路徑大致可分為:1)text-to-2D,再通過NeRF或Diffu3D,該路徑直接使用3D數(shù)據(jù)進行訓練,從訓練到微調(diào)到推理都基于3 當大模型遷移到機器人身上,大模型的智能和泛化能力有望點亮通用機器人的曙光。2023年7月,谷歌推出機器人模型RoboticsTransformer2(RT-2),這是一個全新的視覺-語言-動作(VLA)模型,從網(wǎng)絡和機器人數(shù)據(jù)中學習,并將這些知識轉(zhuǎn)化為機器人控制的通用指令。2024年3月,機器人初創(chuàng)企業(yè)Figure展示了基于OpenAI模型的全尺寸人形機器人Fig), 通用人工智能(ArtificialGeneralIntelligence,AGI)是一種可以執(zhí)行復雜任務一個衡量“性能”和“通用性”的矩陣,涵蓋從無人工智能到超人類AGI(一個在所有任務上都優(yōu)于所有人的通用人2級:Competent2級:Competent(至少3級:3級:Expert(至少90百4級:4級:Virtuoso(至少995級:5級:Superhuman(超ArtificialSuperintellig資料來源:DeepMind《LevelsofAGI:OperationalizingProgress 2023年12月,黃仁勛表示,如果把通用2023年11月,DeepMind聯(lián)合創(chuàng)始人兼首席AGI科學家ShaneL領(lǐng)的DeepMind研究團隊在Arxiv上公布了一篇名為《AGI的水平:實現(xiàn)2020年,谷歌機器人團隊的軟件工程師AlexIrpan認為,到2035年我們有10%的概率實現(xiàn)AGI,但到了202資料來源:DeepMind《LevelsofAGI:OperatiAGI》,國元證券研究所請務必閱讀正文之后的免責條款部分 OpenAI由SamAltman、ElonMusk等在2015年創(chuàng)辦,主旨是努力在安全的前提下創(chuàng)建通用人工智能(AGI)并讓全人類共同受益;2020年發(fā)布GPT-3模型,2022年11月發(fā)布GPT-3.5模型,能夠與人類進行多輪連續(xù)的各發(fā)布GPT-4模型;2024年2月發(fā)布AI視頻生成模型SOpenAI宣布成OpenAI于3月OpenAI于2月立;公司定位月發(fā)布聊天機發(fā)布AI視頻生為“非盈利組“封頂盈利”型,9月微軟織”,主旨是獲得該模型獨能根據(jù)提示詞努力在安全的微軟10億美元夠與人類進行生成長達一分前提下創(chuàng)建通投資,雙方合多輪連續(xù)的各美元,相比去鐘的高清視頻。種對話,給出年增長56倍,Azure云端平較為合理的回全人類共同受臺服務開發(fā)AI答,引發(fā)全球資料來源:AI前線公眾號,MBA百科,騰訊研究院公眾號,機器之心官網(wǎng),華爾街見聞官網(wǎng),騰 GPT-1通過無監(jiān)督預訓練和有監(jiān)督微調(diào)兩個步驟訓練;GPT-2無需有監(jiān)督微調(diào),而是通過更大規(guī)模的模型參數(shù)和訓練數(shù)據(jù)集進行無監(jiān)督預訓練,模型參數(shù)量達到15億;GPT-3的模型參數(shù)和數(shù)據(jù)集進一步擴大,模型參數(shù)量增加到1750億,上下文窗口寬度增加到 認自身錯誤、質(zhì)疑不正確的問題、承認自身的無知和對專業(yè)技術(shù)的不了解以及支持連續(xù)多輪對話,極大提升了對話交互模式下的用 2023年3月14日,OpenAI宣布推出大型的多模態(tài)模型GPT-4,可以接收圖像和文本輸入。OpenAI稱,GPT-4參加了多種基準考試 2GPT發(fā)展回顧:更快更強更便宜的GPT-4Turbo2023年11月7日,OpenAI在開發(fā)者大會披露新版本具備:1便宜:新模型的價格是每千輸入token1美分,而每千輸出token3美分,輸入和輸出費用分別降至GPT-4(8K)的1/3和1/2,總體使用上降價約2.75倍;3)更聰明:內(nèi)部知識庫更新至2023年4月,并支持上傳外部數(shù)據(jù)庫或文件;4)視聽多模態(tài):支持文生圖模型翻倍,可通過API賬戶申請進一步提速。0GPT-4(8K)GPT4( 功能包括自然語言處理、文本生成、理解、語音轉(zhuǎn)錄根據(jù)OpenAI首席執(zhí)行官SamAltma個性化:理解個人偏好的能力,如整合用戶信息、電子郵件、日歷、約會偏好,并與外部數(shù)據(jù)源建立聯(lián)系;3)推理能力和準確性:請務必閱讀正文之后的免責條款部分資料來源:AIGC開放社區(qū)公眾號,國元證券研究所 2023年9月,OpenAI發(fā)布DALL.E3,比以往系統(tǒng)更能理解細微差別和細節(jié),能夠讓用戶更加輕松地將自己的想法轉(zhuǎn)化為非常準確的圖像;該模型原生構(gòu)建在ChatGPT之上,用ChatGPT來創(chuàng)建、拓展和優(yōu)化prompt,用戶無需在prompt上花費太多時間。DALL.E3的技術(shù)架構(gòu)主要分為圖像描述生成和圖像生成兩大模塊。圖像描述生成模塊使用了CLIP圖像編碼器和GPT語言模型(GPT-4),可為每張圖像生成細致的文字描述;圖像生成模塊先用VAE將高分辨率圖像壓縮為低維向量,降低學習難度。然后使用T5Transformer將文本編碼為向量,并請務必閱讀正文之后的免責條款部分 2024年2月16日,OpenAI發(fā)布AI生成視頻模型Sora,其卓越之處在于能夠生成跨越不同持續(xù)時間、縱橫比和分辨率的視頻和圖像,甚至包括生成長達一分鐘的高清視頻,“碾壓”了行業(yè)目前平均約”4s”的視頻生成長度,AI視頻生成領(lǐng)域迎來Chgeneralpurposesimu Sora不僅接受文字輸入,還可根據(jù)圖像和視頻輸入來生成視頻。Sora能夠執(zhí)行各種圖像和視頻編輯任務——創(chuàng)建完美循環(huán)的視頻、為靜態(tài)圖像制作動畫、在時間維度上向前或向后擴展視頻、在兩個截然不同的輸入視頻之間實現(xiàn)無縫過渡、零輸入轉(zhuǎn)換輸入視頻風格和場景,展示了該模型在圖像和視頻編輯領(lǐng)域的強大能力和應用潛力,有望給產(chǎn)業(yè)端帶來革命請務必閱讀正文之后的免責條款部分 像頭運動的視頻。隨著攝像頭的移動和旋轉(zhuǎn),人物和場景元素在三維空間中始終保持一致的運動規(guī)律。2)較長視頻的連貫性和對象持久性:這是視頻生成領(lǐng)域面對的一個重要挑戰(zhàn),而Sora能有效為短期和長期物體間的依賴關(guān)系建模,人和物被遮擋或離開畫面后,仍能被準確地保存和呈現(xiàn)。3)與世界互動:Sora能以簡單的方式模擬影響世界狀態(tài)的行為,例如畫家可以在畫布上留下新的筆觸。4)模擬數(shù)字世界:Sora能夠模擬人工過程,比如視頻請務必閱讀正文之后的免責條款部分 Sora的本質(zhì)是一種Diffusiontransformer模型。Diffusiontransf請務必閱讀正文之后的免責條款部分資料來源:深度學習與計算機視覺公眾號,國元證券研究所 Sora模型訓練范式:patch統(tǒng)一原始視覺數(shù)據(jù)。OpenAI提出了一種用patch作為視頻數(shù)據(jù)來訓練視頻模型的方式,patch是將圖像或視頻幀分割成的一系列小塊區(qū)域,是模型處理和理解原始數(shù)據(jù)的基本單元,這是從大語言模型的token汲取的靈感。Token統(tǒng)一了文本的多種模式——代碼、數(shù)學和各種自然語言,而patch則統(tǒng)一了圖像與視頻。過去的圖像和視頻生成方法通常會將視頻調(diào)整大小、裁剪或修剪為標準尺寸,而這損耗了視頻生成的質(zhì)量,將圖片與視頻數(shù)據(jù)patch化之后,無需對數(shù)據(jù)進行壓縮,就能夠?qū)Σ煌直媛?、持續(xù)時間和長寬比的視頻和圖像的原 Sora模型訓練范式:re-captioning標注技為此OpenAI借鑒了DALL·E3中的re-captioning技術(shù),首先訓練了一個高度描述性的轉(zhuǎn)譯員模型,然后使用它為訓練集中的所有視頻生成文本轉(zhuǎn)譯。通過這種方式對高度描述性的視頻轉(zhuǎn)譯進行訓練,可顯著提高文本保真度OpenAI利用GPT技術(shù)將簡短的用戶提示轉(zhuǎn)換為更長的詳細轉(zhuǎn)譯,并發(fā)送到視頻模型,令Sora能精確按照用戶提示生成高質(zhì)量視頻。 擁有70億、130億和700億三種參數(shù),并且允許商業(yè)化。技術(shù)方面,該預訓練模型接受了2萬億個標記的訓練,上下文本的兩倍,能處理更長的文本內(nèi)容;性能方面,LLaMA請務必閱讀正文之后的免責條款部分 2視覺大模型:開源圖片分割基礎(chǔ)模型S集上進行了訓練,具有超強的自動識別、切割功能。SAM能感知超出數(shù)據(jù)訓練的對象和圖像,就算圖片不在SAM訓練范圍內(nèi),它也能識別。這意味著,用戶無需再收集自己的細分數(shù)據(jù),并為用例模型進行微調(diào)。SAM可以集成在任何希望識別、切割對象的應 2023年5月,Meta開源了多模態(tài)大模型ImageBind,可跨越圖像、視頻、音頻、深度、熱量和空間運動6種模態(tài)進行檢索。例如,輸入鴿子的圖片,外加一個摩托音頻,模型能夠檢索出一張摩托和鴿子的圖片。ImageBind模型把不同模態(tài)數(shù)據(jù)串聯(lián)在一個嵌入空間(EmbeddingSpace),從多維度理解世界,未來將引入更多模態(tài)增強對世界感知,比如如觸覺、語音、嗅覺和大腦 );法....Google再發(fā)LaMDA),具有“意識”Google再發(fā)LaMDA),具有“意識”DeepMind發(fā)布Gopher),資料來源:飛哥說AI微信公眾號,澎湃新聞網(wǎng),36氪 PaLM2性能升級,部分測試結(jié)果超過GPT-4,輕量版可運行在移動設備上:2023年5月,谷歌發(fā)布PaLM2,對于具有思維鏈谷歌將PaLM2融入辦公軟件、搜索引擎等產(chǎn)品:AI聊天機器人Bard被整合到谷歌的辦公軟件“全家桶”中,為Gmail、GoogleDocs、Sheets以及Slides創(chuàng)造了名為”DuetAI”的辦公助手;Ba 3多模態(tài)模型:最新發(fā)布Gemini1.5,支持超長上下文窗口組成,核心思想是使用一個門控網(wǎng)絡來決定每個數(shù)據(jù)應該支持超長的上下文窗口,信息處理能力進一步增強。谷歌增加了Gemini1.5Pro的上下文窗口容量,并實現(xiàn)在生產(chǎn)中運行高達100 2023年12月,Google發(fā)布最新的圖像模型Imagen2,在數(shù)據(jù)集和模型方面改善了文本到圖像工具經(jīng)常遇到的許多問題,包括渲染逼真的手和人臉,以及保持圖像沒有干擾視覺Imagen2基于擴散技術(shù)提供了高度的靈活性,使控制和調(diào)整圖像風格變得更加容易。通過提供參考風格的圖像并結(jié)合文字提示,使用者可以調(diào)節(jié)Imagen2生成相同風格的新圖像;此外,還支持修補(inpainting)和擴圖(outpainting 示生成可玩的交互式環(huán)境。谷歌認為Genie是實現(xiàn)通用智能體的基石之作,未來的AI智能體可以在新生成世界的無休止的curriculum中接受訓練,從Genie學到的潛在動作可以轉(zhuǎn)移到真實的人類設計的環(huán)境中。Genie包含三個關(guān)鍵組件:1)潛在動作模型(LatentActionModel,LAM),用于推理每對幀之間的潛在動作a;2)視頻分詞器(Tokenizer),用于將原始視頻幀轉(zhuǎn)換為離散tokenz;3)動態(tài)模型,給定潛在動作和過去幀的token,用來預測視頻的下一幀。請務必閱讀正文之后的免責條款部分 Anthropic是一家人工智能創(chuàng)業(yè)公司,由OpenAI前研究副總裁達里奧·阿莫迪(DarioAmodei)、大語言模型GPT-3論文的第一作者湯姆·布朗(TomBrown)等人在2021年創(chuàng)立。2023年2月,獲得Google投資3億美元,Google持股10%;2023年3月,發(fā)布類似請務必閱讀正文之后的免責條款部分 2多模態(tài)模型:Claude3基準測試2024年3月,Anthropic發(fā)布最新的多模態(tài)模型Claude3,該系列包含三個模型:Claude3Haiku、Claude個維度樹立了新的行業(yè)基準。多模態(tài)方面,用戶可以上傳照片、圖表、文檔和其他類型的非結(jié)構(gòu)化數(shù)據(jù),讓AI分析和解答。請務必閱讀正文之后的免責條款部分預計未來6個月內(nèi),股價漲跌幅優(yōu)于上證指數(shù)20%以上分析師聲明作者具有中國證券業(yè)協(xié)會授予的證券投資咨詢執(zhí)業(yè)資格或相當?shù)膶I(yè)勝任能力,以勤勉的職業(yè)態(tài)度,獨立、客觀地出具本報告。本人承諾報告所采用的數(shù)據(jù)均來自合規(guī)渠道,分析邏輯基于作者的職業(yè)操守和專業(yè)能力,本報告清晰準確地反映了本人的研究觀點并通過合理判斷得出結(jié)論,結(jié)論不受任何第三方的授意、影響。證券投資咨詢業(yè)務的說明根據(jù)中國證監(jiān)會頒發(fā)的《經(jīng)營證券業(yè)務許可證》(Z23834000),國元證券股份有限公司具備中國證監(jiān)會核準的證券投資咨詢業(yè)務資格。證券投資咨詢業(yè)務是指取得監(jiān)管部門頒發(fā)的相關(guān)資格的機構(gòu)及其咨詢?nèi)藛T為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論