彭厚文-騰訊混元多模態(tài)大模型技術(shù)實(shí)踐_第1頁
彭厚文-騰訊混元多模態(tài)大模型技術(shù)實(shí)踐_第2頁
彭厚文-騰訊混元多模態(tài)大模型技術(shù)實(shí)踐_第3頁
彭厚文-騰訊混元多模態(tài)大模型技術(shù)實(shí)踐_第4頁
彭厚文-騰訊混元多模態(tài)大模型技術(shù)實(shí)踐_第5頁
已閱讀5頁,還剩60頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

彭厚文騰訊混元多模態(tài)模型負(fù)責(zé)人目前專注于多模態(tài)基礎(chǔ)模型研發(fā)、曾任微軟亞洲研究院主管研究員。在人工智能領(lǐng)域國際期刊和會(huì)議如TPAMI、CVPR、NeurIPS等發(fā)表學(xué)術(shù)論文30余篇,擔(dān)任PatternRecognition期刊副主編,ACMMultimedia會(huì)議領(lǐng)域主席。演講主題:騰訊混元多模態(tài)技術(shù)實(shí)踐混元大模型的“前世今生”:從零自研、持續(xù)成長騰訊混元大模型正式發(fā)布24Q224Q1混元位居沙利文測(cè)評(píng)的第一象限24Q3文生文、多模態(tài)理解、文生圖均位居33混元多模態(tài)發(fā)展路線?圖、視頻生文:輸入是圖像和視頻以及文字指令,輸出是對(duì)圖像和視頻的內(nèi)容理解這張圖什么意思?這張圖什么意思?混元多模態(tài)大模型-預(yù)訓(xùn)練與模型結(jié)構(gòu)模型結(jié)構(gòu)模型結(jié)構(gòu)?圖片:VisionTransformer(ViT)?視頻:參數(shù)復(fù)用理解多圖、多視頻幀?視覺-語言(文本)適配器?鏈接視覺-語言模態(tài)的“橋梁”?大語言(文本)模型?理解視覺內(nèi)容和文字的“大腦中樞”預(yù)訓(xùn)練預(yù)訓(xùn)練?多階段預(yù)訓(xùn)練策略從粗到細(xì)分門別類構(gòu)建和優(yōu)化從粗到細(xì)分門別類構(gòu)建和優(yōu)化1.分門別類:10大垂類topic覆蓋理解/創(chuàng)作/問答/推理/專業(yè)領(lǐng)域等基礎(chǔ)識(shí)別知識(shí)問答基礎(chǔ)識(shí)別知識(shí)問答內(nèi)容創(chuàng)作分析推理多輪對(duì)話描述OCR圖表數(shù)學(xué)代碼2.任務(wù)多樣復(fù)雜:圖片復(fù)雜度x文本問題復(fù)雜度?統(tǒng)計(jì)類圖表(柱狀圖、折線圖、餅圖、散點(diǎn)圖、表格、散點(diǎn)圖、熱力圖、復(fù)雜圖表)?思維類圖表(程序流程圖、數(shù)據(jù)流程圖、業(yè)務(wù)流程圖、工作流程圖、架構(gòu)圖、樹狀圖、思維導(dǎo)圖、錐形、甘特圖等)OCR圖片類型:?自然場(chǎng)景(街景、路標(biāo)、廣告牌、發(fā)票、商標(biāo)、菜單...)2.難點(diǎn):數(shù)據(jù)雜亂、數(shù)據(jù)敏感(法律風(fēng)險(xiǎn)、用戶隱私)數(shù)據(jù)預(yù)處理數(shù)據(jù)泛化數(shù)據(jù)清洗數(shù)據(jù)使用過濾隱私數(shù)據(jù)答案改寫糾錯(cuò)數(shù)據(jù)篩選數(shù)據(jù)去重多輪合并過濾隱私數(shù)據(jù)答案改寫糾錯(cuò)數(shù)據(jù)篩選數(shù)據(jù)去重多輪合并多輪拆分相似檢索效果:日志挖掘提升指令覆蓋豐富度,提升指令理解渲染渲染圖表型財(cái)報(bào)分析:極端長寬比圖片圖像描述:一圖勝千言圖表型財(cái)報(bào)分析:極端長寬比圖片圖像描述:一圖勝千言更詳細(xì)的描述Q:騰訊上半年情況怎么樣?A:根據(jù)圖片中的財(cái)務(wù)表現(xiàn)摘要,騰訊2024年上半年的經(jīng)營盈利為103,288百萬元人民幣,每股盈利如下:攤薄每股盈利為9.377人民幣元因此,騰訊2024年上半年的經(jīng)營盈利為103,288百萬元人民幣,基本每股盈利為9.590人民幣元,攤薄每股盈利為9.377人民幣元。Q:Markdown形式列出騰訊經(jīng)營資料信息A:現(xiàn)狀:中文超越GPT-4V水平完成情況:6月評(píng)測(cè)結(jié)果與GPT-4o同處第一梯隊(duì),位居國內(nèi)第一總分:比GPT-4v高15.6分,比國內(nèi)第2名高5.4分(75.9vs.躍分項(xiàng)能力:OCR,圖像分析推理,圖生文視覺數(shù)學(xué),圖像內(nèi)容創(chuàng)作,多輪對(duì)話等5項(xiàng)能力達(dá)到國內(nèi)第一SuperCLUE-V多模態(tài)理解榜單(8月)位居國內(nèi)應(yīng)用能力應(yīng)用能力卓越領(lǐng)導(dǎo)者騰訊Hunyuan卓越領(lǐng)導(dǎo)者騰訊Hunyuan-vision競爭梯隊(duì)國內(nèi)大模型國外大模型技術(shù)探索者潛力探索者技術(shù)探索者[1]Gartner報(bào)告預(yù)測(cè),到2030年,合成數(shù)據(jù)在AI模型中的使用將完全超過真實(shí)數(shù)據(jù)[2]除此之外,Epoch指出,自然數(shù)據(jù)在2026-2030不能滿足LLM訓(xùn)練需求?指令數(shù)據(jù)合成與進(jìn)化n基于MoE架構(gòu)的多模態(tài)大模型技術(shù)路線?性能更優(yōu):相同訓(xùn)練成本,MoE性能優(yōu)于稠?MoEScalingLaw業(yè)界公開可參考探索少?訓(xùn)練穩(wěn)定性差,專家定義、負(fù)載不均衡或?qū)<冶碚髭呁?ScalingLaw:探索數(shù)據(jù)、參數(shù)、學(xué)習(xí)率(LR)、批量大小(BS)、Expert數(shù)量等縮放特性?路由機(jī)制:探索DomainRouting、共享專家Top-K路由、補(bǔ)償策略等?效率優(yōu)化:專家異構(gòu)、層級(jí)異構(gòu)、線性Attention、混合低精度等?“準(zhǔn)確、及時(shí)、精細(xì)”的獎(jiǎng)勵(lì)反饋是驅(qū)動(dòng)大模型能力提?精細(xì):過程式獎(jiǎng)勵(lì)模型(PRM)帶來更大效果提升?關(guān)注用戶體驗(yàn),避免“高分低能”?Benchmark評(píng)測(cè)存在Bias,與真實(shí)用戶場(chǎng)景不同?評(píng)價(jià)標(biāo)準(zhǔn)覆蓋模型能力評(píng)測(cè),與用戶體驗(yàn)評(píng)測(cè)構(gòu)建短視頻多模態(tài)理解框架,理解并提取用戶潛在商業(yè)需求與廣告營銷表達(dá)核心洞察提取多模態(tài)素材提取和理解核心洞察提取多模態(tài)素材提取和理解分享XX煙酰胺搓泥寶膏去角質(zhì)效果商業(yè)價(jià)值:強(qiáng)混元多模態(tài)理解熱死了熱死了,我剛出去一會(huì)兒胳膊就曬成構(gòu)建直播帶貨實(shí)時(shí)理解流程,識(shí)別不同時(shí)刻在播商品,及時(shí)捕獲用戶商業(yè)需求與廣告營銷表達(dá)直播間多模態(tài)內(nèi)容提取和理解直播間多模態(tài)內(nèi)容提取和理解商品1商品1:自行車商品2:滑行墊商品2:滑行墊商品3:羽毛球訓(xùn)練器商品3:羽毛球訓(xùn)練器騰訊視頻微信搜一搜騰訊視頻?需求:?需求:用大模型來提升復(fù)雜問題、代碼、數(shù)學(xué)、創(chuàng)作等生成類query的AI元寶AI搜索調(diào)用量?需求:解決模糊的、口語化、場(chǎng)景化的用戶找片搜索結(jié)果合格視頻源文件視頻幀圖基于混元內(nèi)容審核大模型,信安人工審核提效22%,AMS廣告內(nèi)容審核漏放率降低20%視頻源文件視頻幀圖審核1S(完整視頻20+min容易漏過騰訊文檔:思維圖表ToB:多模態(tài)小程序代碼生成,AI教育小助手?小程序編程場(chǎng)景:小程序教育版AI助手小程序教育版上線AI編程助手,面向師生推廣小程序開發(fā)教育,累計(jì)650+所試用學(xué)校,~200所已認(rèn)證學(xué)校產(chǎn)品創(chuàng)新:支持專業(yè)復(fù)雜分析的個(gè)人助手ChatGPT技術(shù)演進(jìn)展示了大模型在橫向多模態(tài)和縱向深度思考兩個(gè)維度上的持續(xù)創(chuàng)新2023.32024.9橫向:多模態(tài)2024.52024.2縱向:深度思考2022.112023.92023.32024.9橫向:多模態(tài)2024.52024.2縱向:深度思考2022.112023.9未來探索:往更深刻和更廣度的智能前進(jìn)廣度理解認(rèn)知空間全模態(tài)大模型拓寬與物理世界交互方式廣度理解認(rèn)知空間全模態(tài)大模型拓寬與物理世界交互方式理解物理世界深度在環(huán)境中行動(dòng)的能力在環(huán)境中行動(dòng)的能力解決奧賽學(xué)科難題探索知識(shí)邊界29/67未來研究方向:探索智能的廣度各模態(tài)神經(jīng)網(wǎng)絡(luò)趨向統(tǒng)一文語言模型隱馬爾科夫模型HMM統(tǒng)計(jì)特征神經(jīng)網(wǎng)絡(luò)模型卷積神經(jīng)網(wǎng)絡(luò)CNN統(tǒng)一的神經(jīng)網(wǎng)Transformers大語言模型未來:未來:全模態(tài)過去:單模態(tài)?…現(xiàn)在:雙模態(tài)現(xiàn)在:雙模態(tài)?…定理證明系統(tǒng)AlphaProof生成證明代碼并與證明環(huán)境交互幾何求解系統(tǒng)AlphaGeometry2構(gòu)造輔助條件使用幾何求解器2024.7:谷歌DeepMind2024.7:谷歌DeepMind發(fā)布數(shù)學(xué)大模型,今年IMO競賽中達(dá)到人類選手的銀牌水平2024.9:OpenAI發(fā)布GPT-o1模型開啟推理算力新ScalingLawAIME數(shù)學(xué)競賽:從GPT-4oAIME數(shù)學(xué)競賽:從GPT-4o的13%準(zhǔn)確率提升至83%選手水平(金牌門檻359.71)混元進(jìn)展:?使用自動(dòng)化定理證明工具,利用自推理和規(guī)則合成方式構(gòu)造高質(zhì)量數(shù)理證明思維鏈數(shù)據(jù)?混元定理證明器在MiniF2F評(píng)測(cè)集取得業(yè)內(nèi)領(lǐng)先的準(zhǔn)確率?7B小模型也可解決部分學(xué)科競賽類問題Atari(2013)?2024.5月開源混元DIT:業(yè)界

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論