




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1浙江大學(xué)DS系列專題DeepSeek技術(shù)溯源及前沿探索主講人:朱強(qiáng)浙江大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院人工智能省部共建協(xié)同創(chuàng)新中心(浙江大學(xué))/zhuq一、語言模型二、Transformer三、ChatGPT四、DeepSeek五、新一代智能體語言模型:終極目標(biāo)對于任意的詞序列,計算出這個序列是一句話的概率IsawacatonthechairIsawacatrunningafteradogcar語言模型:基本任務(wù)只有一個1,其余均為0只有一個1,其余均為0編碼:讓計算機(jī)理解人類語言10000100 mom mom0001編碼:讓計算機(jī)理解人類語言用一個低維的詞向量表示一個詞能使距離相近的向量對應(yīng)的物體有相近的含義游泳飛翔鯨魚0.990.990.050.1…海豚0.990.050.930.09…鸚鵡0.020.010.990.98…企鵝0.980.020.940.3…20維的向量用one-hot和wordembedding的方法分別可以表示多少單詞?編碼:讓計算機(jī)理解人類語言Everyonelikestezgüino.Tezgüinomakesyoudrunk.Wemaketezgüinooutofcorn.(2)Everyonelikes_______.(4)Wemake_______outofcorn.結(jié)合句子語境我們可以猜測:tezgüino是一種由玉米制作的酒精類飲料wine(1)(2)(3)(4)1111100001011110兩行內(nèi)容十分相近兩個單詞含義相近語言模型:技術(shù)演化Before:P(小)·P(貓|小)·P(抓|小貓)·P(老|小貓抓)·P(鼠|小貓抓老)2-gram:P(小)·P(貓|小)·P(抓|貓)·P(老|抓)·P(鼠|老)3-gram:P(小)·P(貓|小)·P(抓|小貓)·P(老|貓抓)·P(鼠|抓老)Encoder-Decoder常見的深度學(xué)習(xí)模型框架,可用于解決Seq2Seq問題隱EncoderEncoder 空間DecoderDecoder我我很聰明!可以根據(jù)任務(wù)選擇不同的編碼器和解碼器(LSTM/GRU/Transfor一、語言模型三、ChatGPT四、DeepSeek五、新一代智能體大型語言模型簡史JUNJUNFEBSEPFEBDECJANOT5LLaMA-3.1?自注意力機(jī)制:支持并行計算/全局上下文的理解能力?多頭注意力:從多個角度捕捉復(fù)雜的語義關(guān)系?前饋網(wǎng)絡(luò)/位置編碼/層歸一化:解決了傳統(tǒng)模型的諸多局限性/cf2SudS8x8F0v/article/details/145695146Transformer:大模型的技術(shù)基座AttentionIsAllYouNeedNIPS2017,引用量15萬+引入全新注意力機(jī)制,改變了深度學(xué)習(xí)模型的處理方式11中國南北飲食文化存在差異,豆花有南甜北咸之分。南方人一般喜歡吃甜豆花22Sheiseatingagreenapple.3Theanimaldidn'tcrossthestreetbecauseitwastootired/wide3ImageSketchGradient13Transformer:訓(xùn)練機(jī)制場景:你在圖書館想找一本關(guān)于“機(jī)器學(xué)習(xí)基礎(chǔ)”的書Query:Query:描述要找的書(精準(zhǔn)的需求描述)KeyKey:書的索引編號(高效的書籍定位)Value:內(nèi)容的抽?。ㄓ赡繕?biāo)任務(wù)驅(qū)動)the-multi-head-attention-mechanismhttps://newsletter.theaiedge.io/p/the-multi-head-attention-mechanism大型語言模型簡史JUNJUNFEBSEPFEBDECJANOT5LLaMA-3.1預(yù)訓(xùn)練時代:大力出奇跡(“暴力美學(xué)”)?BERT:BidirectionalEncoderRepresentationsTransformers?GPT:GenerativePertainedTransformer?自監(jiān)督算法:MLM/NTP/MAE解決海量數(shù)據(jù)標(biāo)注問題JunJunGenerationRepresentatioGenerationRepresentatioDistilBERT–DistilBERT–RoBERTa–ELECTRA–GPT-3–2020GPT-3.5(ChatGPT)–GPT-4–2023…RepresentatioGenerationRepresentatioGeneration…自監(jiān)督學(xué)習(xí)(語言)據(jù)剩下單詞的上下文來填空,即預(yù)測最合適的‘填空詞’出現(xiàn)的概率,這一過程為‘自監(jiān)督學(xué)習(xí)’原話:原話:一輛列車緩慢行駛在崎嶇的山路上移除單詞:一輛列車行駛在崎嶇的山路上預(yù)測填空:一輛列車緩慢行駛在崎嶇的山路上自監(jiān)督學(xué)習(xí)(圖像)缺失內(nèi)容,讓模型從上下文中學(xué)到圖像的深層特征,常用于計算機(jī)視覺任務(wù)。重建圖像遮蓋圖像重建圖像遮蓋圖像/pdf/2111.06377訓(xùn)練transformer的通用之力數(shù)據(jù)是燃料、模型是引擎、算力是加速器Self-supervised引入Self-supervised引入人類反饋120億參數(shù))語言大模型LLMLSTM語言大模型LLMLSTM單詞之間關(guān)聯(lián)關(guān)系seq2單詞之間關(guān)聯(lián)關(guān)系seq2seq序列學(xué)習(xí)循環(huán)神經(jīng)網(wǎng)絡(luò)前向神經(jīng)網(wǎng)絡(luò)nn數(shù)據(jù):訓(xùn)練中使用了45TB數(shù)據(jù)、近1萬億個單詞(約1351萬本牛津詞典所包含單詞數(shù)量)以及數(shù)十億行源代碼。n模型:包含了1750億參數(shù),將這些參數(shù)全部打印在A4紙張上,一張一張疊加后,疊加高度將超過上海中心大廈632米高度。n算力:ChatGPT的訓(xùn)練門檻是1萬張英偉達(dá)V100芯片、約10億人民幣。n大數(shù)據(jù)、大模型、大算力下以“共生則關(guān)聯(lián)”原則實(shí)現(xiàn)了統(tǒng)計關(guān)聯(lián)關(guān)系的挖掘。大模型脈絡(luò)大模型科學(xué)計算模型BERT系列GPTGPT-4oGPT系列3.5/4SAMAlpha系列PanguLMGPT-o1/o3DALLEGPT-o1/o3DALLE·3inChatGPTSora圍棋氣象大模型魔獸爭霸藥物分子預(yù)測蛋白質(zhì)預(yù)測機(jī)理技術(shù)產(chǎn)品21群雄(中美)爭霸ModelswithsomeInsightsontheirCapabilitiesandLimitations OpenAI最新15頁報告:DeepSeek縮小中美AI差距閉源vs開源國際企業(yè)微軟閉源開源亞馬遜閉源投資Anthropic的Claude3.5系列閉源谷歌Gemini系列閉源Gemma系列開源Llama3系列開源閉源開源中國企業(yè)阿里通義千問2.5系列基礎(chǔ)模型、行業(yè)模型開源Qwen0.5b-110b系列開源模型開源華為盤古系列閉源騰訊混元基礎(chǔ)模型、行業(yè)模型閉源混元開源模型開源百度文心一言4.0模型閉源 GP-2(201S)GPT-2做了以下改進(jìn):1.增加到48層,使用GP-2(201S)GPT-2做了以下改進(jìn):1.增加到48層,使用2.將層歸一化移動到每個子塊的輸入,并在最終的自注意塊后增加一層歸一化;3.修改初始化的殘差層權(quán)重,縮放為原來的1/N,其中,N是殘差層的數(shù)量;4.特征向量維數(shù)從768擴(kuò)展到1600,詞表擴(kuò)大到50257。12層,每層12個注意頭ChatGPT基于GPT-3.5:1.ChatGPT使用來自人類反饋的強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練;2.通過近端策略優(yōu)化算法進(jìn)行微調(diào),為信任域策GPGP-32020)GPT-3做了以下優(yōu)化:1.增加到96層,每層有96個注意頭;2.單詞嵌入大小從1600增加到12888;3.上下文窗口大小從GPT-2的1024增加到2048,并采用交替密度模型模型發(fā)布時間參數(shù)量預(yù)訓(xùn)練數(shù)據(jù)量2018年6月1.17億2019年2月15億2020年5月1750億2022年11月千億級?百T級? DeepSee、,k通過大幅提升模型訓(xùn)練推理效率緩解(???)了算力需求?24一、語言模型二、Transformer三、ChatGPT四、DeepSeek五、新一代智能體大型語言模型簡史JUNJUNFEBSEPFEBDECJANOT5LLaMA-3.1GPT-3:語言模型的轉(zhuǎn)折點(diǎn)?大語言模型:1750億參數(shù)?涌現(xiàn)能力:隨著模型規(guī)模增大而出現(xiàn)的新能力?生成/創(chuàng)造:ArtificialIntelligence(人工=>藝術(shù))大型語言模型簡史JUNJUNFEBSEPFEBDECJANOT5LLaMA-3.1ChatGPT:人工智能的IPHONE時刻OpenAI技術(shù)白皮書Large-scalelanguagemodelpretrainingTrainingoncode GPT-3Large-scalelanguagemodelpretrainingTrainingoncode GPT-3InitialInstructiontuningDavinciCode-davinci-001Code-cushman-001Instruct-davinci-betaText-davinci-001GPT-3SeriesGPT-3.5SeriesCode-davinci-002RLHFText-davinci-002RLHFText-davinci-003ChatGPTTrainingoncodeLarge-scalelanguagemodelpretrainingTrainingoncodeInstructiontuningInstructiontuning初代GPT-3展示了三個重要能力(來自于大規(guī)模的預(yù)訓(xùn)練)初代GPT-3展示了三個重要能力(來自于大規(guī)模的預(yù)訓(xùn)練)l語言生成:來自語言建模的訓(xùn)練目標(biāo)(說人話)l世界知識:來自3000億單詞的訓(xùn)練語料庫(百曉生)l上下文學(xué)習(xí):上下文學(xué)習(xí)可以泛化,仍然難以溯源(觸類旁通)初代GPT-3表面看起來很弱,但有非常強(qiáng)的潛力,展示出極為強(qiáng)大的“涌現(xiàn)”能力GPT-3.5SeriesRLHFText-davinci-002Text-davinci-003ChatGPTCodex+InstructmodelpretrainingInstructiontuningTrainingoncodeDavinciLarge-scalelanguagemodelpretrainingInstructiontuningTrainingoncodeDavinciGPT-3GPT-3SeriesCode-davinci-001Instruct-davinci-beta2020-2020-2021年,OpenAI投入了大量的精力通過代碼訓(xùn)練和指令微調(diào)來增強(qiáng)GPT-3。使用思維鏈進(jìn)行復(fù)雜推理的能力很可能是代碼訓(xùn)練的一個神奇副產(chǎn)物使用指令微調(diào)將GPT-3.5的分化到不同的技能樹(數(shù)學(xué)家/程序員/…)GPT-3.5SeriesRLHFText-davinci-002Text-davinci-003ChatGPTGPT-3SeriesGPT-3.5SeriesGPT-3SeriesGPT-3.5SeriesTrainingoncode GPT-3InitialInstructiontuningDavinciCode-davinci-001Instruct-davinci-beta1)指令微調(diào)不會為模型注入新的能力(解鎖能力)2)指令微調(diào)1)指令微調(diào)不會為模型注入新的能力(解鎖能力)2)指令微調(diào)犧牲性能換取與人類對齊(“對齊稅”)RLHFText-davinci-002Text-davinci-003ChatGPTChatGPT(技術(shù)到產(chǎn)品)GPT-3SeriesGPT-3.5SeriesGPT-3SeriesGPT-3.5SeriesTrainingoncode2022.11 GPT-3InitialInstructiontuning2022.11DavinciRLHF(基于人類反饋的強(qiáng)化學(xué)習(xí)的指令微調(diào))觸發(fā)的能力:RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí)的指令微調(diào))觸發(fā)的能力:l翔實(shí)的回應(yīng)l公正的回應(yīng)l拒絕不當(dāng)問題l拒絕其知識范圍之外的問題FText-davinci-002Text-davinci-003ChatGPT大型語言模型簡史JUNJUNFEBSEPFEBDECJANOT5LLaMA-3.1多模態(tài)模型:連接文本、圖像及其他?開源:Meta的LLaMA系列(普惠學(xué)術(shù)領(lǐng)域)?GPT-4v:視覺遇見語言(跨模態(tài))?GPT-4o:全模態(tài)前沿(交互能力)GPT-4v(聽、說看)2023.06GPT-4可提供多模態(tài)能力zero-shot及few-shot的能力GPT-4邏輯推理能力的飛躍GPT-4的安全性已經(jīng)大幅提升更強(qiáng)的專屬能力(如編程)處理其它語言的能力處理更長序列的能力GPT-4o(文科博士生)2024.06多模態(tài)輸入輸出(交互能力)響應(yīng)速度(接近人類響應(yīng))數(shù)學(xué)推理、編程等能力提升非英文文本性能大幅提升視覺和音頻理解能力成本優(yōu)勢GPT-o1(理科博士生)2024.09推理能力大幅提升:數(shù)學(xué)和編程能力爆表更像人類一樣思考:全新安全訓(xùn)練方法&更強(qiáng)的“越獄”抵抗力一、語言模型二、Transformer三、ChatGPT四、DeepSeek五、新一代智能體大型語言模型簡史JUNJUNFEBSEPFEBDECJANOT5LLaMA-3.1推理模型:從「生成」到「推理」的重心轉(zhuǎn)變?OpenAI-o1/o3:推理能力的一大飛躍?DeepSeek-V3/R1:專家模型、強(qiáng)化學(xué)習(xí),開源,效率DeepSeek階段1階段1:有監(jiān)督微調(diào)基礎(chǔ)生成模型推理模型初試基礎(chǔ)生成模型推理模型初試推理橫型大成R1蒸餾小模型少量推理數(shù)據(jù))基于規(guī)則獎勵的大規(guī)模強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)GRPO(規(guī)則獎勵)階段2:基于規(guī)則強(qiáng)化學(xué)習(xí)GRPO(規(guī)則獎勵)階段2:基于規(guī)則獎勵的強(qiáng)化學(xué)習(xí)+語言一致性獎勵(671B/37B激活)階段2的模型生成推理SFT階段2的模型生成推理SFT數(shù)據(jù)SFT數(shù)據(jù)Prompting推理數(shù)據(jù)非推理數(shù)據(jù)推理數(shù)據(jù)Qwen2.5-14BQwen2.5-32BDeepSeek模型并非是顛覆性基礎(chǔ)理論創(chuàng)新Qwen2.5-14BQwen2.5-32BLlama3.3-70B-(Transformer-based其對算法、模型和系統(tǒng)等進(jìn)數(shù)據(jù)合并階段4:全場景強(qiáng)化學(xué)習(xí)行的系統(tǒng)級協(xié)同工程創(chuàng)新數(shù)據(jù)合并階段4:全場景強(qiáng)化學(xué)習(xí)開辟了新的道路。DeepSeek-R1-DeepSeek-R1-模型蒸餾DeepSeek技術(shù)揭秘DeepSeek技術(shù)揭秘基礎(chǔ)生成模型推理模型初試推理橫型大成R1蒸餾小模型動態(tài)路由機(jī)制和專家共享機(jī)制DS-V3對標(biāo)DS-V3對標(biāo)GPT-4o(文科博士生n混合專家模型:V3基座模型總共有6710億參數(shù),但是每次存占用為其他模型的5%-13%。DeepSeek技術(shù)揭秘基礎(chǔ)生成模型推理模型初試推理橫型大成R1蒸餾小模型 通過標(biāo)注將知識顯示化人工標(biāo)注獎勵模型引入人類偏好數(shù)據(jù) 通過標(biāo)注將知識顯示化人工標(biāo)注獎勵模型引入人類偏好數(shù)據(jù)0或10或1獎勵規(guī)則將知識抽象為獎勵規(guī)則數(shù)據(jù)驅(qū)動+知識引導(dǎo)賦予DeepSeek-V3最基礎(chǔ)的推理能力:GRPO進(jìn)行強(qiáng)化學(xué)習(xí)來提升模型的推理性能: DeepSeek技術(shù)揭秘 基礎(chǔ)生成模型推理模型初試推理橫型大成R1蒸餾小模型n階段1:DeepSeek-R1-Zero生成少量推理數(shù)據(jù)+SFT=V3植入初步推理能力(冷啟動)提升推理能力(多輪迭代,獲取大量推理數(shù)據(jù))n階段3:迭代生成推理/非推理樣本微調(diào)=>增強(qiáng)全場景能力(671B/37B激活)冷啟動階段(DeepSeek-R1-Zero生冷啟動階段(DeepSeek-R1-Zero生成少量推理數(shù)據(jù))基于規(guī)則獎勵的大規(guī)模強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)GRPO(規(guī)則獎勵)+語言一致性獎勵強(qiáng)化學(xué)習(xí)GRPO(規(guī)則獎勵)+語言一致性獎勵Prompting階段2:模型生成推理階段2:模型生成推理SFT數(shù)據(jù)非推理數(shù)據(jù)非推理數(shù)據(jù)Qwen2.5-14BQwen2.5-32BLlama3.3-70B-InstructLlama3.3-70B-Instruct數(shù)據(jù)合并階段4:全場景強(qiáng)化學(xué)習(xí)DeepSeek-R1- DeepSeek技術(shù)揭秘 基礎(chǔ)生成模型推理模型初試推理橫型大成R1蒸餾小模型(3)大幅提升低參數(shù)量模型性能知識蒸餾:?老師教學(xué)生:“解題思路”,不僅給答案(硬標(biāo)簽還教“為什?模型瘦身:大幅壓縮參數(shù)(如671億→7億參數(shù)手機(jī)也能跑AIDeepSeek帶來的全棧影響教育客服服務(wù)醫(yī)療法律制造垂直應(yīng)用教育客服服務(wù)醫(yī)療法律制造大模型應(yīng)用層運(yùn)營工具OA類運(yùn)營工具OA類數(shù)據(jù)經(jīng)營分析通用類GPTAgent(基于Prompt的應(yīng)用,AutoGPT大模型應(yīng)用開發(fā)框架大模型精調(diào)訓(xùn)練數(shù)據(jù)管理與生成基礎(chǔ)架構(gòu)及訓(xùn)練數(shù)據(jù)管理與生成基礎(chǔ)模型應(yīng)用支持GPT4(公有云)GPT4(公有云)LLMA(開源)基礎(chǔ)模型層插件嵌入一、語言模型二、Transformer三、ChatGPT四、DeepSeek五、新一代智能體從LLM到Agent通用LLMChatGPT(2022)通用LLMChatGPT(2022)LLaMA(2023)Vicuna(2023)垂類LLMCodeLlama(2023)MathGLM(2023)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025河南鄭州市新密市國開投資集團(tuán)有限公司招聘管理人員和專業(yè)技術(shù)人員9人考前自測高頻考點(diǎn)模擬試題及答案詳解(奪冠)
- 2025年甘肅省慶陽市鎮(zhèn)原縣第二批城鎮(zhèn)公益性崗位83人考前自測高頻考點(diǎn)模擬試題附答案詳解(完整版)
- 2025年天津華北地質(zhì)勘查局所屬事業(yè)單位招聘高層次人才5人(第二批)考前自測高頻考點(diǎn)模擬試題及1套完整答案詳解
- 2025年安慶宿松縣二郎鎮(zhèn)選聘石咀村村級后備干部2人考前自測高頻考點(diǎn)模擬試題完整參考答案詳解
- 2025桂林銀行校園招聘模擬試卷及答案詳解(名師系列)
- 2025國網(wǎng)通信產(chǎn)業(yè)集團(tuán)有限公司第二批高校畢業(yè)生錄用人選的考前自測高頻考點(diǎn)模擬試題及完整答案詳解
- 2025年中國活性護(hù)膚成分行業(yè)市場分析及投資價值評估前景預(yù)測報告
- 2025年河北醫(yī)科大學(xué)第一醫(yī)院招聘醫(yī)療工作人員7名模擬試卷及完整答案詳解
- 2025江蘇鎮(zhèn)江丹陽市衛(wèi)生健康委員會所屬丹陽市人民醫(yī)院招聘工作人員22人考前自測高頻考點(diǎn)模擬試題及1套完整答案詳解
- 2025內(nèi)蒙古金土華維可控農(nóng)業(yè)科技有限公司招聘9名工作人員模擬試卷及答案詳解(易錯題)
- (2025)社區(qū)網(wǎng)格員筆試考試題庫及答案
- 簡約風(fēng)共青團(tuán)團(tuán)支書競選自我介紹
- 心理學(xué)研究方法(第2版)課件 王軼楠 第4-7章 完成研究過程-走上國際學(xué)術(shù)舞臺
- 統(tǒng)編版語文五年級上冊 第6單元 教學(xué)設(shè)計
- 降鉻劑使用管理制度
- 索道技術(shù)發(fā)展趨勢-深度研究
- 第三單元 植物的生活單元練習(xí)-2024-2025學(xué)年人教版生物七年級下冊
- 湖北省十堰市2024-2025學(xué)年高二上學(xué)期1月期末調(diào)研考試物理試題(含答案)
- 社會工作行政(第三版)課件全套 時立榮 第1-11章 社會服務(wù)機(jī)構(gòu)- 社會工作行政的挑戰(zhàn)、變革與數(shù)字化發(fā)展
- 慢性糜爛性胃炎護(hù)理
- 公共體育民族操舞知到智慧樹章節(jié)測試課后答案2024年秋廣西科技大學(xué)
評論
0/150
提交評論