




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
?DeepSeek是什么??DeepSeekR1的三大特點(diǎn)?
使用DeepSeek的五種方式對(duì)比DeepSeek是什么?
o
DeepSeek
是什么?
o?Deep
Seek
是
幻
方
量
化
于
2
0
2
3
年
創(chuàng)
立
的
大
模
型
子
公
司,
創(chuàng)
始
人
為
梁
文
鋒?2
0
2
4
年
1
月5日,
其
發(fā)
布
第
一
個(gè)
同
名
A
I
大
模
型Deep
Seek
LL
M?2
0
2
5
年
1
月2
0日,
Deep
See
kR
1
正
式
發(fā)
布,
為
對(duì)
標(biāo)Open
AI
o
1
正
式
版
的
高
性
能
推
理
模
型
;R
1
上
線
后
火
速
出
圈,
其
應(yīng)
用
創(chuàng)
造
了
全
球
APP
歷
史
上
增
長(zhǎng)
最
快
的
記
錄圖片來(lái)源:
DeepSeek官網(wǎng)
圖片來(lái)源:
AI產(chǎn)品榜
。
DeepSeek
R1的三大特點(diǎn)
。開(kāi)源低成本高性能R1開(kāi)源
,
并公開(kāi)訓(xùn)練技術(shù)
,允許開(kāi)發(fā)者
訪問(wèn)和學(xué)習(xí)R1開(kāi)發(fā)成本僅為OpenAIo1的2%左右推理表現(xiàn)媲美OpenAIo1正式版圖注:
DeepSeek與OpenAI各版本的準(zhǔn)確率對(duì)比
(圖片來(lái)源:
DeepSeek官網(wǎng))https://chat.deepseek.com/https://chat.deepseek.com/https://deepseekapi.io/可借助Ollama、
vLLM和MNN等工具硅基流動(dòng)、
騰訊云、
阿里云等普通用戶作為生產(chǎn)力工具及技術(shù)嘗鮮開(kāi)發(fā)者、
企業(yè)用戶保障訪問(wèn)穩(wěn)定性和可擴(kuò)展性 。使用DeepSeek的五種方式對(duì)比。官網(wǎng)APP云平臺(tái)本地部署API?R1的基座模型——V3?R1的三種變體?R1訓(xùn)練的技術(shù)路徑?R1的核心技術(shù)解析?R1的關(guān)鍵技術(shù)貢獻(xiàn)DeepSeek
R1核心
技術(shù)揭秘?
V3是去年12月發(fā)布的自研MoE模型?
參數(shù)與GPT-4大致在同一數(shù)量級(jí):
V3有671B
參數(shù)
,每個(gè)Token的計(jì)算激活約37B?
在14.8Ttoken上進(jìn)行了預(yù)訓(xùn)練?V3:對(duì)標(biāo)GPT-4o
,通過(guò)指令微調(diào)和偏好微調(diào)
提升性能?R1:
專注于推理能力R1在DeepSeekV3基礎(chǔ)上進(jìn)行了開(kāi)發(fā)V3模型的特征 o
R1的基座模型
:
V3
o圖注:
DeepSeekV3與發(fā)布時(shí)其他主流大模型的準(zhǔn)確率對(duì)比
(圖片來(lái)源:
DeepSeek官網(wǎng))DeepSeek-R1-DistillDeepSeekV3R1-ZeroR1
o
R1的三種變體
。直接強(qiáng)化學(xué)習(xí)訓(xùn)練多階段漸進(jìn)訓(xùn)練模型蒸餾基座模型變體
1變體2變體3原圖作者:
Sebastian
Raschka o
R1訓(xùn)練的技術(shù)路徑
。
oR1的核心技術(shù)解析:
強(qiáng)化學(xué)習(xí)
。R1采用了多種獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)
,相當(dāng)于模型的
“綜合評(píng)分系統(tǒng)”
,模型在完成任務(wù)時(shí)根據(jù)多個(gè)標(biāo)準(zhǔn)獲圖片來(lái)源:
《基于場(chǎng)景動(dòng)力學(xué)和強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛邊緣測(cè)試場(chǎng)景生成方法》得不同的獎(jiǎng)勵(lì)信號(hào)。
oR1的核心技術(shù)解析:冷啟動(dòng)數(shù)據(jù)
。R1策略性地將少量高質(zhì)量數(shù)據(jù)作為冷啟動(dòng)。
這相當(dāng)于訓(xùn)練開(kāi)始前的
“入門教程”
,
幫助模型更快地學(xué)
會(huì)如何進(jìn)行清晰、
有邏輯的推理。R1的冷啟動(dòng)數(shù)據(jù)R1-Zero生成的長(zhǎng)思維鏈
(CoT)數(shù)據(jù)挑選示例-------------------->
oR1的核心技術(shù)解析:
監(jiān)督微調(diào)
。R1訓(xùn)練包括兩個(gè)監(jiān)督微調(diào)(SFT)階段。
模型通過(guò)學(xué)習(xí)標(biāo)注數(shù)據(jù)來(lái)調(diào)整模型
,
以在特定任務(wù)上表現(xiàn)得
更精準(zhǔn)。圖片來(lái)源:《PORT:PreferenceOptimizationonReasoningTraces》 o
R1的核心技術(shù)解析:
蒸餾
。R1-Distill采用蒸餾技術(shù)。
大模型
(老師)
把自己的知識(shí)和推理能力教給小模型
(學(xué)生)
,通過(guò)高質(zhì)
量的數(shù)據(jù)和訓(xùn)練方法
,
讓小模型學(xué)會(huì)大模型的推理技巧。圖片來(lái)源:
https://devopedia.org/knowledge-distillation關(guān)鍵貢獻(xiàn)1:
“純RL”技術(shù)路線的可行性首個(gè)公開(kāi)研究
,驗(yàn)證了LLMs的推理能力可以僅通過(guò)強(qiáng)化學(xué)習(xí)激勵(lì)
,
而無(wú)需監(jiān)督微調(diào)。圖注:
隨著RL訓(xùn)練逐步推進(jìn)
,
R1-Zero的性能穩(wěn)定且持續(xù)提升
(圖片來(lái)源:
DeepSeek官方論文)
。
關(guān)鍵貢獻(xiàn)2
:
R1的
“啊哈時(shí)刻”。DeepSeek
R1在推理時(shí)使用諸如
“
啊哈時(shí)刻”
的高度擬人化語(yǔ)言
,在解題找到突破口時(shí)產(chǎn)生了頓悟
,被視
為走向AGI的重要一步。圖注:
在處理復(fù)雜的數(shù)學(xué)問(wèn)題時(shí)
,模型突然停下來(lái)說(shuō)
“等等、
等等、
這是個(gè)值得標(biāo)記的啊哈時(shí)刻”
(圖片來(lái)源:
DeepSeek官方論文)圖注:
DeepSeek
R1的推理過(guò)程
。關(guān)鍵貢獻(xiàn)3:蒸餾小模型超越OpenAIo1-mini
。蒸餾小模型的高性能
,
證明了該策略的經(jīng)濟(jì)和有效
,但想要突破當(dāng)前智能的邊界
,
或仍需要更大規(guī)模的
基礎(chǔ)模型與強(qiáng)化學(xué)習(xí)。圖注:
通過(guò)DeepSeek-R1的輸出
,蒸餾了6個(gè)小模型開(kāi)源給社區(qū)
(圖片來(lái)源:
DeepSeek官方論文)?R1與OpenAIo1的三大區(qū)別?R1的四大進(jìn)化方向?附錄:
DeepSeek產(chǎn)品家族全梳理DeepSeek技術(shù)貢獻(xiàn)
及未來(lái)進(jìn)化架構(gòu)不同訓(xùn)練方式不同生態(tài)不同R1:
開(kāi)源
,免費(fèi)使用R1:
證明可以僅通過(guò)強(qiáng)化學(xué)習(xí)激勵(lì)
,
無(wú)需監(jiān)督微調(diào)R1:基于已有模型DeepSeekV3o1:
閉源
,ChatGPTPlus會(huì)員才
可訪問(wèn)o1及o1minio1:監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)結(jié)合o1:不同于GPT-4o的新模型
。
DeepSeekR1與OpenAIo1的三大區(qū)別。從軟件工程數(shù)據(jù)、
強(qiáng)化學(xué)習(xí)的異步評(píng)估入手
,縮短評(píng)估時(shí)長(zhǎng)
,保障強(qiáng)
化學(xué)習(xí)過(guò)程的效率
。
R1的四大進(jìn)化方向
。R1在一些復(fù)雜任務(wù)上的表現(xiàn)不如V3,未來(lái)可以通過(guò)長(zhǎng)鏈推理來(lái)提升優(yōu)化R1處理中英文以外語(yǔ)言的能力,避免現(xiàn)在的語(yǔ)言混合問(wèn)題R1對(duì)提示很敏感
,少量示例提示會(huì)降低性能語(yǔ)言混合軟件工程任務(wù)通用能力提示工程附:DeepSeek產(chǎn)品家族全梳理
圖表來(lái)源:
國(guó)海證券圖注:
51CTO企業(yè)學(xué)堂推出的企業(yè)DeepSeek體系化學(xué)習(xí)方案更多DeepSeek及AI學(xué)習(xí)資源51CTO官網(wǎng)AI.x專區(qū)
,獲取DeepSeek及AI最新資訊、
實(shí)戰(zhàn)文章、實(shí)用資源及AI
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 寧夏2025自考英語(yǔ)英美文學(xué)選讀易錯(cuò)題專練
- 河南2025自考智能視聽(tīng)工程英語(yǔ)二客觀題專練
- 云南2025自考社會(huì)工作心理衛(wèi)生與心理咨詢簡(jiǎn)答題專練
- 日常審美測(cè)試題及答案
- 內(nèi)膜囊腫與卵子質(zhì)量-洞察與解讀
- 市政管道工程設(shè)計(jì)與優(yōu)化方案
- 山東2025自考舞蹈治療團(tuán)體舞蹈治療案例題專練
- 湖南2025自考人工智能教育教育數(shù)據(jù)挖掘易錯(cuò)題專練
- 貴陽(yáng)生物會(huì)考真題及答案
- 甘肅2025自考人工智能教育學(xué)習(xí)分析與評(píng)價(jià)模擬題及答案
- 二年級(jí)趣味數(shù)學(xué)校本教材
- JJF新1422024電動(dòng)汽車充電檢測(cè)用程控電阻負(fù)載校準(zhǔn)規(guī)范
- 當(dāng)代主要疾病和預(yù)防課件2025-2026學(xué)年北師大版生物八年級(jí)上冊(cè)
- 車輛入股協(xié)議書(shū)范本合同
- 道路保潔安全培訓(xùn)課件
- 第12課+自覺(jué)抵制犯罪(課時(shí)2)【中職專用】中職思想政治《職業(yè)道德與法治》高效課堂(高教版2023·基礎(chǔ)模塊)
- 安全費(fèi)用提取、使用臺(tái)賬
- 《鐵路職業(yè)素質(zhì)》課件 4鐵路職業(yè)意識(shí)與心理
- 人教版數(shù)學(xué)六年級(jí)上冊(cè)第一單元測(cè)評(píng)卷(含圖片答案)
- 給排水設(shè)備監(jiān)控系統(tǒng)
- 高爾夫初級(jí)教練考試題庫(kù)
評(píng)論
0/150
提交評(píng)論