




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
?DeepSeek是什么??DeepSeekR1的三大特點(diǎn)?
使用DeepSeek的五種方式對(duì)比DeepSeek是什么?
o
DeepSeek
是什么?
o?Deep
Seek
是
幻
方
量
化
于
2
0
2
3
年
創(chuàng)
立
的
大
模
型
子
公
司,
創(chuàng)
始
人
為
梁
文
鋒?2
0
2
4
年
1
月5日,
其
發(fā)
布
第
一
個(gè)
同
名
A
I
大
模
型Deep
Seek
LL
M?2
0
2
5
年
1
月2
0日,
Deep
See
kR
1
正
式
發(fā)
布,
為
對(duì)
標(biāo)Open
AI
o
1
正
式
版
的
高
性
能
推
理
模
型
;R
1
上
線
后
火
速
出
圈,
其
應(yīng)
用
創(chuàng)
造
了
全
球
APP
歷
史
上
增
長(zhǎng)
最
快
的
記
錄圖片來源:
DeepSeek官網(wǎng)
圖片來源:
AI產(chǎn)品榜
。
DeepSeek
R1的三大特點(diǎn)
。開源低成本高性能R1開源
,
并公開訓(xùn)練技術(shù)
,允許開發(fā)者
訪問和學(xué)習(xí)R1開發(fā)成本僅為OpenAIo1的2%左右推理表現(xiàn)媲美OpenAIo1正式版圖注:
DeepSeek與OpenAI各版本的準(zhǔn)確率對(duì)比
(圖片來源:
DeepSeek官網(wǎng))https://chat.deepseek.com/https://chat.deepseek.com/https://deepseekapi.io/可借助Ollama、
vLLM和MNN等工具硅基流動(dòng)、
騰訊云、
阿里云等普通用戶作為生產(chǎn)力工具及技術(shù)嘗鮮開發(fā)者、
企業(yè)用戶保障訪問穩(wěn)定性和可擴(kuò)展性 。使用DeepSeek的五種方式對(duì)比。官網(wǎng)APP云平臺(tái)本地部署API?R1的基座模型——V3?R1的三種變體?R1訓(xùn)練的技術(shù)路徑?R1的核心技術(shù)解析?R1的關(guān)鍵技術(shù)貢獻(xiàn)DeepSeek
R1核心
技術(shù)揭秘?
V3是去年12月發(fā)布的自研MoE模型?
參數(shù)與GPT-4大致在同一數(shù)量級(jí):
V3有671B
參數(shù)
,每個(gè)Token的計(jì)算激活約37B?
在14.8Ttoken上進(jìn)行了預(yù)訓(xùn)練?V3:對(duì)標(biāo)GPT-4o
,通過指令微調(diào)和偏好微調(diào)
提升性能?R1:
專注于推理能力R1在DeepSeekV3基礎(chǔ)上進(jìn)行了開發(fā)V3模型的特征 o
R1的基座模型
:
V3
o圖注:
DeepSeekV3與發(fā)布時(shí)其他主流大模型的準(zhǔn)確率對(duì)比
(圖片來源:
DeepSeek官網(wǎng))DeepSeek-R1-DistillDeepSeekV3R1-ZeroR1
o
R1的三種變體
。直接強(qiáng)化學(xué)習(xí)訓(xùn)練多階段漸進(jìn)訓(xùn)練模型蒸餾基座模型變體
1變體2變體3原圖作者:
Sebastian
Raschka o
R1訓(xùn)練的技術(shù)路徑
。
oR1的核心技術(shù)解析:
強(qiáng)化學(xué)習(xí)
。R1采用了多種獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)
,相當(dāng)于模型的
“綜合評(píng)分系統(tǒng)”
,模型在完成任務(wù)時(shí)根據(jù)多個(gè)標(biāo)準(zhǔn)獲圖片來源:
《基于場(chǎng)景動(dòng)力學(xué)和強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛邊緣測(cè)試場(chǎng)景生成方法》得不同的獎(jiǎng)勵(lì)信號(hào)。
oR1的核心技術(shù)解析:冷啟動(dòng)數(shù)據(jù)
。R1策略性地將少量高質(zhì)量數(shù)據(jù)作為冷啟動(dòng)。
這相當(dāng)于訓(xùn)練開始前的
“入門教程”
,
幫助模型更快地學(xué)
會(huì)如何進(jìn)行清晰、
有邏輯的推理。R1的冷啟動(dòng)數(shù)據(jù)R1-Zero生成的長(zhǎng)思維鏈
(CoT)數(shù)據(jù)挑選示例-------------------->
oR1的核心技術(shù)解析:
監(jiān)督微調(diào)
。R1訓(xùn)練包括兩個(gè)監(jiān)督微調(diào)(SFT)階段。
模型通過學(xué)習(xí)標(biāo)注數(shù)據(jù)來調(diào)整模型
,
以在特定任務(wù)上表現(xiàn)得
更精準(zhǔn)。圖片來源:《PORT:PreferenceOptimizationonReasoningTraces》 o
R1的核心技術(shù)解析:
蒸餾
。R1-Distill采用蒸餾技術(shù)。
大模型
(老師)
把自己的知識(shí)和推理能力教給小模型
(學(xué)生)
,通過高質(zhì)
量的數(shù)據(jù)和訓(xùn)練方法
,
讓小模型學(xué)會(huì)大模型的推理技巧。圖片來源:
https://devopedia.org/knowledge-distillation關(guān)鍵貢獻(xiàn)1:
“純RL”技術(shù)路線的可行性首個(gè)公開研究
,驗(yàn)證了LLMs的推理能力可以僅通過強(qiáng)化學(xué)習(xí)激勵(lì)
,
而無需監(jiān)督微調(diào)。圖注:
隨著RL訓(xùn)練逐步推進(jìn)
,
R1-Zero的性能穩(wěn)定且持續(xù)提升
(圖片來源:
DeepSeek官方論文)
。
關(guān)鍵貢獻(xiàn)2
:
R1的
“啊哈時(shí)刻”。DeepSeek
R1在推理時(shí)使用諸如
“
啊哈時(shí)刻”
的高度擬人化語言
,在解題找到突破口時(shí)產(chǎn)生了頓悟
,被視
為走向AGI的重要一步。圖注:
在處理復(fù)雜的數(shù)學(xué)問題時(shí)
,模型突然停下來說
“等等、
等等、
這是個(gè)值得標(biāo)記的啊哈時(shí)刻”
(圖片來源:
DeepSeek官方論文)圖注:
DeepSeek
R1的推理過程
。關(guān)鍵貢獻(xiàn)3:蒸餾小模型超越OpenAIo1-mini
。蒸餾小模型的高性能
,
證明了該策略的經(jīng)濟(jì)和有效
,但想要突破當(dāng)前智能的邊界
,
或仍需要更大規(guī)模的
基礎(chǔ)模型與強(qiáng)化學(xué)習(xí)。圖注:
通過DeepSeek-R1的輸出
,蒸餾了6個(gè)小模型開源給社區(qū)
(圖片來源:
DeepSeek官方論文)?R1與OpenAIo1的三大區(qū)別?R1的四大進(jìn)化方向?附錄:
DeepSeek產(chǎn)品家族全梳理DeepSeek技術(shù)貢獻(xiàn)
及未來進(jìn)化架構(gòu)不同訓(xùn)練方式不同生態(tài)不同R1:
開源
,免費(fèi)使用R1:
證明可以僅通過強(qiáng)化學(xué)習(xí)激勵(lì)
,
無需監(jiān)督微調(diào)R1:基于已有模型DeepSeekV3o1:
閉源
,ChatGPTPlus會(huì)員才
可訪問o1及o1minio1:監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)結(jié)合o1:不同于GPT-4o的新模型
。
DeepSeekR1與OpenAIo1的三大區(qū)別。從軟件工程數(shù)據(jù)、
強(qiáng)化學(xué)習(xí)的異步評(píng)估入手
,縮短評(píng)估時(shí)長(zhǎng)
,保障強(qiáng)
化學(xué)習(xí)過程的效率
。
R1的四大進(jìn)化方向
。R1在一些復(fù)雜任務(wù)上的表現(xiàn)不如V3,未來可以通過長(zhǎng)鏈推理來提升優(yōu)化R1處理中英文以外語言的能力,避免現(xiàn)在的語言混合問題R1對(duì)提示很敏感
,少量示例提示會(huì)降低性能語言混合軟件工程任務(wù)通用能力提示工程附:DeepSeek產(chǎn)品家族全梳理
圖表來源:
國海證券圖注:
51CTO企業(yè)學(xué)堂推出的企業(yè)DeepSeek體系化學(xué)習(xí)方案更多DeepSeek及AI學(xué)習(xí)資源51CTO官網(wǎng)AI.x專區(qū)
,獲取DeepSeek及AI最新資訊、
實(shí)戰(zhàn)文章、實(shí)用資源及AI
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 南京工業(yè)大學(xué)復(fù)合材料原理特種陶瓷纖維第周講課文檔
- 2025年安徽省滁州市筆試輔警協(xié)警預(yù)測(cè)試題(含答案)
- 培訓(xùn)課件模板下載
- 光伏器件及其應(yīng)用課件
- 新解讀《GB-T 31275-2020照明設(shè)備對(duì)人體電磁輻射的評(píng)價(jià)》
- 2026屆遼寧省撫順中學(xué)化學(xué)高一第一學(xué)期期中復(fù)習(xí)檢測(cè)試題含解析
- 云南師大附中2026屆化學(xué)高二上期末統(tǒng)考模擬試題含答案
- 貴州省安順市平壩區(qū)集圣中學(xué)2026屆化學(xué)高三第一學(xué)期期末統(tǒng)考模擬試題含解析
- 培訓(xùn)課件大綱制作
- 2026屆黑龍江省湯原高中高一化學(xué)第一學(xué)期期中質(zhì)量跟蹤監(jiān)視模擬試題含解析
- 箱式變電站技術(shù)規(guī)范書
- 輸變電工程施工質(zhì)量驗(yàn)收統(tǒng)一表式附件1:線路工程填寫示例
- 自帶食物免責(zé)協(xié)議書
- 電力系統(tǒng)經(jīng)濟(jì)學(xué)原理(第2版) 課件 第1-3章 引言、經(jīng)濟(jì)學(xué)基本概念、電力市場(chǎng)
- 2024年湖南省長(zhǎng)沙市麓山國際實(shí)驗(yàn)學(xué)校八年級(jí)數(shù)學(xué)第二學(xué)期期末質(zhì)量檢測(cè)試題含解析
- 派出所民警心理健康輔導(dǎo)
- 醫(yī)院人才獵頭服務(wù)方案
- 產(chǎn)后貧血培訓(xùn)演示課件
- 地質(zhì)鉆施工方案
- 福建省永春一中、培元、季延、石光中學(xué)四校2024屆化學(xué)高二第一學(xué)期期中綜合測(cè)試模擬試題含解析
- 旅游服務(wù)與管理 實(shí)訓(xùn)指導(dǎo)書
評(píng)論
0/150
提交評(píng)論