2025年deepseek全景解析-重塑全球AI生態(tài)的中國(guó)力量

上傳人：海*** IP屬地：江蘇上傳時(shí)間：2025-08-21 格式：PPTX 頁(yè)數(shù)：50 大?。?.53MB 積分：12 舉報(bào) 版權(quán)申訴

2025年deepseek全景解析-重塑全球AI生態(tài)的中國(guó)力量_第2頁(yè)

2025年deepseek全景解析-重塑全球AI生態(tài)的中國(guó)力量_第3頁(yè)

2025年deepseek全景解析-重塑全球AI生態(tài)的中國(guó)力量_第4頁(yè)

2025年deepseek全景解析-重塑全球AI生態(tài)的中國(guó)力量_第5頁(yè)

已閱讀5頁(yè)，還剩45頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2025IN

RYRESEARCHR

EP0RTDeepSeek

技術(shù)全景解析重塑全球Al生態(tài)的中國(guó)力量方案編制：

智研咨詢

：智研咨詢

精品行研報(bào)告·專項(xiàng)定制·月度專題·市場(chǎng)地位證明·專精特新申報(bào)·可研報(bào)告·

商業(yè)計(jì)劃書·產(chǎn)業(yè)規(guī)劃三INTELLIGENCE

RESEARCHGROUF01|DeepSeek

企業(yè)背景02

Deepseek模型家族03|Deepseek

技術(shù)創(chuàng)新04|Deepseek

商業(yè)模式05|

Deepseek應(yīng)用場(chǎng)景06

|Al

大模型市場(chǎng)現(xiàn)狀07|

Deepseek

對(duì)Al行業(yè)影響總結(jié)

：精品行研報(bào)告·專項(xiàng)定制·月度專題·市場(chǎng)地位證明·專精特新申報(bào)·可研報(bào)告·

商業(yè)計(jì)劃書

·產(chǎn)業(yè)規(guī)劃三CONTENT錄

目PART01DeepSeek

企業(yè)背景最全面的產(chǎn)業(yè)分析●可預(yù)見的行業(yè)趨勢(shì)智研咨詢

精品行研報(bào)告·專項(xiàng)定制·月度專題·市場(chǎng)地位證明·專精特新申報(bào)·可研報(bào)告·

商業(yè)計(jì)劃書·產(chǎn)業(yè)規(guī)劃三INTELLIGENCE

RESEARCHGROUF

：●1.1

DeepSeek

基本情況

deepseek

智研咨詢DeepSeek

背靠資金實(shí)力雄厚的幻方量化2025年1月，

DeepSeek

發(fā)布其最新開源模型DeepSeek

R1,再度引發(fā)全球人工智能領(lǐng)域關(guān)注。

DeepSeek,全稱杭州深度求索

人工智能基礎(chǔ)技術(shù)研究有限公司，成立于2023年7月17日，一家創(chuàng)新型科技公司，專注于開發(fā)先進(jìn)的大語(yǔ)言模型

(LLM)

和相關(guān)技術(shù)。DeepSeek背靠資金實(shí)力雄厚的幻方量化，

DeepSeek創(chuàng)始人為梁文鋒，梁文鋒同時(shí)也是幻方量化的創(chuàng)始人，幻方量化是

國(guó)內(nèi)頭部量化私募管理人，旗下有兩家百億量化私募，分別是2015年6月成立的浙江九章資產(chǎn)和2016年2月成立的寧波幻方量化。DeepSeek公司簡(jiǎn)介

DeepSeek

股權(quán)結(jié)構(gòu)杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司100%

0.1%寧波程采企業(yè)管理咨詢合伙企業(yè)(有限合伙)資料來源：愛企查寧波程恩企業(yè)管理咨詢合

伙企業(yè)(有限合伙)北京深度求索人工智能基礎(chǔ)技術(shù)研究有限公司DeepSeek

位

于浙江杭州市，

成立于2023年99%

1%梁文鋒回顧其發(fā)展歷史，2024年1月，發(fā)布第一版大模型——DeepSeek

LLM,這個(gè)版本使用傳統(tǒng)的Transformer

架構(gòu)，但在訓(xùn)練方面，

已經(jīng)明顯體現(xiàn)出DeepSeek

團(tuán)隊(duì)通過不斷優(yōu)化訓(xùn)練策略，達(dá)到節(jié)約成本，提高效率的思想，這點(diǎn)也在后續(xù)的模型迭代中被發(fā)揚(yáng)光

大。2024年5月，DeepSeekV2

發(fā)布，從這一代開始，DeepSeek模型開始使用混合專家

(MoE)

架構(gòu)，這是傳統(tǒng)Transformer

架構(gòu)的一種改進(jìn)和擴(kuò)展，該架構(gòu)使DeepSeek

模型能以更低的計(jì)算成本進(jìn)行更復(fù)雜的推理，極大提升了模型的性能。2024年12

月，DeepSeekV3上線并開源，

版本對(duì)MoE架構(gòu)進(jìn)行了進(jìn)一步優(yōu)化，在維持低訓(xùn)練成本的同時(shí)，穩(wěn)定性與多方面性能表現(xiàn)都

達(dá)到了與領(lǐng)先閉源模型相當(dāng)?shù)乃健?025年1月，DeepSeekR1正式發(fā)布，R1

模型的推理能力得到極大加強(qiáng)，與OpenA-o1模

型不相上下，且推理過程完全透明，因此在全球范圍備受關(guān)注。DeepSeek發(fā)展歷程

DeepSeek模型家族

deepseekDeepSeekR1DeepSeekV3DeepSeekCoderV2DeepSeekVLDeepSeekV2DeepSeekCoderDeepSeek

MathDeepSeek

LLM資料來源：智研咨詢整理

2023年7月

2024年5月2024年11月2025年1月2024年1月

2024年9月2024年12月DeepSeek成立宣布開源第二

代MoE

大模型

DeepSeekV2推理模型DeepSeekR1Lite預(yù)覽版正式上線正式發(fā)布DeepSeekR1

模型，并同步

開源模型權(quán)重發(fā)布第一版大模型——DeepSeek

LLM合并DeepSeek

CoderV2和

DeepSeekV2Chat

兩個(gè)模型，升級(jí)推出全新的DeepSeekV2.5

新模型宣布DeepSeekV3

首個(gè)版本上線并同

步開源模型權(quán)重DeepSeek

大模型不斷優(yōu)化迭代●1.2

DeepSeek

發(fā)展歷程

deepseek

智研咨詢PART

02Deepseek

模型家族最全面的產(chǎn)業(yè)分析●可預(yù)見的行業(yè)趨勢(shì)：精品行研報(bào)告·專項(xiàng)定制·月度專題·市場(chǎng)地位證明·專精特新申報(bào)·可研報(bào)告·

商業(yè)計(jì)劃書·產(chǎn)業(yè)規(guī)劃三智研咨詢INTELLIGENCE

RESEARCHGROUFDeepSeek-V2MixtralCommand

R+DBRXQwen1.532B

DeepSeek

67BGrok-

1Mixtral

8x7BLLaMA

270BCommandRLLaMA

38B○

LLaMA165BLLaMA234BMistral

LLaMA

Family---LLaMA

2Family---LLaMA3FamilyMixtral

FamilyLLaMA133B

Command

FamilyQwen1.5

FamilyLaMA

213B0

20406080100ActivatedParameters(Billions)TrainingCosts(KGPU

Hours/TTokens)DeepSeek

67BDeepSeek-V2

t050

100

150

200

250

300KVCacheforGeneration(KB/Token)Deepseek67Breducing

cache

by93.3%100

200

300

400MaximumGenerationThroughput(Tokens/Sec)DeepSeek

67B576%of

maximumthroughput10000

20000

3000040000

50000資料來源：

DeepSeek

智研咨詢整理

s%co5iningng4ravita從低成本的DeepSeekV2,

到超低價(jià)格的DeepSeekV3,再到引起世界廣泛關(guān)注的DeepSeekR1,DeepSeek

的成功主要依賴于DeepSeek

自身深厚的技術(shù)積累和持續(xù)的技術(shù)創(chuàng)新突破。DeepSeekV2采用的是MoE

架構(gòu)，全參數(shù)量為236B,激活參數(shù)量是21B。其采用了兩大創(chuàng)新技術(shù)：DeepSeekMoE

架構(gòu)和多頭潛

在注意力

(MLA),使得DeepSeek-V2的訓(xùn)練成本大為降低并且提升推理速度。MLA

通過將Key-Value緩存壓縮為潛在向量來提

高推理效率，從而提高吞吐量。DeepSeek

MoE架構(gòu)允許通過稀疏計(jì)算進(jìn)行有效的推理。相比DeepSeekLLM67B(Dense),DeepSeek-V2模型性能進(jìn)一步優(yōu)化V2的性能更強(qiáng)，同時(shí)節(jié)省了42.5%的訓(xùn)練成本，減少了93.3%的KV緩存，最大生成吞吐量提高到5.76倍。DeepSeek-V2性能DeepSeek8075706560552.1

-V2

deepseek智研咨詢Performance(MMLU)8x22B

LLaMAQwen1.572BDeepSeek模型DeepSeek-V20DeepSeek-V2●370B0wDeepSeek-V3DeepSeek-V2.5

Qwen2.5-72B-Inst

Llama-3.1-405B-Inst

GPT-4o-0513

Claude-3.5-Sonnet-102210090.28075.97

4.773.372.671.666.2

65.059.16051.651.149.949.0°42.041.34035.623.323.3

24.825323.

0.3

263382452016.7

16.09.30SWE-benchVerified(Resolved)●

DeepSeekV3遵循

DeepSeek-V2的設(shè)計(jì)，采用多頭潛在注意力(MLA)

和DeepSeekMoE

架構(gòu)?！癫捎昧藷o輔助損失的負(fù)載均衡策

略，最大限度地減少了由于鼓勵(lì)

負(fù)載平衡而引起的性能下降?！褚胍粋€(gè)多token預(yù)測(cè)

(MTP)

目

標(biāo)，證明它有利于模型的性能，

也可用于推理加速的推測(cè)解碼。DeepSeekV3

是一個(gè)強(qiáng)大的專家混合

(MoE)語(yǔ)言模型，具有671B

個(gè)總參數(shù)，激活參數(shù)量為37B。相較歷史模型，DeepSeek-

在推理速度上有了大幅提升。此外在目前大模型主流榜單中，DeepSeekV3在開源模型中位列榜首，與世界上最先進(jìn)的閉源

模型不分伯仲。DeepSeek-V3

模型性能大幅提升●

2.2DeepSeekV3模型

deepseek智

研

咨

詢資料來源：DeepSeek

智研咨詢整理

DeepSeek-v3性能GPQA-Diamond(Pass@1)Accuracy/Percentile(%)Codeforces(Percentile)AIME2024(Pass@1)MATH

500(EM)MMLU-Pro(EM)39.273.374.678.378.038.880.050.8●

2.2DeepSeekV3模型

deepseek

智研咨詢DeepSeek-V3模型訓(xùn)練成本大幅降低根據(jù)DeepSeek團(tuán)隊(duì)在論文中強(qiáng)調(diào)，通過優(yōu)化算法、框架和硬件的協(xié)同設(shè)計(jì)實(shí)現(xiàn)的。在預(yù)訓(xùn)練階段，每萬億個(gè)token上訓(xùn)練

DeepSeekV3只需要180KH800GPU小時(shí)，也就是說，在其擁有2048個(gè)H800GPU的集群上只需要3.7天。因此，公司的預(yù)訓(xùn)練

階段在不到兩個(gè)月的時(shí)間內(nèi)完成，花費(fèi)了2664KGPU小時(shí)。加上上下文長(zhǎng)度擴(kuò)展的119KGPU小時(shí)和后訓(xùn)練的5KGPU小時(shí)，

DeepSeekV3

完整訓(xùn)練僅花費(fèi)278.8萬GPU小時(shí)。假設(shè)H800GPU

的租賃價(jià)格為每小時(shí)2美元，則代表著其總訓(xùn)練成本僅為557

6萬美元。相比同等規(guī)模的模型(如GPT-4、GPT-40、

Llama3.1),訓(xùn)練成本大幅降低。但DeepSeek團(tuán)隊(duì)還特意強(qiáng)調(diào)，上述成本僅包括DeepSeekV3的官方訓(xùn)練，不包括與架構(gòu)、

算法或數(shù)據(jù)的先前研究和消融實(shí)驗(yàn)相關(guān)的成本。DeepSeekV3的訓(xùn)練成本(假設(shè)H800

的租賃價(jià)格為2美元/GPU小時(shí))訓(xùn)練成本預(yù)訓(xùn)練上下文擴(kuò)展后訓(xùn)練總計(jì)H800GPU小時(shí)(小時(shí))2664K119K5K2788K美元$5.328M$0.238M$0.01M$5.576MPTX

語(yǔ)言帶寬限制AllToALL通信內(nèi)核IB+NVLink低精度FP8i訓(xùn)練DualPipe無張量并行TPDeepSeek

MoE+MLA無需輔助損失的負(fù)載均衡多token預(yù)測(cè)

(MTP)模型訓(xùn)練方式Pre-Train模型結(jié)構(gòu)Architecture針對(duì)性GPU

優(yōu)化資料來源：DeepSeek、智研咨詢整理DeepSeek-V3

節(jié)省訓(xùn)練成本的方法DeepSeekV3

采用了一種無需輔助損失的負(fù)載均衡策略，旨在最大限度地減少因負(fù)載均衡優(yōu)化而對(duì)模型性能造成的不利影響。MoE模型容易出現(xiàn)“專家負(fù)載不均衡”

(有的專家忙，有的專家閑),傳統(tǒng)的解決方法是加一個(gè)輔助損失，但這可能會(huì)損害模

型性能。DeepSeekV3

引入了一種新方法，通過動(dòng)態(tài)調(diào)整每個(gè)專家的“偏置項(xiàng)”,來平衡負(fù)載。這種方法不依賴輔助損失，減

少了對(duì)性能的負(fù)面影響。此外，為了防止在單個(gè)序列內(nèi)出現(xiàn)極端不平衡情況，也引入了一種補(bǔ)充的序列級(jí)平衡損失，但影響很小。其中，平衡因子α是一個(gè)超參數(shù)，對(duì)于DeepSeek-

V3被設(shè)置為極小的值；1(.)表示指示函數(shù)；T表示

序列中的令牌數(shù)量。序列級(jí)平衡損失鼓勵(lì)在每個(gè)序列內(nèi)實(shí)現(xiàn)專家負(fù)載的平衡。具體而言，為每個(gè)專家引入一個(gè)偏置項(xiàng)bi,

并將其

添加到對(duì)應(yīng)的親和度得分Sit,以確定Top-K路由。核心技術(shù)——無需輔助損失的負(fù)載均衡●

2.2

DeepSeek-V3模

型

deepseek

智研咨詢補(bǔ)充的序列級(jí)輔助損失：無需輔助損失的負(fù)載均衡：資料來源：DeepSeek、智研咨詢整理

傳統(tǒng)語(yǔ)言模型通常只預(yù)測(cè)下一個(gè)token,而DeepSeekV3

在訓(xùn)練中采用

MTP

目標(biāo)，在每個(gè)位置預(yù)測(cè)多個(gè)未來token。這種方式增

加訓(xùn)練信號(hào)密度，提高數(shù)據(jù)效率，使模型更好規(guī)劃表示，準(zhǔn)確預(yù)測(cè)未來token。具體通過多層次模塊預(yù)測(cè)多個(gè)附加token,各模

塊共享嵌入層和輸出頭，保持預(yù)測(cè)因果鏈，提高推理生成速度，提升模型整體性能。MTP

實(shí)現(xiàn)的示意圖Target

Tokens

t?t?

t?tst?t?Cross-Entropy

Loss

LMain

Cross-Entropy

Loss

LMTP

Cross-Entropy

Loss

L2TPOutput

HeadTransformer

Block×LEmbedding

LayerInput

Tokens

t?核心技術(shù)——多token預(yù)測(cè)

(MTP)Output

HeadTransformerBlockLinear

ProjectionconcatenationRMSNorm

RMSNormEmbedding

Layert?

t?OutputHeadTransformerBlockLinear

ProjectionconcotenationRMSNorm

RMSNormEmbedding

Layert?

2.2

DeepSeek-V3模型

deepseek

智研咨詢資料來源：DeepSeek、智研咨詢整理

MTP

Module2I(Next3TokenPrediction)MTP

Module

1(Next2TokenPrediction)Main

Model(Next

Token

Prediction)Shared通常的大模型訓(xùn)練會(huì)采用BF16或FP32/TF32精度作為數(shù)據(jù)計(jì)算和存儲(chǔ)的格式，來確保較高的訓(xùn)練精度。相比之下，

FP8占用的

數(shù)據(jù)位寬僅為FP32

的1/4,FP16的1/2,可以提升計(jì)算速度，降低對(duì)存儲(chǔ)的消耗。微軟2023年的論文《FP8-LM:Training

FP8Large

Language

Models》就提出了一種用于LLM

訓(xùn)練的極度優(yōu)化的FP8混合精度框架。其核心思想是計(jì)算、儲(chǔ)存和通信(包括

正向和反向傳播)全部使用低精度FP8,

從而大大降低系統(tǒng)工作負(fù)載。然而，使用FP8格式訓(xùn)練LLM

存在數(shù)據(jù)下溢出或上溢出等

挑戰(zhàn)以及FP8

數(shù)據(jù)格式較低精度所導(dǎo)致訓(xùn)練失敗等問題。DeepSeek

團(tuán)隊(duì)在訓(xùn)練DeepSeek-V3時(shí)，采用的是混合精度框架，大部分密集計(jì)算操作都以FP8格式進(jìn)行，而少數(shù)關(guān)鍵操作則策

略性地保留其原始數(shù)據(jù)格式，以平衡訓(xùn)練效率和數(shù)值穩(wěn)定性。通過使用FP8

格

式

，DeepSeek能夠在有限的計(jì)算資源下，實(shí)現(xiàn)更

高的計(jì)算效率。例如，在處理大規(guī)模數(shù)據(jù)集時(shí)，

FP8

格式可以顯著減少顯存的占用，從而提高模型的訓(xùn)練速度。DeepSeek-V3

混合精度框架示意圖To

FP8Fprop∑△

FP32WeightDgrad支5

)-FP32核心技術(shù)——FP8

混合精度訓(xùn)練●2.2DeepSeek-V3模型資料來源：

DeepSeek

智研咨詢整理 deepseekWeight

GradientFP32OutputGradientBF16Optimizer

StatesInputGradient智研咨詢Master

WeightInputBF16OutputTo

BF16WgradTo

BF16To

FP32To

BF16To

FP8To

FP8FP32在應(yīng)用分布式并行策略時(shí)，無論是數(shù)據(jù)并行策略下的梯度聚合步驟，還是模型并行下各模型組件之間的通信，都會(huì)帶來大量的

跨設(shè)備數(shù)據(jù)傳輸需求。若不同階段的計(jì)算耗時(shí)差別較大，則會(huì)出現(xiàn)計(jì)算設(shè)備的空閑，即為“氣泡(bubble)”

。為解決這一問

題，流水線并行

(pipeline

parallel,PP)策略應(yīng)運(yùn)而生。其通過將一個(gè)較大數(shù)據(jù)批次分解為多個(gè)微批次

(microbatch),使得每次計(jì)算的總耗時(shí)減少，從而減少了計(jì)算設(shè)備所處于的計(jì)算和等待兩種狀態(tài)在時(shí)間軸上的顆粒度，進(jìn)而使得每個(gè)bubble

被縮

小。在這一背景下，DeepSeek

團(tuán)隊(duì)在傳統(tǒng)PP

策略的基礎(chǔ)上創(chuàng)新性地提出并應(yīng)用了Dual

Pipe技術(shù)。與傳統(tǒng)PP

策略相比，Dual

Pipe技術(shù)最明顯的革新在于其有效地融合了前向和后向計(jì)算加速通信。此外，

DeepSeek

團(tuán)隊(duì)還通過調(diào)節(jié)GPU中流式多處理器(SM)

的調(diào)度來實(shí)現(xiàn)對(duì)其在計(jì)算和通信之間進(jìn)行精細(xì)化分配，進(jìn)而進(jìn)一步加速了通信過程。Dual

Pipe算法示意圖1350123456708192345667788990123560718293456Z8989012345067283945678798902340516278495678989012304152637485967898900031425364Z586978990002324354657898990023445566778899TimeForwardBackwardBackwardforinputBackward

for

weights

Overlappedforward&Backward資料來源：DeepSeek

智研咨詢整理

◆核心技術(shù)——Dual

Pipe算法●2.2

DeepSeek-V3模型

智研咨詢ATTN(B)▲ATTN(W)▲ATTN(F)△COMBINE(F)△

COMBINE(B)▲MLP(B)▲MLP(W)▲

MLP(F)△

DISPATCH(F)△

DISPATCH(B)▲DualPipe8個(gè)PP

rank和2

個(gè)micro-batch的DualPipe

調(diào)

度

示例△Forwardchunk▲

BackwardchunkComputationCommunicationTimeDeviceoDeviceDevice2DeviceDevice4DeviceDevice6Device7[Chunk拆分→CategoryBenchmark(Metric)Claude3.5-Sonnet-1022GPT-400513DeepSeekV3OpenAl

ol-miniOpenAlo1-1217DeepSeekR1EnglishArchitecture#Activated

Params#Total

ParamsMMLU

(Pass@1)MMLU-Redux(EM)MMLUPro(EM)DROP(3shot

F1)IF-Eval

(PromptStrict)

GPQADiamond

(Pass@1)SimpleQA(Correct)FRAMES(Acc.)AlpacaEval2.0(LC-winrate)=88.388.97888.386.56528.472.55287.28872.683.784.349.938.280.551.1MoE37B671B88.589.175.991.686.159.124.973.37085.286.780.383.984.860776.957.891.890.275.747MoE37B671B90.892.98492.283.371.530.182.587.6CodeArenaHard

(GPT4-1106)

LiveCodeBench

(Pass@1-COT)85.233.880.434.285.59253.863.492.365.9MathCodeforces

(Percentile)20.323.658.793.496.696.3Codeforces(Rating)7177591134182020612029SWE

Verified(Resolved)50.838.84241.648.949.2AiderPolyglot(Acc.)45.31649.632.961.753.3AIME

2024(Pass@1)169.339.263.679.279.8MATH500(Pass@1)78.374.690.29096.497.3CNMO

2024(Pass@1)13.110.843.267.678.8ChineseCLUEWSC(EM)85.487.990.989.992.8C-Eval(EM)76.77686.568.991.8C-SimpleQA

(Correct)55.458.76840.363.7DeepSeekR1基于DeepSeek-V3訓(xùn)練優(yōu)化得到，增強(qiáng)了復(fù)雜邏輯推理能力，全參數(shù)量是671B,

激活參數(shù)37B。在數(shù)學(xué)、代碼、

自然語(yǔ)言推理等任務(wù)上，性能比肩OpenAlol

正式版，并且開源模型權(quán)重，引發(fā)了全球的廣泛關(guān)注。DeepSeek-R1評(píng)估結(jié)果DeepSeek-R1性能對(duì)標(biāo)OpenAl

o1正式版●2.3

-R1模型

(

智研咨詢資料來源：DeepSeek

智研咨詢整理

DeepSeek-

-DeepSeekR1具備以下亮點(diǎn)：(1)純強(qiáng)化學(xué)習(xí)訓(xùn)練：基于DeepSeeK-V3應(yīng)用大規(guī)模強(qiáng)化學(xué)習(xí)，直接將RL

應(yīng)用于基礎(chǔ)模型而不依賴監(jiān)督微調(diào)

(SFT)作為初始

步驟，這種方法允許模型探索解決復(fù)雜問題的思維鏈(CoT),由此開發(fā)出DeepSeekR1-Zero

。DeepSeekR1-Zero是第一個(gè)

純強(qiáng)化學(xué)習(xí)訓(xùn)練得到的LLM,

并且展示了自我驗(yàn)證、反思和生成長(zhǎng)CoTs

等功能，標(biāo)志研究界的一個(gè)重要里程碑。在大語(yǔ)言模型(LLM)的微調(diào)過程中，強(qiáng)化學(xué)習(xí)(RL)

扮演著至關(guān)重要的角色。傳統(tǒng)的近端策略優(yōu)化(PPO)算法雖然被廣泛

應(yīng)用于LLM

的微調(diào)，但其在處理大規(guī)模模型時(shí)面臨著巨大的計(jì)算和存儲(chǔ)負(fù)擔(dān)。PPO

算法需要維護(hù)一個(gè)與策略模型大小相當(dāng)?shù)膬r(jià)值網(wǎng)絡(luò)來估計(jì)優(yōu)勢(shì)函數(shù)，這在大模型場(chǎng)景下會(huì)導(dǎo)致顯著的內(nèi)存占用和計(jì)算代價(jià)。此外，

PPO

算法在更新策略時(shí)可能會(huì)導(dǎo)致策略分布發(fā)生劇烈變化，從而影響訓(xùn)練的穩(wěn)定性。為了解決這些問題，

DeepSeek

提出了一種新的強(qiáng)化學(xué)習(xí)算法——組相對(duì)策略優(yōu)化

(GRPO),旨在減少對(duì)價(jià)值網(wǎng)絡(luò)的依賴，同時(shí)保持策略更新的穩(wěn)定性和高效性。GRPO方法的優(yōu)勢(shì)在于：(1)減少計(jì)算負(fù)擔(dān)：通過避免維護(hù)一個(gè)與策略模型大小

相當(dāng)?shù)膬r(jià)值網(wǎng)絡(luò)，GRPO顯著降低了訓(xùn)練過程中的內(nèi)存占

用和計(jì)算代價(jià)。(2)提高訓(xùn)練穩(wěn)定性：

GRPO

通過組內(nèi)比較來估計(jì)優(yōu)勢(shì)

函數(shù)，減少了策略更新的方差，從而確保了更穩(wěn)定的學(xué)習(xí)

過程。(3)增強(qiáng)策略更新的可控性：

GRPO

引入了KL

散度約束，防止策略更新過于劇烈，從而保持了策略分布的穩(wěn)定性。資料來源：DeepSeek

智研咨詢整理

ReferenceModelRewardModelValueModelKLReferenceModelRewardModelTG◆核心技術(shù)——純強(qiáng)化學(xué)習(xí)訓(xùn)練●2.3DeepSeek-R1模型

deepseek

智研咨詢T?T?

Group

Computation算法結(jié)構(gòu)對(duì)比Trained

ModelsFrozenModelsPPOqPolicyModelPolicyModelGRPOKL田A?A?0?O?GAEA?0GAqVr0wm

DeepSeek-R1

OpenAI-o1-1217DeepSeek-R1-32BOpenAI-o1-miniDeepSeek-V310096.396.693.490.687.4

8B.585.279.879275.772663.658.749.248.941.642039.236.8200AIME2024(Pass01)(2)冷啟動(dòng)數(shù)據(jù)&多階段訓(xùn)練策略：DeepSeekR1是為解決DeepSeek-R1-Zero

存在的問題并進(jìn)一步提升推理性能而開發(fā)的模

型，它在訓(xùn)練過程中融入了冷啟動(dòng)數(shù)據(jù)和多階段訓(xùn)練策略。冷啟動(dòng)數(shù)據(jù)：收集少量高質(zhì)量長(zhǎng)鏈推理數(shù)據(jù)，通過SFT

初始化模型，提升可讀性和性能。多階段訓(xùn)練：第一階段

RL專注于數(shù)學(xué)、編程等明確答案的任務(wù)。第二階段結(jié)合拒絕采樣生成

SFT

數(shù)據(jù)，增強(qiáng)通用能力(寫作、問答等)。最終RL對(duì)齊人類偏好(如無害性、有用性)。DeepSeek-R1

在多個(gè)基準(zhǔn)測(cè)試中展現(xiàn)

出

與OpenAl-o1相當(dāng)?shù)男阅芩?。在Codeforces和

MMLU

基準(zhǔn)測(cè)試中與

OpenAl-o1-1217得分相近，尤其是在

AIME2024、MATH-500、Swe-Bench

等基準(zhǔn)測(cè)試中，DeepSeek-R1

還稍微勝

出?！?/p>

核心技術(shù)——冷啟動(dòng)數(shù)據(jù)&多階段訓(xùn)練策略●2.3

DeepSeek-R1模型

deepseek己

智研咨詢資料來源：DeepSeek、智研咨詢整理

DeepSeek-R1

的基準(zhǔn)性能SWE-benchVerified

ResolvedAccuracy/Percentile(%)GPQADiamond(Pass@1)Codeforces

IPecentilejMATH-500(Pass01)MMLU

IPasse1)62.1600sa90.891.890.090.297.396.471.594.3406080GPT-4o-0513AIME2024pass@19.3AIME2024cons@6413.4MATH-500pass@174.6GPQADiamondpass@149.9LiveCodeBenchpass@132.9CodeForcesrating759.0Claude-3.5-Sonnet-102216.026.778.365.038.9717.0o1-mini63.680.090.060.053.81820.0QwQ-32B44.060.090.654.541.91316.0DeepSeek-R1-Distill-Qwen-1.5B28.952.783.933.816.9954.0DeepSeek-R1-Distill-Qwen-7B55.583.392.849.137.61189.0DeepSeek-R1-Distill-Qwen-14B69.780.093.959.153.11481.0DeepSeek-R1-Distill-Qwen-32B72.683.394.362.157.21691.0DeepSeck-R1-Distill-Llama-8B50.480.089.149.039.61205.0DeepSeek-R1-Distill-Llama-70B70.086.794.565.257.51633.0(3)模型能力蒸餾遷移：DeepSeek

的推理能力可以通過蒸餾技術(shù)遷移到更小的模型中，并且小模型的基準(zhǔn)測(cè)試取得很優(yōu)

秀的表現(xiàn)。在DeepSeekR1蒸餾出的6個(gè)小模型中，在保持模型參數(shù)量?jī)H為o1-min同量級(jí)的前提下，其知識(shí)理解、代碼生成等

核心能力實(shí)現(xiàn)全面反超。通過對(duì)標(biāo)OpenAl-o1-mini的效果上不難看出DeepSeek在模型輕量化領(lǐng)域的突破性創(chuàng)新，同時(shí)也為開

源社區(qū)提供了兼具高性能與低部署成本的新型解決方案。DeepSeek-R1

蒸餾小模型性能◆核心技術(shù)——模型能力蒸餾遷移●2.3

DeepSeekR1模型

deepseek

智研咨詢資料來源：DeepSeek

智研咨詢整理

PART

03Deepseek

技術(shù)創(chuàng)新最全面的產(chǎn)業(yè)分析●可預(yù)見的行業(yè)趨勢(shì)：精品行研報(bào)告·專項(xiàng)定制·月度專題·市場(chǎng)地位證明·專精特新申報(bào)·可研報(bào)告·

商業(yè)計(jì)劃書

·產(chǎn)業(yè)規(guī)劃三智研咨詢INTELLIGENCE

RESEARCHGROUFMoE模型的主要組成部分包括：(1)專家(Experts):模型中的每個(gè)專家都是

一個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)，專門處理輸入數(shù)據(jù)的特定子集或特定任務(wù)。例如，在自然語(yǔ)言處理任務(wù)中，一個(gè)專家可能專注于處理與語(yǔ)言語(yǔ)法相關(guān)的內(nèi)容，而另一個(gè)專家可能專注于語(yǔ)義理解。(2)門控網(wǎng)絡(luò)(Gating

Network):門控網(wǎng)絡(luò)的作用是決定每個(gè)輸入樣本應(yīng)該由哪個(gè)專家或哪

些專家來處理。它根據(jù)輸入樣本的特征計(jì)算出每個(gè)專家的權(quán)重或重要性，然后根據(jù)這些權(quán)重將輸

入樣本分配給相應(yīng)的專家。門控網(wǎng)絡(luò)通常是一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)，其輸出經(jīng)過softmax激活函數(shù)

處理，以確保所有專家的權(quán)重之和為1。資料來源：智研咨詢整理

www.cMoE,全稱Mixture

Experts,即混合專家模型，是一種用于提高深度學(xué)習(xí)模型性能和效率的架構(gòu)。其核心思想是通過引入多個(gè)獨(dú)立的專家模型

(Experts),每個(gè)輸入數(shù)據(jù)只選擇和激活其中的一部分專家模型來進(jìn)行處理，從而減少計(jì)算量，提高訓(xùn)練和

推理速度。MoE

的概念在1991年就已提出，訓(xùn)練不容易收斂是其在大模型領(lǐng)域應(yīng)用的主要障礙。yAdd+NormalizeSwitchingFFNLayerAdd+NormalizeSelf-AttentionX◆MoE

架構(gòu)引入多個(gè)獨(dú)立的專家模型MoE模型結(jié)構(gòu)4

y2Add+Normalize●31DeepSeek

模型技術(shù)

deepseekPouterAdd+NormalizeSelf-Attentionp=0.65Fouter智研咨詢FFN4p=0.8x?[Parametersx?□MoreFFN3FFN4

FFN2

FFN3PositionalembeddingPositionalembeddingFFN1

maMoE申界.增強(qiáng)模型的可擴(kuò)展性MoE

模型的架構(gòu)設(shè)計(jì)使得它可以很容易

地?cái)U(kuò)展到更多的專家和更大的模型規(guī)模。

通過增加專家的數(shù)量，模型可以覆蓋更

廣泛的數(shù)據(jù)特征和任務(wù)類型，從而在不

增加計(jì)算復(fù)雜度的情況下，提升模型的

表達(dá)能力和泛化能力。這種可擴(kuò)展性為

處理大規(guī)模、復(fù)雜的數(shù)據(jù)集提供了有效

的解決方案，例如在處理多模態(tài)數(shù)據(jù)

(包含文本、圖像、語(yǔ)音等多種類型的數(shù)

據(jù)

)

時(shí)

，MoE模型可以通過設(shè)置不同

的專家來專門處理不同模態(tài)的數(shù)據(jù)，實(shí)現(xiàn)更高效的多模態(tài)融合。與傳統(tǒng)的密集模型相比，MoE

模型在處理每個(gè)輸入樣本時(shí)，只有相關(guān)的專家

會(huì)被激活，而不是整個(gè)模型的所有參

數(shù)都被使用。這意味著MoE模型可以在

保持較高性能的同時(shí)，顯著減少計(jì)算

資源的消耗，特別是在模型規(guī)模較大

時(shí)，這種優(yōu)勢(shì)更為明顯。例如，對(duì)于

一個(gè)具有數(shù)十億參數(shù)的大型語(yǔ)言模型，采用MoE架構(gòu)可以在不增加太多計(jì)算成

本的情況下，通過增加專家的數(shù)量來

進(jìn)一步提升模型的性能。通過將多個(gè)專家的預(yù)測(cè)結(jié)果進(jìn)行整合，MoE模型可以在不同的數(shù)據(jù)子集或任務(wù)

方面發(fā)揮每個(gè)專家的優(yōu)勢(shì)，從而提高整

體模型的性能。例如，在圖像分類任務(wù)中，一個(gè)專家可能擅長(zhǎng)識(shí)別動(dòng)物圖片，而另一個(gè)專家可能擅長(zhǎng)識(shí)別車輛圖片，通過門控網(wǎng)絡(luò)的合理分配，MoE

模型可以更準(zhǔn)確地對(duì)不同類型的圖片進(jìn)行分類。MoE

架構(gòu)可顯著提高訓(xùn)練效率 3.1DeepSeekMoE模型技術(shù)

deepseek

智研咨詢資料來源：智研咨詢整理

DeepSeek

MoE從傳統(tǒng)MoE

模型架構(gòu)的基礎(chǔ)上，進(jìn)行了兩部分改進(jìn)：(1)細(xì)粒度專家劃分：相比傳統(tǒng)MoE

模型，

DeepSeekMoE將每個(gè)MoE層細(xì)分為更多的細(xì)粒度專家，每個(gè)專家負(fù)責(zé)處理更具體的任務(wù)。例如，在一個(gè)典型的DeepSeekMoE模型中，每個(gè)MoE層包含256個(gè)專家，每個(gè)token

會(huì)激活其中的8個(gè)專家。這種細(xì)粒度的分割方式使得每個(gè)專家能夠?qū)Ｗ⒂谔囟?/p>

類型的輸入數(shù)據(jù)，從而提高模型的靈活性和表達(dá)能力。

(2)共享專家隔離：傳統(tǒng)的MoE

模型中，所有專家都是獨(dú)立的，每個(gè)專

家都需要獨(dú)立處理輸入數(shù)據(jù)。DeepSeekMoE

引入了共享專家的概念，把激活專家區(qū)分為共享專家和路由專家時(shí)，共享專家和路

由專家在數(shù)據(jù)處理流程上有顯著的區(qū)別。對(duì)于共享專家，輸入數(shù)據(jù)無需經(jīng)過路由模塊的計(jì)算，所有數(shù)據(jù)都會(huì)直接通過共享專家

進(jìn)行處理。相反，對(duì)于路由專家，輸入數(shù)據(jù)會(huì)先經(jīng)過路由模塊，該模塊根據(jù)輸入數(shù)據(jù)的特征選擇最合適的專家進(jìn)行計(jì)算。在這

種架構(gòu)中，路由模塊通過計(jì)算輸入數(shù)據(jù)與各個(gè)專家的匹配概率，選擇概率最高的專家進(jìn)行處理。最終，將路由專家和共享專家

的計(jì)算結(jié)果相加，形成MoE模塊的最終輸出。通過這種方式，模型能夠在處理不同輸入數(shù)據(jù)時(shí)，既能捕捉到輸入數(shù)據(jù)的共性，也能關(guān)注到輸入數(shù)據(jù)的差異性。這種設(shè)計(jì)能夠提高模型的泛化能力和適應(yīng)性。DeepSeekMoE與傳統(tǒng)MoE的區(qū)別

部分開源模型MoE模塊配置對(duì)比模型細(xì)粒度專家分離共享專家數(shù)路由專家數(shù)激活專家數(shù)Mixtral8*7B否否082Hunyuan-Large否是1161Qwen1.5-MoE-A2.7B是是4604DeepSeekV3是是12568RoutedfapertSboues

soeQutput

Hidden由1

NRouter

ldr=2

Input

Hidden0ODeepSeek

MoE在傳統(tǒng)MoE

模型架構(gòu)上進(jìn)行了改進(jìn)

3.1DeepSeek

MoE模型技術(shù)

deepseek

智研咨詢Output

Hidden

0O2[2N

2(a)Conventional

Top-2

Routing→(b)+Fine-grained

Expert

Segmentation(c)+Shared

Expert

isolation(DeepSeekMoE)41mlk=4

PdInput

Hidden

O資料來源：智研咨詢整理

Output

Hidden[

008Routerinput

Hidden

0Ohlk=34在標(biāo)準(zhǔn)的Transforme

模型中，多頭注意力

(MHA)

機(jī)制通過并行計(jì)算多個(gè)注意力頭來捕捉輸入序列中的不同特征。每個(gè)注意力頭都有自己的查詢(Q)、

鍵(K)

和

值

(V)

矩陣。對(duì)于序列中的每一個(gè)token,

都需要計(jì)算各自的QKV,

進(jìn)而計(jì)算注意力。

在推理過程中，當(dāng)前大模型所采用的token

token遞歸生成方式，上文token

的KV計(jì)算不會(huì)受到后續(xù)生成token

的影響，因此可以緩存下來，避免重復(fù)計(jì)算，提高推理效率，這就是KVcache的由來。也就是說，當(dāng)生成第個(gè)token時(shí)，可以利用之前事先算

好的上文個(gè)token

的KV值。同樣地，位置token的KV值計(jì)算出來后也將保存在KVcache中。目前大模型對(duì)于注意力機(jī)制做的一些改進(jìn)，包括MQA、GQA都是為了想方設(shè)法減少KVCache.DeepSeek提出的MLA

的出發(fā)點(diǎn)也是如此。減少KV

Cache就可以實(shí)現(xiàn)在更少的設(shè)備上推理更長(zhǎng)的Context,

或者在相同的Contex長(zhǎng)度下讓推理的batch

size更大，從而實(shí)現(xiàn)更快的推理速度或者更大的吞吐總量。最終目的都是為了實(shí)現(xiàn)更低的推理成本。MHAMQA、GQA與MLAValueCompressedLatentProjectionKeyQuery多頭潛在注意力MLA進(jìn)一步減少KV緩存的大小MHAGQAMQA48

3264GQA

groupsMulti

Query

Group

Query

Multi

Head

Multi

Head

LatentAttention(MQA)

Attention(GQA)

Attention(MHA)

Attention(MLA)●

2多頭潛在注意力MLA

技

術(shù)

deepseek資料來源：智研咨詢整理

imeper

sample(s(211智研咨詢■MQA

與

GQA的辦法是

通

過共享K、V

的

注

意

力

頭，降

低KV

的

數(shù)

據(jù)

維

度

，

但

會(huì)

犧

牲

模

型

性

能

。MLA則

是

通

過

對(duì)

注

意

力

機(jī)

制中的K、V進(jìn)

行

低

秩

聯(lián)

合

壓

縮，

減

少

推

理時(shí)的KV緩存

；同時(shí)

對(duì)Q進(jìn)

行

低

秩

壓

縮，

減

少

訓(xùn)

練

期間的

激

活內(nèi)

存

使

用

。MLA架

構(gòu)

還

結(jié)

合了

旋

轉(zhuǎn)

位置

嵌

入

(RoPE),有

效

處

理了

長(zhǎng)

序

列中的

位

置

依

賴問

題

。RoPE通

過

旋

轉(zhuǎn)

操

作

將

位

置

信

息

嵌

入

到K和

Q中，

使

得

模型能

夠

更

好

地捕

捉

長(zhǎng)

距離

依

賴關(guān)

系。

盡

管MLA

通

過

低

秩

壓

縮

減少了K、V緩

存

和

激

活內(nèi)

存，

但它

仍

然

能

夠

保

持

與

標(biāo)

準(zhǔn)

多

頭

注

意

力(MHA)

相

當(dāng)

的

性能。

在

推

理

過

程中

，MLA

只

需

要

緩

存

壓

縮

后

的

鍵

和

值，

這

顯

著

減

少了

內(nèi)

存占

用，

使

得

模

型

能

夠

處

理

更

長(zhǎng)

的

上

下

文

長(zhǎng)

度

。MLA

架

構(gòu)outputu,

∈Rw?∈Rd×dnh[0niO:2…;0cm=O?ERMulti-HeadAttention(numhead=nA,dimhead=dn)ku=[k{;k&JConcatenatekf∈Rd

Df;D{z;…;vin,]=vf

∈RdAaIq&:9z;…;q4mJ=qeR2

k{?;k{z2:…;k{m,l=k{∈RdATARoPE(WQReR?na×)RoPE(WKReR×d)Latentc

∈R

Latentd“”wDQ∈Rd×d

wDKY∈RInputh,∈R□0OCachedDuring

InferenceOutput

Hidden

u:O00**

OO00Multi-HeadAttention{[k{;k{]}concatenatef

concatenatel{9C,

OOq,3

{k廳

{vCRoPE

RoPE00

Latent

0-InputHiddenh[O000.

O多頭潛在注意力MLA實(shí)現(xiàn)了更低的推理成本●

3.2多頭潛在注意力MLA

技

術(shù)

deepseek

智研咨詢qu=Iq:4&l

Concatenate19f:qfz:…;9qcn]=qeRa%資料來源：DeepSeek智研咨詢整理

foapply

applywQ∈RdaTA×dwUK

∈RdAna×:wUV∈RdhnA×d.Tq9;42,1-開源即代碼層面開源，可以調(diào)用與進(jìn)行二次開發(fā)。開源免費(fèi)調(diào)用有助于先行占據(jù)市場(chǎng)份額，成為規(guī)則制定者，率先拓展生態(tài)粘

性。如，谷歌將安卓開源，獲得了全球80%的移動(dòng)手機(jī)端市場(chǎng)份額，同時(shí)也覆蓋電視、汽車等使用場(chǎng)景。DeepSeek

V3與R1模型實(shí)現(xiàn)了開源，采用MIT協(xié)議。DeepSeek開源模型完全免費(fèi)，開發(fā)者可以利用DeepSeek開源模型開發(fā)衍

生模型、產(chǎn)品應(yīng)用以及生成內(nèi)容。這產(chǎn)生多方面影響：①對(duì)大模型發(fā)展：這提升了世界對(duì)中國(guó)Al大模型能力的認(rèn)知，一定程度打破了OpenA1

與Anthropic

等高級(jí)閉源模型的封閉生態(tài)。

DeepSeekR1

在多個(gè)測(cè)試指標(biāo)中對(duì)標(biāo)OpenAlo1,通過模型開源，也將大模型平均水平提升至類OpenAlol

等級(jí)。②對(duì)下游生態(tài)：優(yōu)質(zhì)的開源模型可更好用于垂類場(chǎng)景，即使用者針對(duì)自身需求蒸餾，或用自有數(shù)據(jù)訓(xùn)練，從而適合具體下游場(chǎng)

景；此外，模型訓(xùn)推成本降低，將帶來使用場(chǎng)景的普及，帶動(dòng)AIGC、端側(cè)等供給和需求。用戶通過獲取DeepSeek

開源項(xiàng)目中相關(guān)信息進(jìn)行部署/再訓(xùn)練使用，應(yīng)首先確保滿足開源項(xiàng)目對(duì)應(yīng)許可協(xié)議。目前，

DeepSeek系列開源AI項(xiàng)目，除DeepSeek-R1代碼和模型皆遵循MIT開源許

可協(xié)議外，其他DeepSeek系列開源Al項(xiàng)目皆為代碼遵循MIT開源

許可協(xié)議，模型遵循DEEPSEEK

LICENSE

AGREEMENT

(Version1.0)。因此，用戶在部署/再訓(xùn)練DeepSeek

大模型開源項(xiàng)目時(shí)，應(yīng)首先

遵循對(duì)應(yīng)開源許可協(xié)議的相關(guān)規(guī)定，避免開源合規(guī)風(fēng)險(xiǎn)。資料來源：智研咨詢整理Public

DomainMIT/X11BSD-NewApache2.0LGPL2.1LGPL2.1+LGPL3orLGPL3+MPL1.1GPL2GPL2+GPL3or

GPL3+

AGPL3DeepSeek

V3與R1

模型采用MIT

協(xié)議NetworkPermissive

WeakCopyleftStrongCopyleftProtective

3.3開源大模型開源許可協(xié)議標(biāo)準(zhǔn)智研咨詢PART

04Deepseek

商業(yè)模式最全面的產(chǎn)業(yè)分析●可預(yù)見的行業(yè)趨勢(shì)：精品行研報(bào)告·專項(xiàng)定制·月度專題·市場(chǎng)地位證明·專精特新申報(bào)·可研報(bào)告·

商業(yè)計(jì)劃書

·產(chǎn)業(yè)規(guī)劃三智研咨詢INTELLIGENCE

RESEARCHGROUFMMLUReduxZeroEval得分VS輸入API價(jià)格(￥/1MTolkens)企業(yè)接入DeepSeek大模型的收費(fèi)方式主要分為兩種模式，具體如下：(1)AP接口：按Token計(jì)費(fèi)模式。標(biāo)準(zhǔn)時(shí)段下，deepseekchat(DeepSeekV3)AP

服務(wù)定價(jià)為百萬tokens

輸入價(jià)格0.5元(緩存命中)/2元(緩存未命中)。

deepseek-reasoner

(DeepSeek-R1)API服務(wù)定價(jià)為百萬tokens

輸入價(jià)格1元(緩存命中)/4元(緩存未命中)。2月26日，

deepseek平臺(tái)推出錯(cuò)峰優(yōu)惠活動(dòng)，在00:30-8:30時(shí)間段，DeepSeekV3

降至原價(jià)的50%,DeepSeek-R1降至原價(jià)的25%。資料來源：智研咨詢整理s86848:8017810

相

0DeepSeek

API

接入價(jià)格

DeepSeek-V3

API定價(jià)對(duì)比海內(nèi)外主流模型0模型時(shí)段百萬tokens輸入價(jià)格(緩存命中)百萬tokens輸入價(jià)格(緩存未命中

)百萬tokens

輸出價(jià)格輸出價(jià)格deepseekchat(DeepSeek-V3)標(biāo)準(zhǔn)時(shí)段0.5元2元8元優(yōu)惠時(shí)端(00:30-8:30)0.25元1元4元deepseekreasoner(DeepSeek-R1)標(biāo)準(zhǔn)時(shí)段1元4元16元優(yōu)惠時(shí)端(00:30-8:30)0.25元1元4元DeepSeek-V3模型性能/價(jià)格比最優(yōu)范圍·Gemini·Qwen2.5-72B-Instruct·Llama-3.1-70B-Instruct·Claude

3.5

Haiku·Claude

3.5

Sonnet

GPT-401.5Pro

●Llama-3.1-405B-Instruct·GLM-4-Plus·Mistral-Large-2411●ERNIE4.0

TurboDeepSeek

API性價(jià)比優(yōu)勢(shì)明顯

4.1商業(yè)模式智研咨詢DeepSeek-V2.5·GPT-4o-mini初期成本高昂本地化部署需要客戶投入大量資

金購(gòu)買高性能硬件設(shè)備(如

GPU

、TPU

等)。此外，還需

組

人人文庫(kù)> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

中文字字幕乱码视频,亚洲av无码乱码在线观看富二代,亚洲乱妇亚洲乱妇xinglu,亚洲日韩乱码中文无码蜜桃臀,亚洲精品无码久久久久久久

2025年deepseek全景解析-重塑全球AI生態(tài)的中國(guó)力量

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

中文字字幕乱码视频,亚洲av无码乱码在线观看富二代,亚洲乱妇亚洲乱妇xinglu,亚洲日韩乱码中文无码蜜桃臀,亚洲精品无码久久久久久久

2025年deepseek全景解析-重塑全球AI生態(tài)的中國(guó)力量

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔