2025年DeepSeek模型優(yōu)勢:算力、成本角度解讀報告_第1頁
2025年DeepSeek模型優(yōu)勢:算力、成本角度解讀報告_第2頁
2025年DeepSeek模型優(yōu)勢:算力、成本角度解讀報告_第3頁
2025年DeepSeek模型優(yōu)勢:算力、成本角度解讀報告_第4頁
2025年DeepSeek模型優(yōu)勢:算力、成本角度解讀報告_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

DeepSeek模型優(yōu)勢:算力、成本角度解讀浙江大學計算機學院浙江大學人工智能協(xié)同創(chuàng)新中心王則可2025年2月80604078.0a?n?265.059.1m00.0z874639.216

16.0■DeepSeek的優(yōu)勢:系統(tǒng)感知的算法創(chuàng)新(量化基因)■算法:霸榜,有創(chuàng)新(MLA、

定MoE)■系

統(tǒng):低成本、高性能DeepSeekV3

DeepSeekV2.5Qwen2.5-72B-InstLama-3.1-405B-Inst10090.2DeepSeek

優(yōu)勢30.842.0a51.635.60MMLU-Pro

1530Accuracy/Percentile

(%)SWE-benchVerifiedHesctvedyGPT-4-0513

Claude-3.5-Sonnet-1022GPQA-DiamondPaspe1324.1253231.62

03Codeforcesrcmtie)AIME2024Pens1)ZHEJIANGUNIVERSITYMATH50075.9660278.3■什么算力?

“對信息數(shù)據(jù)進行計算,實現(xiàn)目標結(jié)果的能力”■傳統(tǒng)算力:信息計算力■現(xiàn)代算力:

信息計算力、數(shù)據(jù)存儲力、網(wǎng)絡(luò)運載力算力的基本概念浙江大學ZHEJIANG

UNIVERSITY■原生算力:

大腦(可處理復雜邏輯,但不能高速處理簡單運算)■

外部算力工具:■

草繩、石子

算盤■計算機:算力提供者(可高速簡單運算,不能處理復雜邏輯)算力的發(fā)展計算器、計算機算盤、算籌草繩、石子ZHEJIANG

UNIVERSITY大腦“Ithinkthere

isaworldmarketfor

maybefive

computers."(我想全世界只需要五臺電腦)--Thomas

Watson,IBM創(chuàng)始人,1943■

大型機時代:數(shù)字化未開始,算力需求潛力未發(fā)掘大型機時代

1940-1980計算機算力的發(fā)展浙江大學ZHEJIANG

UNIVERSITY大型機時代

PC

云計算時代

人工智能時代1940-1980-2000-

2020-198020002020■

大型機時代:數(shù)字化未開始,算力需求潛力未發(fā)掘■

PC時代:一個應(yīng)用只需一臺電腦,算力夠■

云計算時代:應(yīng)用需要超過一臺機器的算力,算力基本夠■人工智能時代:算力開始不足,需大量高性能Al加速器計算機算力的發(fā)展浙江大學ZHEJIANG

UNIVERSITY■人工智能大模型算力估計■

1,數(shù)據(jù)量

(

D

)>15*

模型參數(shù)量

(

N

)■

萬億模型(N

)=1000*109=1012■

數(shù)據(jù)量(D)

>15*1012

=1.5*10132,計算次數(shù)

C≈

6*N*

D■萬億模型計算次數(shù)

C≈

6*N

*

D≈1.5*1025OpenAI."Scaling

Laws

for

Neural

Language

Models",2020人工智能大模型算力估計浙江大學ZHEJIANG

UNIVERSITY■萬億大模型預訓練系統(tǒng)成本估計■條

件:計算量

C≈6

*

N

*

D≈1.5*1025

最低時間、成本估計■

單H800(25

萬):1.5*1010秒

(174000天)■1000張H800(2.5

億):1

.5*107秒

(174天)算力(每秒)顯存運力生態(tài)政策風險成本華為910B320T=3.2*101432GB240

GB/s較好無12萬英偉達H8001000T=101580GB900

GB/s好有25萬人工智能計算平臺成本估計算力

存力

運力浙江大學ZHEJIANG

UNIVERSITYComputeDatasetSizeParametersPF-days,non-embeddingnon-embedding■

大模型擴展規(guī)律

(資本非常喜歡確定性故事)■算力:算力越大(X軸),模型效果越好(TestLoss小)■數(shù)據(jù)集:數(shù)據(jù)集越大(X軸),模型效果越好模型參數(shù):參數(shù)越多(x

軸),模型效果越好765

43L=(Cmin/2.3·108)-0.050210-9

10-7

10-510~310-1

101TestLoss大模型指導法則Scaling

Law:

富則火力覆蓋算

數(shù)據(jù)集

模型參數(shù)量浙江大學ZHEJIANG

UNIVERSITY3,用最新GPU訓練性能領(lǐng)先的大模型■例子:2023年出ChatGPT,

壟斷市場(290億美元估值)■4,用訓練的GPU給客戶提供高質(zhì)量模型服務(wù)■

例子:營收小、整體虧錢2025年特朗普的“星際之門”為OpenAl籌5000億美元Al基礎(chǔ)設(shè)施!OpenAl商業(yè)模式(循環(huán)以下四步)1,華爾街融資■例子:2019-21年融資20億美元2,購買最新GPU■例子:購買2.5萬A100

GPU

(英偉達掙錢)國際人工智能企業(yè)OpenAI

的商業(yè)模式浙江大學ZHEJIANG

UNIVERSITY國內(nèi)人工智能商業(yè)模式(循環(huán)以下四步)■1,國內(nèi)融資(億美金)■

可行性分析:資金沒問題,尤其優(yōu)質(zhì)生產(chǎn)力領(lǐng)域2,購買最新GPU■

可行性分析:美國可以發(fā)禁令3

,

用GPU訓練性能領(lǐng)先的大模型■可行性分析:國內(nèi)Al人才沒問題4,用訓練的GPU給客戶提供高質(zhì)量模型服務(wù)■

可行性分析:國內(nèi)做工業(yè)化低成本有絕對優(yōu)勢國內(nèi)人工智能的發(fā)展模式、可行性分析ZHEJIANG

UNIVERSITY浙江大學大■國內(nèi)人工智能商業(yè)模式(循環(huán)以下四步)1,國內(nèi)融資(億美金)■

可行性分析:資金沒問題,尤其優(yōu)質(zhì)生產(chǎn)力領(lǐng)域■

2,購買最新GPU■可行性分析:美國可以發(fā)禁令3

,

用GPU訓練性能領(lǐng)先的大模型■

可行性分析:國內(nèi)Al人才沒問題4,用訓練的GPU給客戶提供高質(zhì)量模型服務(wù)■

可行性分析:國內(nèi)做工業(yè)化低成本有絕對優(yōu)勢美國限制中國AI

發(fā)展的策略浙江大學ZHEJIANG

UNIVERSITY■

美國政府對我國的禁令■現(xiàn)成成熟算力:2023年禁止出口高端Al芯片■

A100、H00、H800、A800

等數(shù)據(jù)中心GPU■運力:2022年限制Al加速器的互聯(lián)帶寬■算力:2024年禁止臺積電代工7nm工藝的國內(nèi)芯片存力:2024年禁止HBM芯片■光刻機:2024年限制荷蘭ASML出口7nm光刻機到中國時代背景:算力卡脖子浙江大學ZHEJIANG

UNIVERSITY算力(每秒)顯存運力生態(tài)政策風險成本華為910B320T=3.2*101432GB240

GB/s較好無12萬英偉達H8001000T=101580GB900

GB/s好有25萬ReleasedateCC-BY

epoch.ai卡脖子后果:國內(nèi)AI

優(yōu)質(zhì)算力有差距Machine

Learning

Hardware

鄉(xiāng)

EPOCHAI國

內(nèi)d

e

e

n

s

e

e

kDeepSeek

等國內(nèi)大模型的“上甘嶺”時刻實

Q

w

e

n浙江大學ZHEJIANG

UNIVERSITYAl算法與系統(tǒng)協(xié)同深度優(yōu)化范弗利特彈藥量(地毯轟炸)大資金、大算力、大模型“大模型”反斜面坑道(戰(zhàn)術(shù)穿插)上

”國

際發(fā)布時間GPU時(小時)訓練成本(美元)Llama

3.12024年7月3.1*1076.2*107DeepSeek

v32024年12月2.8*1065.6*106DeepSeek

V3

公開的單次極低預訓練成本■

DeepSeek全部訓練單次成本:5,576,000

美元單張H800GPU

每小時租賃成本:2

美元浙江大學ZHEJIANG

UNIVERSITY大模型/指標DeepSeek

V1DeepSeek

V2DeepSeek

V3Llama

3.1發(fā)布時間2024年1月2024年6月2024年12月2024年7月訓練Token2T8.1

T14.8

T15T模型規(guī)模7B、67B236B/激活21B671B/激活37B405BMoE模型稠密MoE

2+160MoE

1+256稠密注意力技術(shù)GQAMLAMLAN.A上下文長度4K128K128K128K訓練成本

(GPU

Hours)300.6K172.8K2.788

M30.84

MDeepSeek

發(fā)展歷程:窮則戰(zhàn)術(shù)穿插浙江大學ZHEJIANG

UNIVERSITYDeepSeekMoERouted

Expert

Shared

ExpertTransformer

lock×|A

NFeed-Forward

NetworkTop-KRMSNormInputHidden

uMulti-Head

LatentAttention(MLA)⑤

S

cachedDuringnferenceOutput

Hiden

u:O000

Ooo0Multi-Head

AttentionRMSNormlaS:aD

(IkE:keconcotenatef

concatenatel[qOoppyRaPEooooumc8

Latent

e:OS習inputHidenh,OO000000671B參數(shù)

(GPT-3:175B、GPT-4:1.76T?)■每個token激活37B參數(shù)(~5.5%),降低計算量MoE:1共享專家+256

路由專家MLA:

低秩壓縮DeepSeekv3

模型參數(shù)■DeepSeekV3模

數(shù)

?k回aopyloPE4

ML=61層ZHEJIANGUNIVERSITYOO00OutputHidenh:950Router(k5)Attention1dl曲21

N?

1

2

34

N-1

N,Router

dhhld

Top-Kr0O

Input

Hidden

u■核心技術(shù)DeepSeekMoE:

顯者減少計算量(窮則戰(zhàn)術(shù)穿插)■

針對美國的算力禁令核心思想:1

共享專家+256

路由專家,激活8

個路由專家■

共享專家:捕獲通用知識、降低知識冗余■路由專家:量大、細粒度、靈活組合、方便知識表達結(jié)果:每個Token只要過360億參數(shù)

(Llama

3.1要4050億參數(shù))DeepSeek."DeepSeekMoE:Towards

Ultimate

Expert

Specialization

in

Mixture-of-Experts

Language

Models",2024核心技術(shù)DeepSeekMoE:顯著減少計算量浙江大學Routed

ExpertShared

ExpertOutputHidden

hEZHEJIANG

UNIVERSITY■核心思想:低秩壓縮KV,

顯著降低推理時KVcache

儲空間需求■

結(jié)果:KVCache

使用降低93.3%■

推理性能:顯著提升推理成本:顯著降低核心技術(shù)MLA:Multi-HeadLatentAttentionIII

CachedDuringInferenceMLA:

少許計算量換HBM空間(窮則戰(zhàn)術(shù)穿插,已開源)■針對美國的HBM芯片禁令(Al算力嚴重依賴高性能內(nèi)存)Generation

Throughput(Tokens/Sec)576%of

maximum

throughput1000020000300004000050000Multi-HeadValuesKeysQueriesMaximumDeepseek

678DeepSeekv2

0

Attention(GQA)!Multi-QueryAttention(MOA)!Multi-Head

LatentAttention(MLA)KVCacheforGeneration(KB/Token)Attention(MHA)!Grouped-Query的存乙之a(chǎn)乙之22……Time△

Forwardchunk▲BackwardchunkDeepSeek其它方面的性能方面優(yōu)化自研輕量級框架(允許系統(tǒng)極致性能優(yōu)化)■FP8訓練(提升算力密度)DualPipe(通信、計算重疊度高)PTX優(yōu)化繞開CUDA護城河

(單獨解讀)系統(tǒng)核心技術(shù):自研輕量級框架ZHEJIANG

UNIVERSITYComputation

CommunicationMLP(B)▲MLP(W)▲MLP(F)△ATTN(B)▲ATTN(W)▲

ATTN(F)△DISPATCH(F)△

DISPATCH(B)▲COMBINE(F)△PPCOMBINE(B)▲浙江大學DualPipePTX(Parallel

Thread

Execution)類英偉達匯編■

作用:C++抽象較高,無法表達GPU內(nèi)部硬件特性,

PTX指令控制1)內(nèi)存讀寫到L2、內(nèi)

2

)

GPU內(nèi)部硬件引擎■

個人猜測:GPU的內(nèi)存一致性模型做的差,故GPU計算和通信的內(nèi)

存一致性只能用PTX指令來保證結(jié)論:沒繞開,更依賴CUDA;但對國產(chǎn)硬件設(shè)計有作用DeepSeek論文selectsonly

8routedexpertsinpractice,it

can

scaleup

this

number

to

a

maximum

of

13

experts(4nodes×3.2experts/node)while

preserving

thesamecommunicationcost.Overall,undersuch

a

communication

strategy,only

20

SMs

are

sufficient

to

fullyutilize

thebandwidths

ofIB

and

NVLink.Indetail,weemploy

the

warp

specialization

technique(Bauer

et

al.,2014)and

partition20SMsinto10communicationchannels.Duringthe

dispatching

process,(1)IB

sending.(2)IB-to-NVLink

forwarding,and

(3)NVLinkreceiving

arehandled

by

respective

warps.Thenumberof

warpsallocatedtoeachcommurication

task

is

dynamically

adjusted

according

to

theactual

workload

across

allSMs.Similarly,during

thecombining

process.(1)NVLinksending,)NLnkto-forwmdingmd

mccumlntion,m(9)Bmeevingd

acmahntionraedohandled

by

dynamically

adjusted

warps.In

addifion,both

dispatching

and

combining

kernelsoverlapwiththecomputation

stream,sowealso

considertheir

impact

on

other

SM

computation

kernels.Specifically,weemploycustomizedPIX(Para

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論