




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
2024年英偉達公司研究:超級工廠是怎樣煉成的1英偉達:全球算力王者,加速計算時代的AI超級工廠1.1上市以來收入成長超160倍,市值增長超2700倍公司是全球領(lǐng)先的GPU算力龍頭。公司于1993年由JensonHuang(黃仁勛)及來自于SunMicrosystem的兩位工程師ChrisMalachowsky和CurtisPriem創(chuàng)立,專注圖形計算芯片的設(shè)計與研發(fā),公司經(jīng)歷了起步積累、困境反轉(zhuǎn)、轉(zhuǎn)型升級和快速成長四個階段,并成長為全球AI算力領(lǐng)軍,根據(jù)Gartner預(yù)計,公司在全球AI芯片市場的市占率最高已經(jīng)達到90%。1.2三芯片四領(lǐng)域,構(gòu)筑全面產(chǎn)品矩陣基礎(chǔ)芯片層面,公司基于GPU技術(shù)路線,通過自研+并購形成GPU+CPU+DPU的三芯布局:(1)2000年推出全球首款GPU以來不斷進行迭代升級,目前GPU領(lǐng)域產(chǎn)品涵蓋消費級、工作站級、移動級到高性能計算的多種類型,即將在2024Q2出貨的H200TensorCoreGPU基于NVIDIAHopper?架構(gòu),F(xiàn)P16下算力達到989TFLOPS,同時是首款提供HBM3e的GPU,以每秒4.8TB的速度提供141GB內(nèi)存,與前身A100相比容量幾乎翻倍,帶寬增加2.4倍,針對GPT-3模型的推理性能是A100的18倍;(2)2020年收購Mellanox后推出的BlueFieldDCU能夠有效減少CPU負荷,提升整體系統(tǒng)性能,BlueField-3DPU與上一代相比,具備2倍的網(wǎng)絡(luò)帶寬、4倍的計算能力和幾乎5倍的內(nèi)存帶寬,能夠以高達8倍的速度運行工作負載,同時降低TCO并提高數(shù)據(jù)中心能效;(3)2021年推出的自研Grace系列CPU超級芯片基于ARMv9架構(gòu)設(shè)計,相較于現(xiàn)有數(shù)據(jù)中心使用的x86CPU,運行微服務(wù)的速度快2.3倍,內(nèi)存密集型數(shù)據(jù)處理性能快2倍,在多個技術(shù)計算應(yīng)用上運行流體力學(xué)計算工作時速度快1.9倍;為了進一步滿足巨型人工智能和高性能計算工作負載的需求,公司還發(fā)布了將GraceCPU和HopperGPU封裝在一起的GraceHopperSuperchip,以及將兩個GraceCPU在同一款PCB上互聯(lián)的GraceSuperchip;行業(yè)客戶層面,公司布局了游戲、數(shù)據(jù)中心、專業(yè)可視化、自動駕駛市場四大領(lǐng)域:(1)數(shù)據(jù)中心:公司2016年至今以及未來長期的增長點。公司為云廠商(CSP)、企業(yè)、公共部門的數(shù)據(jù)中心、智算中心、超算中心提供基于CPU+GPU+DPU芯片、IB+以太網(wǎng)等網(wǎng)絡(luò)設(shè)備的硬件系統(tǒng),以及AI加速庫、開發(fā)工具、應(yīng)用等軟硬件一體的解決方案;隨著云端數(shù)據(jù)中心需求的爆發(fā)以及公司三芯布局的形成,公司數(shù)據(jù)中心業(yè)務(wù)近五年收入復(fù)合增速高達74.56%、近三年復(fù)合增速高達92.18%,2023年全年實現(xiàn)收入475.25億美元,同比+216.73%,其中2023Q4實現(xiàn)收入184.04億美元,同比+409%;公司自2011年的TeslaM2090開始不斷更新迭代數(shù)據(jù)中心產(chǎn)品,下一代B100采用Blackwell架構(gòu),將使用臺積電的4nm工藝,與現(xiàn)有采用Hopper架構(gòu)的H200系列相比,性能提升超過100%。(2)游戲業(yè)務(wù):公司的起家業(yè)務(wù)和基本盤,以先進技術(shù)引領(lǐng)行業(yè)發(fā)展。公司提供分別面向PC和筆記本的GeForce系列RTX和GTX顯卡硬件、可在性能不足的設(shè)備上玩PC游戲的GeForceNOW云游戲服務(wù)、在電視上播放高質(zhì)量流媒體的SHIELD服務(wù)以及用于游戲機的平臺和開發(fā)服務(wù);隨著挖礦浪潮的興起以及公司光追系列顯卡的推出,公司游戲業(yè)務(wù)近五年復(fù)合增長率達到10.91%,2023年全年實現(xiàn)收入104.82億美元,同比+15.61%,其中2023Q4實現(xiàn)收入29億美元,同比+56%,為其他業(yè)務(wù)提供了穩(wěn)定的現(xiàn)金流;游戲業(yè)務(wù)見證了公司的成長史,每一代微架構(gòu)的升級都帶來了性能的顯著提升:2018年公司推出的首款支持實時光線追蹤的Turing架構(gòu)GeForceRTX2080顯卡,可以在游戲中通過模擬光線的物理行為,實現(xiàn)電影級質(zhì)量的實時渲染,引領(lǐng)了3A大作發(fā)展的方向;公司推出的DLSS(深度學(xué)習(xí)超級采樣抗鋸齒)技術(shù)在不影響游戲性能的同時,能提供與TAA抗鋸齒技術(shù)幾乎相同的畫質(zhì),根據(jù)快科技測試,RTX2080DLSS的性能領(lǐng)先上一代GTX1080TAA達到了80%。(3)專業(yè)可視化:專業(yè)圖形領(lǐng)域領(lǐng)導(dǎo)者。公司為獨立軟件供應(yīng)商(ISV)合作,為在設(shè)計與制造環(huán)節(jié)與數(shù)字內(nèi)容創(chuàng)作環(huán)節(jié)的3D藝術(shù)家、建筑師和產(chǎn)品設(shè)計師等提供從桌面到云端的RTX和Quadro解決方案;隨著大模型的興起,企業(yè)工作站也開始進行更新迭代,2023年全年實現(xiàn)收入12.72億美元,同比-3.56%,其中2023Q4實現(xiàn)收入4.63億美元,同比+105%。(4)自動駕駛:前瞻布局的中長期增長業(yè)務(wù)。公司通過DRIVE系列品牌,為交通運輸業(yè)構(gòu)建出軟件定義的端到端平臺及解決方案,客戶可以基于該平臺快速高效地開發(fā)自動駕駛產(chǎn)品;硬件端包括Orin、Atlan、以及將于2025年投入生產(chǎn)的ThorSOC,軟件端包括針對車載加速計算率先推出的安全操作系統(tǒng)OS,針對自動駕駛汽車開發(fā)的DriveWorks中間件,包含感知、地圖構(gòu)建和規(guī)劃層的AV軟件棧,AI輔助駕駛平臺Chauffeur,為AI駕駛艙創(chuàng)新解決方案提供艙內(nèi)感知的開放軟件平臺IX,實現(xiàn)實時對話式AI的Concierge,使用準確的真值地圖和可擴展的車隊來源地圖來創(chuàng)建和更新自動駕駛汽車地圖Map等產(chǎn)品;2023年全年實現(xiàn)收入10.90億美元,同比-17.36%,其中2023Q4實現(xiàn)收入2.81億美元,同比+24.34%。1.3三十年專注的高研發(fā)投入,奠定高業(yè)績成長基石與Intel、AMD相比,CUDA軟件生態(tài)帶來的毛利率、凈利率優(yōu)勢明顯。公司上市以來毛利率及凈利率隨行業(yè)及業(yè)務(wù)的變化經(jīng)歷了三個階段:1)上市前至2003年,受公司與微軟就Xbox降價問題的影響,公司毛利率從2001年的37.92%下跌至2003年的29.01%、利潤率則從12.92%下降至4.08%,后續(xù)隨著公司與Intel、索尼簽單,毛利率、凈利率逐步回升;2)2004-2008年,受全球經(jīng)濟危機、研發(fā)CUDA初期的技術(shù)不成熟影響,當(dāng)時的G84/G86核心產(chǎn)品出現(xiàn)了過熱而導(dǎo)致花屏的“顯卡門”事件,公司毛利率從2007年的45.62%下跌至2008年的34.29%,利潤率則從19.46%轉(zhuǎn)負為-0.88%,后續(xù)隨著2009年Fermi架構(gòu)的GPU推出,毛利率、凈利率實現(xiàn)了快速修復(fù);3)2009年至今,在全球經(jīng)濟復(fù)蘇以及CUDA帶來的軟件生態(tài)優(yōu)勢拉動下,與Intel、AMD相比,公司毛利率、利潤率開始呈現(xiàn)明顯領(lǐng)先的上升態(tài)勢,毛利率持續(xù)上行從2008年的34.29%提升至2023年的72.7%、凈利率也同步從-0.88%大幅提升至48.85%。公司常年專注投入研發(fā),研發(fā)費用處于高位水平。上市以來,公司通過“三團隊-兩季度”的研發(fā)模式以及聚焦GPU研發(fā),實現(xiàn)了在單一領(lǐng)域與友商相比更高的研發(fā)投入:1)在1999-2005年與ATI的競爭中,公司的研發(fā)費用從1999年的0.32億美元快速提升至2005年的3.52億美元,CAGR達到61.54%;2)在2006至今與AMD的競爭中,公司的研發(fā)費用從2005年的3.6億美元快速提升至2023年的86.75億美元,CAGR達到19.34%;與AMD相比,2005年公司研發(fā)投入為AMD的32.73%,而18年后的2023年,公司研發(fā)投入已是AMD的1.47倍;同時由于公司聚焦GPU的研發(fā)而AMD則需要同時對CPU進行投入并于Intel展開競爭,我們估計2023年在GPU領(lǐng)域的研發(fā)投入倍數(shù)將大于1.47。憑借超強的研發(fā)投入實現(xiàn)了強大的產(chǎn)品力,銷售及管理費用率從常年的10%逐步下降。公司上市以來銷售費用率穩(wěn)定在10%并呈逐步下降趨勢;2021年銷售及管理費用率從10.01%提升至11.63%,主要原因是收購Mellanox;2023年,由于公司數(shù)據(jù)中心業(yè)務(wù)的爆發(fā),公司銷售及管理費用率下降至4.36%。2歷史復(fù)盤:用產(chǎn)品定義算力發(fā)展史2.12000年前:從“狂野西部”通用圖形計算起步,憑借更加高效的研發(fā)模式、綁定大客戶微軟勝出并定義世界首款GPU“PreGPU”時期,圖形計算芯片技術(shù)快速迭代,百家爭鳴:上世紀90年代初,高性能圖像主要用于圖形工作站和視頻游戲機中,1995年微軟推出的Windows95具備音視頻等多媒體功能、大量3D渲染游戲登錄PC平臺、圖形芯片集成度提升推動了3D圖像市場的發(fā)展;因而“PreGPU”時期的圖形計算芯片技術(shù)路線經(jīng)歷了單純輔助CPU進行圖形顯示、可進行2D加速計算、可進行3D加速計算、具備固定的渲染管線四個階段,S3、ATI、AMD、英偉達、3DFX等眾多大小玩家展開激烈競爭,一度形成“百家爭鳴”局面,激烈的市場競爭帶來的是圖形處理芯片的快速迭代和演進。英偉達成立初期專注圖形計算芯片的PC消費市場:1993年,JensonHuang(黃仁勛)及來自于SunMicrosystem的兩位工程師ChrisMalachowsky和CurtisPriem認為個人電腦將會成為游戲、多媒體的主流消費設(shè)備,因而共同創(chuàng)立了英偉達(Nvidia),專注于圖形計算芯片的設(shè)計與研發(fā)。1994-2000年公司完成了技術(shù)和產(chǎn)品積累:1994年,公司與意法半導(dǎo)體首次開展戰(zhàn)略合作,意法半導(dǎo)體為公司制造單芯片圖形用戶界面加速器;1995年,公司發(fā)布首款產(chǎn)品NV1;1997年,公司推出RIVA128系列產(chǎn)品,憑借高性能+低結(jié)構(gòu)成本而廣受市場好評,出貨量超過100萬臺,在性能方面甚至優(yōu)于英特爾于下一年推出的i740,而Intel則逐步退出了獨立顯卡市場;1998年,公司與臺積電建立合作伙伴關(guān)系,自此OEM成為公司重要的銷售模式;1999年,公司推出了世界第一款GPU——GeForce256,整合了關(guān)鍵的硬件變換和光照(T&L)、立方環(huán)境材質(zhì)貼圖和頂點混合、紋理壓縮和凹凸映射貼圖、雙重紋理四像素256位渲染引擎等功能,并且兼容DirectX和OpenGL兩大通用API;2000年,公司成功收購曾在1995年推出消費領(lǐng)域史上第一款3D圖形加速卡Voodoo的圖形顯卡先驅(qū)3dfx。在圖形市場發(fā)展初期,面對技術(shù)及標準不成熟、行業(yè)迭代速度快且競爭激烈等難題,公司憑借“三團隊-兩季度”的更快速高效的研發(fā)運營模式比競爭對手更加快速地響應(yīng)下游需求的變化、推出全面的產(chǎn)品矩陣、果斷綁定大客戶微軟實現(xiàn)了份額的快速提升,從而在競爭中勝出:(1)研發(fā)上,公司采用了“三團隊-兩季度”的高效研發(fā)模式實現(xiàn)了技術(shù)和產(chǎn)品的快速迭代:圖形市場產(chǎn)品研發(fā)周期包括短周期(6-9個月)和長周期(12-18個月)兩類,公司則采用“三團隊-兩季度”的研發(fā)模式,即采用三個并行開發(fā)團隊專注于第一年秋季、第二年春季、第二年秋季這三個獨立的分階段產(chǎn)品開發(fā),這使得公司可以每6個月推出一次新產(chǎn)品,領(lǐng)先市場1-2個研發(fā)周期,能夠更快滿足下游需求的變化;(2)產(chǎn)品上,公司不斷豐富產(chǎn)品矩陣:公司在GeForce256時代便通過DDR、SDR和TNT三個系列實現(xiàn)了高中低端的全面布局;(3)戰(zhàn)略上,公司綁定大客戶微軟:NV1由于不兼容競爭3dfx的GLIDE3D主流技術(shù)標準、成本高、無性能優(yōu)勢因而市場表現(xiàn)平平,公司一度陷入破產(chǎn)的邊緣;此時公司做出了重大決定:支持當(dāng)時微軟剛剛推出的Direct3D標準與GLIDE進行競爭,依靠著Windows95操作系統(tǒng)的高占有率,英偉達Riva128顯卡出貨量逐漸上升并超越3dfx,后續(xù)憑借GeForce256擴大優(yōu)勢并最終收購3dfx。2.22000-2005:客戶多元化,通過性能優(yōu)勢掌握PC獨顯龍頭地位GPU時代初期,大客戶微軟引領(lǐng)圖形硬件標準,圖形顯卡雙雄局面形成:2001年,微軟發(fā)布了包含全新ShaderModel(優(yōu)化渲染引擎模式)1.0標準的DirectX8.0,由于遵循這一接口標準的GPU具備頂點和像素的可編程性,微軟開始引領(lǐng)圖形硬件標準,圖形顯卡領(lǐng)域呈現(xiàn)英偉達、ATI(后被AMD收購)雙寡頭的局面。2001-2005年,與微軟合作失敗后,公司積極尋求多元客戶支持,并通過產(chǎn)品性能再度占據(jù)PC獨顯龍頭地位:(1)2000年公司為微軟首款Xbox游戲機提供圖形處理器,但因交付價格問題產(chǎn)生矛盾而失去了訂單(改為競爭對手ATI供應(yīng)),這使得公司2003年營收減少,錯過了微軟DirectX9規(guī)格確立的重要消息,直接導(dǎo)致當(dāng)年推出的GeForceFX由于兼容性問題敗給ATI的Radeon9700;(2)面對困境,公司積極尋求多元客戶支持:1)主動與微軟和解,爭取再次合作;2)和Intel達成了專利交叉許可協(xié)議;3)爭取到為索尼PS3游戲機開發(fā)處理器的訂單、與暴雪娛樂合作發(fā)布基于3D圖形世界的全球大型多人在線游戲《魔獸世界》;(3)持續(xù)迭代:2004年,公司汲取以往教訓(xùn)推出全新的GeFroce6800Ultra,并憑借優(yōu)異的產(chǎn)品性能再次奪回GPU老大的地位;至2006年,ATI被AMD斥資達54億美元收購,后續(xù)專向中低端市場,自此公司牢牢掌控了GPU高端市場并重回增長軌道;2.32006-2015:以游戲業(yè)務(wù)筑基,培育以CUDA為核心的通用計算體系因時機和定位失誤,錯失手機終端機遇:2006-2011年,以智能手機為代表的移動終端逐步興起,2010年功能與設(shè)計理念領(lǐng)先業(yè)界3年的劃時代產(chǎn)品iPhone4帶來了全球智能手機滲透率的二階導(dǎo)拐點,2009-2015年智能手機滲透率從14.38%提升至74.08%;公司早在2003年便開始通過收購布局移動端圖像芯片,認為未來能實現(xiàn)通話和多媒體功能的手機將成為重要市場,此后的2008年公司依靠平板和游戲機的優(yōu)勢推出了針對移動端的Tegra,但由于高通憑借基帶技術(shù)占據(jù)主流,而Tegra后續(xù)芯片未能及時整合基帶技術(shù)而無法及時占領(lǐng)市場,公司因而錯失了移動時代機遇,此后公司果斷放棄手機市場并將Tegra處理器運用在智能汽車、智慧城市和云端服務(wù)上。超前推出CUDA進軍GPGPU,開始構(gòu)建生態(tài)護城河:(1)讓只做3D渲染的GPU技術(shù)通用化:早期的GPU使用頂點著色單元和像素渲染單元兩種計算資源,兩種處理器數(shù)量的最佳比例是隨應(yīng)用的變化而變化的,因此經(jīng)常出現(xiàn)一種處理器不夠用、而另一種處理器閑置的情況,公司首席科學(xué)家DavidKirk認為給GPU裝備一組完全相同的、具有較強編程能力的內(nèi)核,根據(jù)任務(wù)情況在頂點和片元處理任務(wù)之間動態(tài)分配可以極大程度提升PC的計算性能,同時將豐富的并行運算資源分享給開發(fā)者,便可具備重要的戰(zhàn)略意義,因而公司開始投入大量研發(fā)資源。(2)堅定方向鋪長路:2006年,公司推出了能夠讓GPU計算變得通用化的CUDA(ComputeUnifiedDeviceArchitecture)編程技術(shù),并讓公司的每一顆GPU都支持CUDA;2007年,公司推出了不具備繪圖能力的第一代大規(guī)模并行運算芯片Tesla;CUDA初期投入成本較高,并給公司帶來了較大的業(yè)務(wù)壓力:1)在技術(shù)方面,芯片面積增大、散熱增加、成本上升、故障率增高,直接導(dǎo)致后續(xù)G84/G86核心的產(chǎn)品出現(xiàn)了過熱而導(dǎo)致花屏的“顯卡門”事件,而公司也因此付出了近2億美元的一次性支出代價來解決產(chǎn)品質(zhì)量問題;2)在研發(fā)上,保證每款產(chǎn)品的軟件驅(qū)動都支持CUDA,會對公司的工程師帶來巨大的額外工作量;3)在資金上,一旦項目啟動,在當(dāng)時每年公司預(yù)估要在核心業(yè)務(wù)關(guān)系并不緊密的CUDA平臺上投資高達5億美元,而2006年公司總收入30.68億美金;4)在外部環(huán)境上,2008年CPU巨頭AMD收購公司對手ATI并形成了CPU整合GPU的新解決方案;Intel也終止了與英偉達的合作并在自家芯片組中集成了3D圖形加速器;2008年經(jīng)濟危機也導(dǎo)致了全球PC和獨顯出貨量同時出現(xiàn)了負增長;(3)公司在內(nèi)憂外困的情況下仍然堅持投入研發(fā),研發(fā)費用逐年攀升:2009年公司推出Fermi架構(gòu)的GPU,因而經(jīng)營得以快速恢復(fù),再次奪回市場領(lǐng)先地位,此后公司通過制程的進步及芯片設(shè)計的優(yōu)化持續(xù)迭代引領(lǐng)行業(yè);根據(jù)創(chuàng)事記,事后來看,公司在將GPU轉(zhuǎn)化為更通用的計算工具上投入了將近100億美元;(4)通用計算價值初現(xiàn),應(yīng)用領(lǐng)域拓展:CUDA拓展了GPU的應(yīng)用領(lǐng)域,讓只做3D渲染的GPU得以從游戲(圖形渲染)向外擴展至高性能計算、自動駕駛等多個領(lǐng)域,結(jié)合前期在游戲、移動領(lǐng)域的積累,公司逐步形成四大產(chǎn)品線:GeForce(PC、筆記本)、Quadro(工作站)、Tesla(大型高性能計算)、Tegra(移動產(chǎn)品);(5)2006年以來,公司持續(xù)推進CUDA通用計算生態(tài)建設(shè):1)架構(gòu)端,公司每2年推出一個微架構(gòu),并對四大產(chǎn)品線進行全面升級;2)硬件端,公司2019年收購了網(wǎng)絡(luò)芯片龍頭Mellanox,并形成了CPU+GPU+DPU三芯布局;3)軟件端,公司研發(fā)了大量的加速庫、開發(fā)工具鏈,極大程度提升了易用性;最終公司形成了快速迭代的硬件+深度捆綁的軟硬件+大量外圍的二次開發(fā)者和易用的軟件生態(tài)三位一體的生態(tài)飛輪。終端多元化背景下,聚焦高端游戲卡穩(wěn)定增長態(tài)勢:2012年,平板電腦、筆記本電腦等終端的多元化使得PC出貨開始呈下降趨勢,同時集顯性價比的逐步提升擠占了獨顯市場空間,公司戰(zhàn)略聚焦高端游戲卡,通過GeForce系列站穩(wěn)腳跟;根據(jù)公司披露,2010-2015年公司游戲業(yè)務(wù)收入五年CAGR達到21%,游戲顯卡出貨量五年CAGR為9%、ASP五年CAGR為11%,游戲業(yè)務(wù)實現(xiàn)了逆勢增長,并為公司創(chuàng)造了確定的業(yè)績增長與健康的現(xiàn)金流,奠定了通用GPU和AI業(yè)務(wù)爆發(fā)的基石。2.42016至今:CUDA開花結(jié)果,云端數(shù)據(jù)中心業(yè)務(wù)開啟新一輪成長曲線2016年至今,算力需求側(cè)經(jīng)歷了大數(shù)據(jù)及云服務(wù)(2016-2018)、云端辦公和娛樂(2020-2021)、云端AI訓(xùn)練(2023至今)三大階段,公司借助CUDA成長為全球算力龍頭。2.4.12016-2019:大數(shù)據(jù)與云服務(wù)階段,憑借GPU的通用性登上數(shù)據(jù)中心芯片王座大數(shù)據(jù)催生數(shù)據(jù)上云需求。2016-2018年,大數(shù)據(jù)的發(fā)展及移動互聯(lián)網(wǎng)流量產(chǎn)生的海量數(shù)據(jù)催生了數(shù)據(jù)上云的需求,同時分布式編程模式MapReduce、分布存儲和管理技術(shù)、虛擬化技術(shù)等關(guān)鍵技術(shù)的成熟使得云服務(wù)能給客戶帶來的的經(jīng)濟價值提升,海外云廠商紛紛自建大規(guī)模數(shù)據(jù)中心,2016-2017年,亞馬遜、微軟、谷歌、Meta四大云廠商Capex從309.62億美元增長至405.66億美元,資本支出同比增長31%。CUDA積累的GPU通用能力直接帶來公司數(shù)據(jù)中心業(yè)務(wù)爆發(fā)。海量數(shù)據(jù)帶來的計算需求激增,公司通過開發(fā)CUDA將GPU實現(xiàn)了通用化,2016年推出的Pascal架構(gòu)的P100具備3840個CUDA核,在海量數(shù)據(jù)的并行運算上具備顯著優(yōu)勢,公司憑借Tesla系列V100、T4、P100、P4等產(chǎn)品拔得頭籌。在Liftr與2019年進行的調(diào)查中顯示,公司的Tesla系列產(chǎn)品在阿里云、亞馬遜AWS、微軟Azure、谷歌GCP四大云廠商中的專用加速器占有率分別為82%、89%、100%和100%,呈現(xiàn)絕對龍頭地位;根據(jù)海豚投研,公司在TOP500系統(tǒng)中的份額從2016年的6%迅速增長至2017年的24%,一年內(nèi)增長了3倍。2.4.22020-2022:云端辦公和娛樂階段,收購整合打造最強數(shù)據(jù)中心異構(gòu)芯片+高速互聯(lián)+網(wǎng)絡(luò)安全解決方案體系護城河衛(wèi)生事件帶來的云端辦公和娛樂需求驅(qū)動了云廠商的第二輪數(shù)據(jù)中心建設(shè)周期,數(shù)據(jù)處理及帶寬互聯(lián)是關(guān)鍵。2020年,衛(wèi)生事件導(dǎo)致全球生產(chǎn)經(jīng)營和日?;顒佣际艿搅擞绊懀呱似髽I(yè)上云、人民消費娛樂上云的需求,亞馬遜、微軟、谷歌、Meta四大云廠商合計Capex從2020Q1至2022Q4連續(xù)12個季度保持同比20%以上的高速增長,云廠商開啟了第二輪建設(shè)周期;同時,企業(yè)要求數(shù)據(jù)中心除了簡單的存儲以外,能夠?qū)崿F(xiàn)一定程度的數(shù)據(jù)分析,虛擬機和容器(containers)等技術(shù)的流行也使得應(yīng)用程序更多放在多臺服務(wù)器上進行分布式運行,這兩大趨勢要求未來的數(shù)據(jù)中心需要同時具備大規(guī)模數(shù)據(jù)處理能力和高帶寬互連技術(shù)。收購整合構(gòu)筑數(shù)據(jù)中心上下游一體的體系化護城河。公司于2019年斥資69億美金收購了InfiniBand和以太網(wǎng)領(lǐng)軍Mellanox,而Mellanox則在2020年收購了網(wǎng)絡(luò)安全和智能IP提供商TitanIC,該套娃式收購大大提升了公司云端AI產(chǎn)品體系的競爭力,將公司在單機上的生態(tài)優(yōu)勢成功拓展到了分布式集群中:分布式訓(xùn)練對于數(shù)據(jù)交互的需求非常高,而Mellanox的數(shù)據(jù)互聯(lián)方案+英偉達的GPU底層接口可以成為完善的工程解決方案,TitanIC提供的網(wǎng)絡(luò)安全和內(nèi)容智能又能夠?qū)崿F(xiàn)在硬件加速器中檢測惡意入侵的網(wǎng)絡(luò)流量并減少了CPU負載,最終公司構(gòu)建起了包含人工智能芯片及生態(tài)+高速數(shù)據(jù)互聯(lián)解決方案+網(wǎng)絡(luò)安全加速的橫跨多個領(lǐng)域的完整方案。DPU專為減少CPU負荷、進一步提升大規(guī)模數(shù)據(jù)中心系統(tǒng)效率而生。數(shù)據(jù)大爆發(fā)的時代,仍存在CPU處理效率低下、GPU處理不了的負載,如網(wǎng)絡(luò)虛擬化、硬件資源池化等基礎(chǔ)設(shè)施層服務(wù),DPU可作為CPU的卸載引擎,通過承擔(dān)網(wǎng)絡(luò)、存儲、安全等業(yè)務(wù),提升整個計算系統(tǒng)的效率、降低整體系統(tǒng)的總體擁有成本(TCO)。公司集成CPU+GPU+DPU形成三芯異構(gòu)硬件布局,實現(xiàn)數(shù)據(jù)中心芯片體系的“降本增效”。公司在2020年憑借Mellanox原有的ConnectX系列高速網(wǎng)卡技術(shù),推出了DPU(數(shù)據(jù)處理器)BlueField-2,并在2021年推出了匹配的DOCA(Data-Center-InfrastructrueOn-A-Chip-Architectrue,即“線上數(shù)據(jù)中心基礎(chǔ)設(shè)施體系結(jié)構(gòu)”)生態(tài),BlueField系列DPU在支持網(wǎng)絡(luò)處理、安全和存儲功能的同時,實現(xiàn)網(wǎng)絡(luò)虛擬化、硬件資源池化等基礎(chǔ)設(shè)施層服務(wù),同時可釋放高達30%的CPU資源;而DOCA軟件框架使開發(fā)者能夠在BlueFieldDPU上快速創(chuàng)建應(yīng)用程序和服務(wù),為開發(fā)者構(gòu)建軟件定義、硬件加速網(wǎng)絡(luò)、存儲、安全和其他基礎(chǔ)設(shè)施應(yīng)用程序提供了一個全面的開放平臺。2.4.32023至今:大模型浪潮引爆公司數(shù)據(jù)中心業(yè)務(wù)成長GPT本質(zhì)是基于Transformer架構(gòu)的大模型。GPT,全稱"GenerativePre-trainingTransformer",最初是一個由OpenAI開發(fā)的自然語言處理(NLP)的模型,通過預(yù)訓(xùn)練和生成技術(shù)以及Transformer的自注意力機制,可以理解和生成人類的自然語言,比傳統(tǒng)的RNN、CNN更快、更穩(wěn)定、準確率更高、回答更富有邏輯性、并具備強大的泛化能力。大模型對于算力的需求體現(xiàn)在模型訓(xùn)練和推理應(yīng)用兩個階段:(1)訓(xùn)練階段:根據(jù)OpenAI的論文《ScalingLawsforNeuralLanguageModels》(2020年發(fā)表),訓(xùn)練階段算力需求=3×前向傳遞操作數(shù)×模型參數(shù)數(shù)量×訓(xùn)練集規(guī)模,訓(xùn)練所需GPU數(shù)量=總算力需求/(每個GPU每秒運算能力×訓(xùn)練時間×有效算力比率),因此我們可以得到,單次訓(xùn)練GPT-4需要約2.65萬張A100。(2)推理階段:同樣根據(jù)openAI論文可以得到,單次GPT-4推理所需要的算力成本約為0.05美分,按照AIPRM統(tǒng)計,截至2023年12月,ChatGPT擁有約1.8億用戶,平均每月產(chǎn)生17億次網(wǎng)站瀏覽量,則平均每天訪問次數(shù)為567萬次,假設(shè)每次訪問進行10輪推理對話,則平均每秒進行推理次數(shù)為17/30*10/3600*10^8≈157407次,對應(yīng)GPT-4需要A100為27.7萬張。大模型引爆算力需求。根據(jù)IDC預(yù)計,數(shù)據(jù)中心GPU市場預(yù)計將從2022年的103億美元增長至2027年的654億美元,CAGR達到44.55%;AMD報告顯示,2023年全球AI芯片市場規(guī)模會達450億美元左右,預(yù)計2027年將增長到4000億美元,2023年-2027年復(fù)合增速超過70%。公司憑借數(shù)據(jù)中心產(chǎn)品和生態(tài)體系一飛沖天。公司2023Q3-2023Q4,數(shù)據(jù)中心業(yè)務(wù)收入分別達到145.14、184.04億,同比增速達到278.66%、408.96%;截至2024年3月27日,市值達到2.3萬億美元,較2023年初漲幅超過530%。順勢而為切入云端定制ASIC。由于算力成本高企,云計算公司紛紛開始自研芯片以部分替代英偉達產(chǎn)品,根據(jù)財聯(lián)社,2月9日消息人士透露,英偉達正在建立一個新的業(yè)務(wù)部門,專注于為云計算等公司設(shè)計定制芯片以及先進的人工智能(AI)處理器;我們認為公司此舉既能減少客戶自研芯片帶來的替代壓力,又能為長期芯片走向降本化、定制化提前做好準備。我們認為,從10年維度下的長期視角來看,單位算力成本的下降是確定的趨勢,根據(jù)CSET報告《AIChips:WhatTheyAreandWhyTheyMatter》,與GPU相比,ASIC芯片在訓(xùn)練上的效率平均約為10倍、推理上的效率約為100倍,因而隨著大模型的發(fā)展逐步進入成熟期,ASIC的芯片市場規(guī)模有望逐步提升,根據(jù)研究公司650Group的AlanWeckel的估計,數(shù)據(jù)中心定制芯片市場今年將增長到高達100億美元,到2025年將翻一番。前瞻布局移動基站,劍指邊緣計算。根據(jù)新浪財經(jīng)、財聯(lián)社,英偉達正在與電信基礎(chǔ)設(shè)施建設(shè)者愛立信就一款包含芯片設(shè)計公司的圖形處理單元(GPU)技術(shù)的無線芯片進行談判,同時軟銀和英偉達將聯(lián)合成立一個新的行業(yè)協(xié)會“AI-RAN聯(lián)盟”,電信巨頭愛立信、諾基亞等全球約10家公司也將參加其中,致力于將利用移動通信基站分散AI處理的技術(shù)實用化。我們認為長期看,未來AI算力增量需求場景將逐步由云向邊緣、端側(cè)轉(zhuǎn)移,公司有望在邊緣側(cè)復(fù)制云端的成功經(jīng)驗。根據(jù)TDIA預(yù)計,2023年底全球5G基站將突破480萬個,650Group的Weckle預(yù)計電信定制芯片市場每年約為40億至50億美元。3巨頭成長之路總結(jié):專注帶來前瞻,通用誕生生態(tài)3.1專注計算芯片,帶來前瞻戰(zhàn)略思維專注GPU,保持高強度研發(fā)投入。英偉達以圖形處理器起家,1999年,英偉達發(fā)布了世界上第一個正式的GPU——GeForce256。隨后,公司持續(xù)加大研發(fā)投入,深耕GPU領(lǐng)域,無論是游戲顯卡、數(shù)據(jù)中心加速卡、自動駕駛芯片、可視化領(lǐng)域,英偉達不斷推展產(chǎn)品終端用戶群體的同時,始終保持GPU產(chǎn)品的研發(fā)和迭代。公司研發(fā)費用率常年保持在20%-30%,同時隨著營收規(guī)模的增長,研發(fā)人員以及研發(fā)金額也不斷攀升?!叭龍F隊兩季度”驅(qū)動創(chuàng)新。英偉達成立伊始,為了應(yīng)對圖形芯片市場激烈的競爭,采用“三團隊兩季度”的研發(fā)策略,將研發(fā)團隊分為產(chǎn)品、硬件、軟件三個團隊,每個團隊專注于自身負責(zé)領(lǐng)域以保證產(chǎn)品創(chuàng)新性,同時兩季度研發(fā)模式保證公司每六個月迭代一次產(chǎn)品,領(lǐng)先市場研發(fā)周期的同時,充分滿足下游市場需求。產(chǎn)品端:專注游戲顯卡領(lǐng)域競爭,迎合玩家需求快速迭代產(chǎn)品。2010年后,英偉達和AMD逐漸搶占其他公司份額,成為獨立顯卡領(lǐng)域唯二的巨頭。隨后在游戲顯卡領(lǐng)域,英偉達加速產(chǎn)品迭代速度以及性價比的提升,逐步提升市場份額,截止2023Q3,英偉達獨立顯卡市場份額達到81.50%。我們認為,正是公司專注于GPU研發(fā),帶來了游戲顯卡的快速迭代以及性價比的快速提升,牢牢抓住玩家需求,最終成長為市場龍頭。微架構(gòu)創(chuàng)新,從底層突破GPU性能與效率。公司自2006年自研的Tesla架構(gòu)開始。不斷更新GPU架構(gòu),平均兩年迭代一次GPU架構(gòu)。目前公司旗艦產(chǎn)品采用Hopper架構(gòu),采用臺積電4nm制程,下一代游戲顯卡RTX50系產(chǎn)品以及數(shù)據(jù)中心產(chǎn)品B100將采用Blackwell架構(gòu),將使用臺積電的4nm工藝,與現(xiàn)有采用Hopper架構(gòu)的H200系列相比,性能提升超過100%。公司GPU架構(gòu)發(fā)展歷程詳見圖27。前瞻性:預(yù)見CUDA生態(tài)的革命性。英偉達于2006年開發(fā)CUDA,從今天的眼光來看,這項決策領(lǐng)先了市場十年之久,對比另一家GPU巨頭AMD,AMD于2015年為了對標CUDA生態(tài)開發(fā)了ROCm,落后英偉達9年。3.2注重技術(shù)復(fù)用性,讓研發(fā)投入落到實處決策高效干脆,放棄手機芯片市場。2008年公司依靠平板和游戲機的優(yōu)勢推出了針對移動端的Tegra,但由于高通憑借基帶技術(shù)占據(jù)主流,而Tegra后續(xù)芯片未能及時整合基帶技術(shù)而無法及時占領(lǐng)市場,公司因而錯失了移動時代機遇,此后公司果斷放棄手機市場并將Tegra處理器運用在智能汽車、智慧城市和云端服務(wù)上。技術(shù)復(fù)用,開辟汽車芯片市場。2015年國際消費類電子產(chǎn)品展覽會上,英偉達發(fā)布新一代移動超級芯片TegraX1處理器,該處理器在性能上是上一代產(chǎn)品TegraK1的兩倍。該處理器適配NVIDIADRIVEPX汽車自動駕駛計算平臺,可處理來自12個車載攝像頭的視頻,以實現(xiàn)環(huán)繞視覺(Surround-Vision)和自動代客泊車(Auto-Valet)等功能。雖然英偉達在移動芯片領(lǐng)域折戟沉沙,但其技術(shù)上極強的復(fù)用性,最終使其成功轉(zhuǎn)向至汽車芯片領(lǐng)域。3.3重視通用性,引入生態(tài)共建GPGPU:通用化漫漫長路。GPU一開始只是為了圖形加速,替CPU分擔(dān)工作。其主要用于顯示圖像、視頻的編解碼與顯示、游戲渲染等工作,起初并不支持編程。在1999年之前甚至沒有GPU這一概念,只是稱為圖形加速卡。英偉達發(fā)現(xiàn)了GPU在并行計算方面的優(yōu)勢,并且在科學(xué)、工程和人工智能領(lǐng)域,許多問題都可以通過并行計算來加速解決。CUDA出現(xiàn)之前,GPU的編程面臨多重挑戰(zhàn):1)編程模型不足:沒有一種通用的編程模型來利用GPU的計算能力。開發(fā)人員需要使用低級別的圖形API(如OpenGL或Direct3D)來執(zhí)行計算任務(wù)。這些API并不專門用于通用計算,因此編寫代碼變得復(fù)雜且容易出錯。2)數(shù)據(jù)傳輸成本高:將數(shù)據(jù)從CPU傳輸?shù)紾PU的成本很高。這涉及到數(shù)據(jù)的復(fù)制和傳輸,而這些操作會降低性能。3)無法發(fā)揮并行性:開發(fā)人員需要手動管理GPU并行性,這對于復(fù)雜的計算任務(wù)來說是巨大的人力成本。降低開發(fā)者門檻,讓GPU真正意義上“可編程”。在經(jīng)GPU加速的應(yīng)用中,工作負載的串行部分在CPU上運行,且CPU已針對單線程性能進行優(yōu)化,而應(yīng)用的計算密集型部分則以并行方式在數(shù)千個GPU核心上運行。使用CUDA時,開發(fā)者使用主流語言(如C、C++、Fortran、Python和MATLAB)進行編程,并通過擴展程序以幾個基本關(guān)鍵字的形式來表示并行性。英偉達的CUDA工具包提供了開發(fā)GPU加速應(yīng)用所需的一切。TensorRT基于CUDA平臺并行編程模型構(gòu)建,使開發(fā)者能夠在英偉達GPU產(chǎn)品上使用量化、層和張量融合、內(nèi)核調(diào)整等技術(shù)來優(yōu)化推理。TensorRT是英偉達基于CUDA一款用于高性能深度學(xué)習(xí)推理的SDK(SoftwareDevelopmentKit),使用門檻相對較低,可以運用C++、PythonAPI導(dǎo)入和加速模型。TensorRT在低門檻開發(fā)的同時,能夠最大化挖掘GPU性能。NVIDIATensorRT-LLM是一個開源庫,可加速和優(yōu)化NVIDIAAI平臺上最新大型語言模型(LLM)的推理性能,而無需深入了解C++或CUDA。CUDA平臺允許開發(fā)者利用英偉達的GPU來加速計算密集型任務(wù)。在全球范圍內(nèi),許多行業(yè)領(lǐng)軍者采用CUDA平臺最大化其GPU性能。我們認為,正是公司CUDA低門檻的特性、GPU過硬的性能,引入了大批開發(fā)者建設(shè)CUDA生態(tài)社區(qū),最終CUDA綁定了數(shù)百萬AI開發(fā)者,當(dāng)CUDA幾乎與AI畫等號的時候,會有大量的社區(qū)力量為其助力。這就是一種良性循環(huán):好的性能帶來好的生態(tài),好的生態(tài)會有助于更好的性能。最終幫助英偉達構(gòu)建了強大的CUDA生態(tài)護城河。4國內(nèi)相關(guān)公司:逐步追趕,國產(chǎn)化趨勢已現(xiàn)4.1華為昇騰:對標英偉達,有望成為國內(nèi)第二AI算力生態(tài)昇騰處理器支持全場景。昇騰處理器是全球首個覆蓋全場景AI芯片,基于統(tǒng)一的達芬奇架構(gòu),可以支持端邊云不同場景的差異化算力需求,并具備從幾十毫瓦IP到幾百瓦芯片的平滑擴展,覆蓋了端邊云全場景部署的能力:昇騰910訓(xùn)練處理器具有超高算力,F(xiàn)P16下性能最高可達320TFLOPS。昇騰910集成了CPUCore、DVPP和任務(wù)調(diào)度器(TaskScheduler),可以減少和HostCPU的交互,充分發(fā)揮其高算力的優(yōu)勢;還集成了HCCS、PCle4.0和ROCEv2接口,為構(gòu)建橫向擴展(ScaleOut)和縱向擴展(ScaleUp)系統(tǒng)提供了靈活高效的方法,科大訊飛創(chuàng)始人、董事長劉慶峰表示華為的GPU能力可以對標英偉達A100;華為昇騰AI產(chǎn)業(yè)生態(tài)包括昇騰AI基礎(chǔ)軟硬件平臺,即Atlas系列硬件、異構(gòu)計算架構(gòu)CANN、全場景AI框架昇思MindSpore、昇騰應(yīng)用使能MindX以及一站式開發(fā)平臺ModelArts等?;跁N騰910系列板卡,華為推出了AI訓(xùn)練集群Atlas900、AI訓(xùn)練服務(wù)器Atlas800、智能小站Atlas500、AI推理與訓(xùn)練卡Atlas300和AI加速模塊Atlas200,完成了Atlas全系列產(chǎn)品布局,支持萬億參數(shù)大模型訓(xùn)練,同時覆蓋云、邊、端全場景。華為提出了具備分層開放、體系協(xié)同、敏捷高效、安全可信等特征的,全行業(yè)通用的行業(yè)智能化參考架構(gòu)。其中智能底座提供大規(guī)模AI算力、海量存儲及并行計算框架,支撐大模型訓(xùn)練,提升訓(xùn)練效率,提供高性能的存算網(wǎng)協(xié)同。根據(jù)場景需求不同,提供系列化的算力能力。適應(yīng)不同場景,提供系列化、分層、友好的開放能力。另外,智能底座層還包含品類多樣的邊緣計算設(shè)備,支撐邊緣推理和數(shù)據(jù)分析等業(yè)務(wù)場景。4.2海光信息:類CUDA帶來更好的生態(tài)兼容性海光DCU屬于GPGPU的一種。性能上,海光深算一號DCU內(nèi)核頻率、顯存位寬已逐步接近英偉達A100,在顯存容量、帶寬、算力、互聯(lián)性能上仍有一定的進步空間;深算二號已于2023年Q3發(fā)布,實現(xiàn)了在大數(shù)據(jù)處理、人工智能、商業(yè)計算等領(lǐng)域的商業(yè)化應(yīng)用,具有全精度浮點數(shù)據(jù)和各種常見整型數(shù)據(jù)計算能力,性能相對于深算一號實現(xiàn)了翻倍的增長;深算三號研發(fā)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 高級衛(wèi)生專業(yè)資格正高副高呼吸內(nèi)科學(xué)專業(yè)資格正高副高模擬題2025年(附答案)
- 2025年危急值報告制度培訓(xùn)考核試題(附答案)
- 2025年病房突發(fā)火災(zāi)應(yīng)急預(yù)案演練腳本
- 勘察合同示范文本完整版本
- 私募基金代銷協(xié)議
- 2025年中考數(shù)學(xué)真題知識點分類匯編之相交線與平行線(一)
- 調(diào)研報告:深度剖析高校教師的處境及出路(很受益)
- 2025年甘肅專職消防隊員、文員招聘考試(公共基礎(chǔ)知識)歷年參考題庫含答案詳解(5套)
- 2025年特種設(shè)備作業(yè)人員考試(起重機作業(yè)·門式起重機司機Q2)歷年參考題庫含答案詳解(5套)
- 老年大學(xué)教學(xué)工作計劃范本
- 電商運營知識點
- 監(jiān)理人員組織形式及監(jiān)理人員進場計劃表
- 慢性心功能不全護理個案分析
- DB32∕T 2452-2013 刺參浮筏吊養(yǎng)技術(shù)規(guī)范
- DB37T 5118-2018 市政工程資料管理標準
- 2024年中藥炮制工技能大賽理論考試題庫(含答案)
- 中級安全工程師《安全生產(chǎn)法律法規(guī)》考試(重點)題及答案
- 韶關(guān)學(xué)院《馬克思主義基本原理概論》2021-2022學(xué)年第一學(xué)期期末試卷
- 讀后續(xù)寫 Emily 的成長 課件 -高三英語上學(xué)期二輪復(fù)習(xí)專項
- GB/T 44794-2024家用和類似用途電自動控制器微波傳感功能的技術(shù)要求和評價方法
- 鄉(xiāng)村天然氣管道鋪設(shè)合同
評論
0/150
提交評論