2025A2M大會(huì):基于用戶視角的算力服務(wù)和算力網(wǎng)服務(wù)_第1頁(yè)
2025A2M大會(huì):基于用戶視角的算力服務(wù)和算力網(wǎng)服務(wù)_第2頁(yè)
2025A2M大會(huì):基于用戶視角的算力服務(wù)和算力網(wǎng)服務(wù)_第3頁(yè)
2025A2M大會(huì):基于用戶視角的算力服務(wù)和算力網(wǎng)服務(wù)_第4頁(yè)
2025A2M大會(huì):基于用戶視角的算力服務(wù)和算力網(wǎng)服務(wù)_第5頁(yè)
已閱讀5頁(yè),還剩86頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

報(bào)告人:陳健博士北京并行科技股份有限公司(BJ839493)董事長(zhǎng)客戶畫像單核到幾千核應(yīng)用,行業(yè)實(shí)際業(yè)務(wù),關(guān)注服務(wù),關(guān)注性能和性價(jià)比;超算只是客戶畫像單核到幾千核應(yīng)用,行業(yè)實(shí)際業(yè)務(wù),關(guān)注服務(wù),關(guān)注性能和性價(jià)比;超算只是業(yè)務(wù)中一個(gè)環(huán)節(jié),需要實(shí)現(xiàn)完整業(yè)務(wù)上云,需要保證業(yè)務(wù)運(yùn)行穩(wěn)定性、可靠性產(chǎn)品定位面向行業(yè),按照行業(yè)業(yè)務(wù)需求設(shè)計(jì)完整的云上業(yè)務(wù)流程,保證用戶業(yè)務(wù)各環(huán)節(jié)能夠快速、高效、動(dòng)態(tài)實(shí)現(xiàn),彈性、高性能、高穩(wěn)定性、高可靠性、高可維護(hù)性;公有云/超算云+專業(yè)超算服務(wù)商客戶畫像以GPU算力為主,單卡到萬(wàn)卡的應(yīng)用,計(jì)算量極度密集,需要優(yōu)質(zhì)服務(wù),關(guān)注性價(jià)比;算力投資大,自建較少,主要使用租用智算算力資源產(chǎn)品定位解決大模型訓(xùn)練需求的超算中心模式,和解決推理等需求的云計(jì)算模式,應(yīng)用運(yùn)行特征分析,動(dòng)態(tài)隨需增長(zhǎng)式建設(shè)最高性價(jià)比智算算力資源;幫助用戶從自建中解脫出來,租用超算服務(wù);智算中心客戶畫像萬(wàn)核以下的應(yīng)用,絕大多數(shù)是千核以下的應(yīng)用,需要優(yōu)質(zhì)服務(wù),關(guān)注性價(jià)比;海量無(wú)超算資源用戶的日常需求;當(dāng)前自主建設(shè)中小微超算系統(tǒng)產(chǎn)品定位海量用戶需求聚類,應(yīng)用運(yùn)行特征分析,針對(duì)不同類型應(yīng)用,動(dòng)態(tài)隨需增長(zhǎng)式建設(shè)最高性價(jià)比超算服務(wù)計(jì)算資源;幫助用戶從自建中解脫出來,租用超算服務(wù);超級(jí)云計(jì)算中心客戶畫像萬(wàn)核以上的應(yīng)用,追求極大規(guī)模、極致性能;高端超算的從業(yè)人員。攻堅(jiān)型科研,國(guó)家級(jí)客戶,各行業(yè)頂級(jí)研究機(jī)構(gòu);對(duì)超算硬件系統(tǒng)要求非常高產(chǎn)品定位“塔尖上的明珠”,“國(guó)之重器”;計(jì)算、訪存、通信、I/O都非常出眾,性能設(shè)計(jì)很平衡的高端超級(jí)計(jì)算機(jī);需要國(guó)家集中力量辦大事,需要國(guó)家投入,不能核算性價(jià)比;國(guó)家超級(jí)計(jì)算中心算力:數(shù)字經(jīng)濟(jì)時(shí)代的新生產(chǎn)力數(shù)據(jù)、算力和算法是數(shù)字經(jīng)濟(jì)時(shí)代的關(guān)鍵資源數(shù)據(jù)是新的生產(chǎn)資料,算力是新生產(chǎn)力,算法是新的生產(chǎn)關(guān)系→數(shù)字產(chǎn)業(yè)化數(shù)據(jù)、算力和算法是數(shù)字經(jīng)濟(jì)時(shí)代的關(guān)鍵資源數(shù)據(jù)是新的生產(chǎn)資料,算力是新生產(chǎn)力,算法是新的生產(chǎn)關(guān)系→數(shù)字產(chǎn)業(yè)化在算力中每投入1元,帶動(dòng)3-4元經(jīng)濟(jì)產(chǎn)出;算力發(fā)展指數(shù)每提高1點(diǎn),GDP增長(zhǎng)約1293億元。ytalpi晶泰科技ytalpi晶泰科技4Tiamat4Tiamat不是資源業(yè)是是服務(wù)業(yè)整租、非按需,利用率風(fēng)險(xiǎn)由租賃方自己控制專車、豪華車,有司機(jī),優(yōu)質(zhì)服務(wù),【按需使用】算力服務(wù)運(yùn)營(yíng)思路:從客戶/用戶需求視角,做業(yè)務(wù)/產(chǎn)品梳理令最低成本完成計(jì)算最快完成計(jì)算…e完成計(jì)算高性價(jià)比高性能令最低成本完成計(jì)算最快完成計(jì)算…e完成計(jì)算高性價(jià)比高性能高質(zhì)量最終用戶不關(guān)心功能最終用戶關(guān)心收益超大規(guī)模大模型訓(xùn)練裸金屬供不應(yīng)求/長(zhǎng)期供不應(yīng)求裸金屬/集群模式供大于求/長(zhǎng)期供大于求推理云主機(jī)供大于求/需求穩(wěn)定增長(zhǎng)英偉達(dá)工作量小工作量小工作量小工作量中AMD工作量中工作量中工作量中工作量中工作量中工作量中工作量中工作量中華為工作量中工作量大海光工作量中工作量中工作量大工作量大其他國(guó)產(chǎn)芯片工作量大工作量大工作量大工作量大基礎(chǔ)大模型訓(xùn)練極大幾個(gè)超大規(guī)模的高端訓(xùn)練超級(jí)計(jì)算機(jī)單點(diǎn)聚集海量算力資源(算海計(jì)劃)行業(yè)模型中幾百算力集群算力網(wǎng)絡(luò)服務(wù)模式裸金屬租用場(chǎng)景模型幾萬(wàn)各種算力/國(guó)產(chǎn)算力均可用學(xué)術(shù)/科研幾萬(wàn)通用算力為主,應(yīng)對(duì)高頻迭代開發(fā)算力服務(wù)平臺(tái)主流大模型推理服務(wù)極大幾十/幾百海量算力資源池算力網(wǎng)絡(luò)服務(wù)模式整租+彈性按需幾十萬(wàn)算力服務(wù)平臺(tái)幾萬(wàn)通用算力為主,應(yīng)對(duì)各種復(fù)雜場(chǎng)景算力服務(wù)平臺(tái)國(guó)產(chǎn)GPU產(chǎn)品仍處在起步階段,缺乏應(yīng)用場(chǎng)景,產(chǎn)品性能與英偉達(dá)、AMD產(chǎn)品有一定差距,軟件和生態(tài)較難競(jìng)爭(zhēng)華為-全自主研發(fā)達(dá)芬奇芯片架構(gòu)、完善的軟硬件配套體系信創(chuàng)、能源、交通、金融、人工智能等領(lǐng)域芯動(dòng)科技2007年10月-風(fēng)華1號(hào)、風(fēng)華2號(hào)辦公上網(wǎng)、娛樂游戲、工程制圖、上海兆芯2013年04月A輪高性能桌面、便攜終端、嵌入式等領(lǐng)域天數(shù)智芯2015年12月天垓100慧教育等領(lǐng)域登臨科技2017年11月A+輪用人工智能加速器計(jì)算等領(lǐng)域瀚博半導(dǎo)體2018年12月云端推理DSA架構(gòu)視頻處理技術(shù)SV100系列云端推理芯片、VA1通用AI推理加速卡深度學(xué)習(xí)、AI推理、云計(jì)算等領(lǐng)域智繪微電子2018年12月構(gòu)等領(lǐng)域壁仞科技2019年09月超47億元人工智能、云計(jì)算、圖形渲染、大數(shù)據(jù)等領(lǐng)域芯瞳半導(dǎo)體2019年12月統(tǒng)一渲染GPU架構(gòu),具有高度可擴(kuò)展的互聯(lián)結(jié)構(gòu)和計(jì)算陣列GenBu01GPU信創(chuàng)、能源、交通、金融、人工智能等領(lǐng)域摩爾線程2020年06月A輪3D圖形計(jì)算和高性能并行計(jì)算技術(shù)物理仿真、Al計(jì)算、游戲娛樂、自動(dòng)駕駛等領(lǐng)域國(guó)產(chǎn)GPU產(chǎn)品仍處在起步階段,缺乏應(yīng)用場(chǎng)景,產(chǎn)品性能與英偉達(dá)、AMD產(chǎn)品有一定差距,軟件和生態(tài)較難競(jìng)爭(zhēng)燧原科技2018年03月全自主研發(fā)的芯片架構(gòu)信創(chuàng)、人工智能、AI推理、視頻解析等沐曦集成電路2020年09月主流生態(tài)的完整軟件棧深度學(xué)習(xí)、數(shù)據(jù)分析、物理仿真、云游戲等領(lǐng)域深流微智能2021年05月?lián)碛邢乱淮?jí)流處理XST架構(gòu)XST-G01、XST-E01、XST-C01視覺計(jì)算、人工智能、高性能計(jì)算等領(lǐng)域勵(lì)算科技2021年08月TrueGPU圖形芯片端、云、邊、車等領(lǐng)域芯原股份2001年08月688521.SHGPUIP供應(yīng)廠商,GPU(含ISP)市率排名全球前三位,2020年全球市場(chǎng)占有率約10.2%ArcturusGC8800、GC8400、GC8200、小型物聯(lián)網(wǎng)MCU、人工智能等領(lǐng)域2006年04月支持國(guó)產(chǎn)CPU和國(guó)產(chǎn)操作系統(tǒng)的自主知識(shí)產(chǎn)權(quán)GPUJM5400、JM7201、JM92系列教育等領(lǐng)域龍芯中科2008年03月688047.SH7A2000橋片的集成GPU信、醫(yī)療等領(lǐng)域海光信息2014年10月688041.SH海光DCU屬于一種GPGPU,深算一號(hào)深算一號(hào)DCU產(chǎn)品人工智能訓(xùn)練等領(lǐng)域寒武紀(jì)2016年03月688256.SHAl訓(xùn)練GPU新品,搭載雙芯片四芯粒封裝的思元370,集成寒武紀(jì)MLU-Link多芯人工智能訓(xùn)練等領(lǐng)域以華為昇騰910為例:910A800峰值FP32算力峰值FP16算力芯片峰值功耗400W400WCPU-NPUPCIE規(guī)格400GB/s(NVLink)吞吐量(ktokens/s)140.00120.00100.00 80.00 60.00吞吐量(ktokens/s)140.00120.00100.00 80.00 60.0040.00 20.000.00 43.88 910VSA800性能 昇騰910大模型訓(xùn)練性能,經(jīng)過309024309024GBH2096GBSXMA80080GBA80080GBSXMH2096GBSXMA80080GBA80080GBSXMH80080GBSXMH10080GBSXM3L40S48GB昇騰910相對(duì)性價(jià)比Llama2-7B不同平臺(tái)訓(xùn)練性價(jià)比10910VSA800性價(jià)比昇騰910性價(jià)比可達(dá)A8008卡相對(duì)性價(jià)比Llama2-7B不同平臺(tái)訓(xùn)練性價(jià)比10910VSA800性價(jià)比昇騰910性價(jià)比可達(dá)A8001Llama3-70B不同平臺(tái)訓(xùn)練相對(duì)性價(jià)比Llama3-70B不同平臺(tái)訓(xùn)練相對(duì)性價(jià)比吞吐量(tokens/s)Llama3-70B不同平臺(tái)訓(xùn)練速度50吞吐量(ktokens/s)?自研自主可控的IP?與國(guó)產(chǎn)CPU同頻共振,實(shí)現(xiàn)控制調(diào)用?解決產(chǎn)能問題?應(yīng)用生態(tài)仍待進(jìn)一步豐富,需要海量真實(shí)業(yè)務(wù)的計(jì)算任務(wù)驗(yàn)證,?獲得行業(yè)用戶的認(rèn)可和信任用同樣的測(cè)試用例,多次重復(fù)進(jìn)行測(cè)試,最后將不再能夠發(fā)現(xiàn)新的問題測(cè)試用例需要定期評(píng)審和修改不斷增加新的不同測(cè)試用例,來測(cè)試硬件和軟件的不同表現(xiàn)平臺(tái)易用性計(jì)算結(jié)果正確性計(jì)算軟件相同算例相同軟件VS計(jì)算結(jié)果量化分析直接輸出報(bào)告/結(jié)論超算云真實(shí)場(chǎng)景真實(shí)算例在線計(jì)算相同算例相同軟件VS計(jì)算結(jié)果量化分析直接輸出報(bào)告/結(jié)論超算云真實(shí)場(chǎng)景真實(shí)算例經(jīng)用戶同意超算云在線計(jì)算經(jīng)用戶同意國(guó)產(chǎn)硬件國(guó)產(chǎn)硬件適配性/兼容性編號(hào)A0001編號(hào)A0001編號(hào)A0010xx大學(xué)CFDXXXxx大學(xué)CFDXXXxx大學(xué)CFDXXXxx大學(xué)CFDXXXxx大學(xué)CFDXXXxx大學(xué)CFDXXXxx企業(yè)CFDXXXxx企業(yè)CFDXXXxx企業(yè)CFDXXXxx企業(yè)CFDXXX1000核結(jié)果:正確1000核結(jié)果:正確1000核結(jié)果:正確1000核結(jié)果:正確1000核結(jié)果:待確認(rèn)1000核結(jié)果:正確1000核結(jié)果:正確1000核結(jié)果:正確1000核結(jié)果:正確1000核結(jié)果:正確 硬件兼容性評(píng)估》軟件適配性評(píng)估》性能評(píng)估?顯存需求分析:初步判斷國(guó)產(chǎn)硬?顯存需求分析:初步判斷國(guó)產(chǎn)硬件是否滿足新模型運(yùn)行的顯存要求,考慮是否需要對(duì)模型進(jìn)行壓縮或者對(duì)硬件進(jìn)行擴(kuò)展。所需的精度以及算子國(guó)產(chǎn)GPU是否支持。檢查國(guó)產(chǎn)硬件所搭載的操作系統(tǒng)是否與新模型的開發(fā)環(huán)境和運(yùn)行環(huán)境兼容。?深度學(xué)習(xí)框架適配評(píng)估:確定新模型所依賴的深度學(xué)習(xí)框架是否支持國(guó)產(chǎn)硬件。此外,還需要關(guān)注深度學(xué)習(xí)框架的版本兼容性問能進(jìn)行預(yù)測(cè)。在具備條件時(shí),進(jìn)到新模型在國(guó)產(chǎn)硬件上預(yù)期的性能表現(xiàn)所需的技術(shù),包括算子開發(fā)、推理引擎優(yōu)化等,從而評(píng)估需要進(jìn)行的優(yōu)化工作量和相關(guān)成戶業(yè)務(wù)需要計(jì)算比較國(guó)產(chǎn)算力和主流算力性價(jià)比管理運(yùn)維、應(yīng)用部署用戶對(duì)ModelLink訓(xùn)練精度有疑問。通過比較訓(xùn)練用戶對(duì)ModelLink訓(xùn)練精度有疑問。通過比較訓(xùn)練loss曲線,證明對(duì)于華為已經(jīng)官方支持未支持的Gemma2模型,使用trans-網(wǎng)絡(luò)搭建,基礎(chǔ)軟件環(huán)境搭建,數(shù)據(jù)遷移。用戶對(duì)昇騰平臺(tái)訓(xùn)練精度有疑問。通過比較訓(xùn)練loss曲線,證明昇騰11Llama3-8B在Stanford_Alpaca數(shù)據(jù)集上使用LlamaFactory框架基于Zero3分布在910上訓(xùn)練的loss曲線43210比較訓(xùn)練loss曲線,昇騰精度可與N卡對(duì)齊Llama3-8B在Stanford_Alpaca數(shù)據(jù)集上使用LlamaFactory框架基于Zero3分布在A100上訓(xùn)練的loss曲線432101111Llama3-8B在Stanford_Alpaca數(shù)據(jù)集上使用LlamaFactory框架基于Zero3分布在910和A100上訓(xùn)練的loss曲線4321 ?真實(shí)算例?高可復(fù)用性?覆蓋率容易度量?激勵(lì)團(tuán)隊(duì)士氣?積累推廣數(shù)據(jù)??無(wú)需參與測(cè)試過程?國(guó)外超算硬件可替代?增強(qiáng)國(guó)產(chǎn)超算硬件信心?測(cè)試低成本或無(wú)成本?計(jì)算結(jié)果獲得“雙”驗(yàn)證??精準(zhǔn)覆蓋行業(yè)用戶?省去采購(gòu)、建設(shè)等環(huán)節(jié)?國(guó)產(chǎn)硬件云化,加速趕超?快速構(gòu)建應(yīng)用軟件生態(tài)?突破單一應(yīng)用領(lǐng)域和范圍硬件推廣關(guān)于并行關(guān)于并行員工股票代碼員工股票代碼注冊(cè)資本注冊(cè)資本5823萬(wàn)元子公司技術(shù)研發(fā)中心子公司技術(shù)研發(fā)中心辦事處與服務(wù)站辦事處與服務(wù)站上海、武漢、西安、成都、南京、上海、武漢、西安、成都、南京、無(wú)錫、青島、深圳、綿陽(yáng)、重慶、哈爾濱、長(zhǎng)春、鄭州、杭州、沈陽(yáng)、合肥、大連、蘇州、廈門、貴陽(yáng)、昆明、太原、蘭州……長(zhǎng)沙、寧夏、海南、上海北京、天津、廣州服務(wù)規(guī)模服務(wù)規(guī)模18年18年200萬(wàn)+核心卡超算服務(wù)經(jīng)驗(yàn)萬(wàn)卡超算服務(wù)經(jīng)驗(yàn)萬(wàn)付費(fèi)用戶資源可調(diào)度GPU應(yīng)用軟件SaaS化行業(yè)付費(fèi)用戶資源可調(diào)度GPU應(yīng)用軟件SaaS化行業(yè)企業(yè)高??蒲袡C(jī)構(gòu)科研機(jī)構(gòu)沙利文報(bào)告分析指出:并行科技是我國(guó)第沙利文報(bào)告分析指出:并行科技是我國(guó)第一大獨(dú)立的超算云服務(wù)商。http://www.frostchina.co用戶控制臺(tái)應(yīng)用運(yùn)行特征分析與算力評(píng)測(cè)超算/智算云服務(wù)平臺(tái)用戶控制臺(tái)應(yīng)用運(yùn)行特征分析與算力評(píng)測(cè)超算/智算云服務(wù)平臺(tái)應(yīng)用集成與多集群算力智能調(diào)度在線技術(shù)支持、移動(dòng)端作業(yè)查詢運(yùn)維、運(yùn)營(yíng)可視化應(yīng)用集成與多集群算力智能調(diào)度在線技術(shù)支持、移動(dòng)端作業(yè)查詢運(yùn)維、運(yùn)營(yíng)可視化一大模型應(yīng)用運(yùn)行特征量化數(shù)據(jù)/大模型應(yīng)用運(yùn)行特征雷達(dá)圖一大模型應(yīng)用運(yùn)行特征時(shí)序圖一大模型應(yīng)用運(yùn)行特征量化數(shù)據(jù)/大模型應(yīng)用運(yùn)行特征雷達(dá)圖一大模型應(yīng)用運(yùn)行特征時(shí)序圖采集應(yīng)用運(yùn)行特征分析應(yīng)用瓶頸針對(duì)運(yùn)行在針對(duì)運(yùn)行在特定硬件上的大規(guī)模應(yīng)用軟件進(jìn)行運(yùn)行特征分析通過數(shù)據(jù)收集和可視化定量統(tǒng)計(jì)分析方法全面了解大規(guī)模應(yīng)用軟件在不同硬件平臺(tái)上運(yùn)行的全過程和局部細(xì)節(jié)用應(yīng)用運(yùn)行特征分析方法,快速確定選型的最高性能和最高性價(jià)比用應(yīng)用運(yùn)行特征分析方法,快速確定選型的最高性能和最高性價(jià)比or小模型,優(yōu)化前or優(yōu)化后性價(jià)比計(jì)算打造“算力買手模式”憑借專業(yè)的選型能力,從眾多的供應(yīng)商/算力資源池中,挑選出最適合的算力產(chǎn)品或服務(wù),并將其整合后提供給最終用戶。1.利用ParaSelect方法,評(píng)估業(yè)務(wù)在不同類型算力型號(hào)上的性能表現(xiàn)2.輸出資源選型方案(涵蓋:最高性能方案、最高性價(jià)資源依賴程度應(yīng)用運(yùn)行特征分析業(yè)務(wù)需求確認(rèn)speedtarget=speedh800/k1*speedtarget=speedh800/k1*+k2*+k3*+k4*nvlinkbhbwtarget*speedupbatchsize1.性能指標(biāo):輸出速度(Tokens……)、延遲(ms2.效率指標(biāo):利用率、吞吐量、并發(fā)處理能力……3.擴(kuò)展指標(biāo):線性擴(kuò)展能力……4.穩(wěn)定指標(biāo):容錯(cuò)能力、恢復(fù)能力、應(yīng)用運(yùn)行特征分析報(bào)告基于性能數(shù)據(jù)梳理影響計(jì)算效果的核心要素1.規(guī)模指標(biāo):算力總量(卡)、存儲(chǔ)總量基于paraselect的算力選型方案TOP2:配置、可用XX卡、性能結(jié)果/排序、性價(jià)比、TOP3:配置、可用XX卡、性能結(jié)果/排序、性價(jià)比、以GPU平臺(tái)應(yīng)用最重要的4個(gè)參數(shù)(TensorCore、顯存帶寬、輸入性能預(yù)測(cè)公式的特征據(jù)及應(yīng)用運(yùn)行特征以均方根誤差作為損失函數(shù),最小化損失函數(shù),得出權(quán)重系數(shù)speedtarget=speedh800/kk1*+k2*+k3*+k4*nvlinkbbwtarget*speedupbatchsizespeed訓(xùn)練速度TFLOPSIgmembw理論顯存帶寬速率PCIebw理論P(yáng)CIe帶寬nvlinkbw理論nvlink帶寬speedup(batchsize)k1,k2,k3,k4新平臺(tái)性能預(yù)測(cè)誤差新平臺(tái)性能預(yù)測(cè)誤差根據(jù)某10B模型運(yùn)行特征、模型參數(shù)根據(jù)某10B模型運(yùn)行特征、模型參數(shù)、運(yùn)行參數(shù),使用ParaSelect對(duì)該大模型在H20平臺(tái)訓(xùn)練速度進(jìn)行某10B模型訓(xùn)練速度H20實(shí)測(cè)預(yù)測(cè)對(duì)比 6.69.6650A10040GBA80080GBA80080GB智能選型模型運(yùn)行特征預(yù)計(jì)性能最佳性能平臺(tái)模型參數(shù)最佳性價(jià)比平臺(tái)運(yùn)行參數(shù)運(yùn)行平臺(tái)性能預(yù)測(cè)智能選型模型運(yùn)行特征預(yù)計(jì)性能最佳性能平臺(tái)模型參數(shù)最佳性價(jià)比平臺(tái)運(yùn)行參數(shù)運(yùn)行平臺(tái)性能預(yù)測(cè)大模型訓(xùn)練是超算應(yīng)用,性能、加速比是核心關(guān)鍵要素樣本吞吐量(samples/s)高性能Llama213B在不同節(jié)點(diǎn)數(shù)下的樣本吞吐量20.016.012.08.04.00.0樣本吞吐量(samples/s)高性能Llama213B在不同節(jié)點(diǎn)數(shù)下的樣本吞吐量20.016.012.08.04.00.0高加速比4.0多節(jié)點(diǎn)性能預(yù)測(cè)誤差基于超算架構(gòu),節(jié)點(diǎn)內(nèi)、節(jié)點(diǎn)間采用高速互聯(lián),支持動(dòng)態(tài)資源調(diào)度,采用高效并行算法,讓模型訓(xùn)練能夠無(wú)限擴(kuò)節(jié)點(diǎn)數(shù)實(shí)測(cè)預(yù)測(cè)根據(jù)Llama2-13B運(yùn)行特征、模型參數(shù)、運(yùn)行參數(shù),使用ParaSelect基于超算架構(gòu),節(jié)點(diǎn)內(nèi)、節(jié)點(diǎn)間采用高速互聯(lián),支持動(dòng)態(tài)資源調(diào)度,采用高效并行算法,讓模型訓(xùn)練能夠無(wú)限擴(kuò)節(jié)點(diǎn)數(shù)實(shí)測(cè)預(yù)測(cè)stanfordLlamma(13B)性能比32110DeepSeek671B吞吐量對(duì)比DeepSeek671B吞吐量對(duì)比01,0721,07214816并發(fā)數(shù)量B200-FP8輸出速度B200-FP4輸出速度1,5301,5722,0371,6071,3831,615200015001000407881292218703536500121DeepSeek671B吞吐量對(duì)比0.460.270.170.082.001.801.601.401.201.000.800.600.400.200.00B200-FP8吞吐量B200-FP4吞吐量641282565121.151.181.170.090.02并發(fā)數(shù)量0.790.740.291.831.36測(cè)試模型:Wan2.1(T2V-1.3B)視頻生成模型通過定位程序熱點(diǎn)函數(shù),發(fā)現(xiàn)熱點(diǎn)函數(shù)是cublas,調(diào)整cuda版本后調(diào)用性能更優(yōu)的cutlass函數(shù)高應(yīng)用計(jì)算效率。也帶來差異巨大的卡間、節(jié)點(diǎn)間通信開銷。數(shù)據(jù)存儲(chǔ)模式優(yōu)化后:充分利用顯存空間,約1000小時(shí)完成優(yōu)化前:大約1800小時(shí)完成大

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論