異構(gòu)算力協(xié)同白皮書_第1頁
異構(gòu)算力協(xié)同白皮書_第2頁
異構(gòu)算力協(xié)同白皮書_第3頁
異構(gòu)算力協(xié)同白皮書_第4頁
異構(gòu)算力協(xié)同白皮書_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

11當前,人工智能技術(shù)正以前所未有的速度重塑著世界大模型熱潮,到多模態(tài)AI應用的蓬勃發(fā)展,再到各類智能體的不斷涌現(xiàn),每一2第一章算力產(chǎn)業(yè)發(fā)展現(xiàn)狀 31.1算力發(fā)展趨勢 31.2算力發(fā)展現(xiàn)狀 41.3異構(gòu)算力的定義與內(nèi)涵 51.4異構(gòu)算力協(xié)同挑戰(zhàn) 6第二章算力協(xié)同體系架構(gòu) 8第三章異構(gòu)算力協(xié)同關鍵技術(shù) 3.1統(tǒng)一計算技術(shù) 3.2統(tǒng)一互聯(lián)技術(shù) 3.3統(tǒng)一調(diào)度技術(shù) 3.4統(tǒng)一評測體系 第四章異構(gòu)算力協(xié)同解決方案與實踐 4.1“一模多芯”異構(gòu)混池訓練 204.2低成本異構(gòu)混合推理 22第五章未來技術(shù)展望 5.1芯片級:新計算范式芯片 255.2主機級:超節(jié)點算力異構(gòu) 255.3集群級:跨域異構(gòu)算力協(xié)同 255.4場景融合:四算一體 26第六章結(jié)論與展望 31.1算力發(fā)展趨勢在政策與需求的雙重引擎驅(qū)動下,中國算力產(chǎn)業(yè)已駛?cè)敫咚侔l(fā)展的快車道。一方面,政策端持續(xù)加碼,自2017年7月以來,《新一代人工智能發(fā)展規(guī)劃》率先提出“建設高效能計算基礎設施,強化超級計算中心對人工智能應用的服務能力”,為算力發(fā)展奠定基調(diào);2020年4月,“新基建”戰(zhàn)略進一步把數(shù)據(jù)中心、智能計算中心列為核心,全面鼓勵產(chǎn)業(yè)高質(zhì)量躍升;隨后,《“十四五”數(shù)字經(jīng)濟發(fā)展規(guī)劃》、《數(shù)字中國建設整體布局規(guī)劃》和《關于推動新型信息基礎設施協(xié)調(diào)發(fā)展有關事項的通知》等政策密集出臺,系統(tǒng)優(yōu)化全國算力布局,引導智算中心有序落地、協(xié)同發(fā)展。另一方面,需求端爆發(fā)式增長,人工智能大模型迭代進入“多模態(tài)+AI(ArtificialIntelligence)智能體”階段,對高并發(fā)、高能效、低延時提出新的要求,持續(xù)倒逼芯片、架構(gòu)與系統(tǒng)級創(chuàng)新,需求與政策同頻共振,正將中國算力產(chǎn)業(yè)推向新一輪技術(shù)革命。通用算力、智能算力、超算算力均保持高速增長,智能算力在增長競賽中跑出“超級加速度”。2025年,全球總算力已攀升至約3300EFLOPS,在三大主流形態(tài)中,通用算力約為1150EFLOPS,占比首次跌破35%,降至34.8%;智能算力則因大模型和AI智能體應用的持續(xù)井噴,規(guī)模激增至1980EFLOPS,占比已高達60%,成為拉動全球算力增長的核心引擎;超算算力雖然絕對值較小,但也擴張至約170EFLOPS,穩(wěn)居5%左右的份額,繼續(xù)在尖端科研與工程仿真中扮演“重器”角色。聚焦中國,智能算力已無可爭議地成為中國算力版圖的中堅力量,國務院新聞辦公室舉行新聞發(fā)布會宣布,截至2025年3月底,我國智能算力規(guī)模達到748EFLOPS,為海量數(shù)據(jù)計算提供智能底座。隨著更多用戶和場景加入,大模型的普及與應用落地帶動了數(shù)據(jù)中心、邊緣及端側(cè)算力建設,從而驅(qū)動了算力需求的增長。預計到2026年,中國智能算力規(guī)模將進一步增長至1460.3EFLOPS,并在2028年達到2781.9EFLOPS。智能算力已不僅是技術(shù)底座,更是產(chǎn)業(yè)躍遷的“主引擎”,也將持續(xù)向千行百業(yè)滲透,成為撬動數(shù)字經(jīng)濟下一輪爆發(fā)式增長的核心支點。41.2算力發(fā)展現(xiàn)狀國外以英偉達、AMD為首的兩大芯片巨頭憑借其技術(shù)優(yōu)勢,在算力領域長期占據(jù)領先地位,在全球范圍內(nèi),兩大芯片巨頭占據(jù)全球算力市場34%的份額:(1)英偉達采用“單封裝雙芯?!甭肪€,把算力密度和內(nèi)存帶寬推到極致,也帶來高耗電和高昂的成本,2025年推出BlackwellB200,并拋出2026–2027路線圖,VeraRubin與RubinUltra已在路上,Rubin推理峰值50PFLOPS、HBM4內(nèi)存288GB,F(xiàn)P4稀疏算(2)AMD把Chiplet思路發(fā)揮到極致,多顆小Die通過InfinityFabric靈活組合,用更低功耗拼出同級算力,MI350已支持FP4/FP6低精度格式,MI400將延續(xù)“多芯粒+大內(nèi)存”策略,試圖以性價比和能效比撕開英偉達的生態(tài)護城河。2025年6月的AdvancingAI國內(nèi)算力芯片起步晚但發(fā)展迅速,逐漸呈現(xiàn)“一超多強”的國產(chǎn)芯片產(chǎn)業(yè)格局,以下列國產(chǎn)芯片為例:(1)昇騰在AI算力基礎軟硬件產(chǎn)業(yè)格局中繼續(xù)扮演“頭雁”角色,搭建開放生態(tài),形成“芯片一框架一集群一應用”的四級閉環(huán),已支持建造多個萬卡級集群,2025年推出384卡超節(jié)點新形態(tài),最大算力可達300PFLOPS,48TB高速內(nèi)存,配備創(chuàng)新的高速互聯(lián)總線,實現(xiàn)384卡一臺計算機運行,大幅提升大模型訓推效率。(2)昆侖芯三代XPU-R,自研XPU-Link全千卡1.2TB/sXPU-Link集群—百度文心大模型”四級閉環(huán),已在百度內(nèi)部提供90%以上文心系列訓練算力,日均穩(wěn)態(tài)負載85%+。(3)壁仞科技采用Chiplet架構(gòu)設計大算力芯片,其首款GPGPU(General-PurposeComputingonGraphicsProcessingUnits)產(chǎn)品BR100在2022年發(fā)布時創(chuàng)下全球算力記錄,基于該芯片架構(gòu)的壁礪系列GPU已落地千卡集群并開展商業(yè)化落地應用,其“軟硬一5體異構(gòu)協(xié)同的國產(chǎn)GPU(GraphicsProcessingUnit)智算集群解決方案”獲得工信部2024年未來產(chǎn)業(yè)創(chuàng)新發(fā)展“標志性產(chǎn)品”優(yōu)秀典型案例。(4)沐曦曦云C系列訓推一體GPU芯片,基于全自研的GPUIP、指令集和架構(gòu),擁有多精度混合算力,內(nèi)置大量運算核心,具有較強的并行計算能力和較高的能效比,在通用性、單卡性能、集群性能及穩(wěn)定性、生態(tài)兼容與遷移效率等方面均達到領先水平。支持PaddlePaddle、TensorFlow、PyTorch等主流框架,已適配DeepSeek、LLaMa和GPT等大模型,高效能AI訓推一體化,搭建“芯片—DTK+HipBLAS/HipFFT—DCU集群—訓推一體+工業(yè)仿真”四級閉環(huán),在科教、金融、醫(yī)療、政務、智算中心等多個領域?qū)崿F(xiàn)DCU集群以及異構(gòu)混池規(guī)?;瘧???梢钥闯?,國產(chǎn)芯片技術(shù)路線也呈現(xiàn)“百花齊放、分層突破”,革新Chiplet與先進封裝、稀疏化與低比特計算、軟件棧生態(tài)等,逐漸搭建從“可用”到“好用”、從“單點”到“集群”的國產(chǎn)芯片矩陣。1.3異構(gòu)算力的定義與內(nèi)涵從廣義上講,異構(gòu)算力是指采用不同的計算架構(gòu),通過將不同類型指令集和體系結(jié)構(gòu)的計算單元相組合,包括GPU、CPU(CentralProcessingUnit)、NPU(NeuralProcessingUnit)、FPGA(Field-ProgrammableGateArray)等,實現(xiàn)對不同類型計算任務的優(yōu)化。與傳統(tǒng)同構(gòu)算力相比,異構(gòu)算力強調(diào)在指令集架構(gòu)、處理器類型、通信接口、內(nèi)存訪問模式等多個層面的差異性與互補性,但也對異構(gòu)算力整體系統(tǒng)性的資源管理、軟件適配、調(diào)度優(yōu)化提出了更高的要求。本白皮書聚焦智算領域的異構(gòu)算力,具體是指面向大模型應用,采用不同架構(gòu)設計的人工智能芯片算力,通常包括來源于不同的廠家或同一廠家設計的不同代際產(chǎn)品,使其在計算性能、容量帶寬、訪存系統(tǒng)和編程模型等方面具有差異性。異構(gòu)算力按技術(shù)路線可劃分為GPGPU和專用ASIC(Application-SpecificIntegratedCircuit)兩類路線。GPGPU是一種突破性的異構(gòu)芯片架構(gòu),其核心在于將GPU從專有圖形處理器轉(zhuǎn)化為6通用并行協(xié)處理器。這一技術(shù)通過重構(gòu)GPU底層硬件資源流水線設計與調(diào)用邏輯,使原本僅處理圖形渲染流水線的數(shù)千個計算核心,能夠高效執(zhí)行科學計算、數(shù)據(jù)分析和機器學習等非圖形化任務,實現(xiàn)了對傳統(tǒng)CPU計算體系的革命性擴展。ASIC通過定制化硬件架構(gòu),將計算任務固化于電路設計,其核心在于以降低通用性為代價,針對特定算法或應用場景進行晶體管級優(yōu)化,實現(xiàn)遠超通用芯片的計算效率與能效比,這一技術(shù)通過重構(gòu)計算單元、內(nèi)存層級及指令集,使芯片變成“領域?qū)S皿w系架構(gòu)”。1.4異構(gòu)算力協(xié)同挑戰(zhàn)智算算力“百花齊放”呈現(xiàn)多元異構(gòu)局面,面臨異構(gòu)算力“資源墻”、軟件?!吧鷳B(tài)割裂”和協(xié)同調(diào)度“效率低”三方面的挑戰(zhàn)。(1)異構(gòu)算力“資源墻”因其硬件架構(gòu)、互聯(lián)拓撲等物理差異,阻礙了不同廠商、不同架構(gòu)算力間的有效協(xié)同:一方面,由于各類算力芯片間存在架構(gòu)設計、數(shù)據(jù)類型等差異,導致算力單元間二進制不兼容,無法進行同一計算任務的協(xié)同配合。另一方面,單機層面不同算力芯片互聯(lián)拓撲差異,具有Cube-Mesh、Full-Mesh等異構(gòu)互聯(lián)方式,造成了服務器卡間通信的壁壘。集群層面,服務器具有不同的網(wǎng)卡帶寬,不同服務器類型組網(wǎng)方式不同,限制了跨廠商服務器間的高速互聯(lián),也造成了異構(gòu)算力的協(xié)同孤島。(2)異構(gòu)算力軟件?!吧鷳B(tài)割裂”,算子、通信庫、框架版本等層面構(gòu)造和適配情況各異,影響異構(gòu)算力間的互聯(lián)互通:一方面,異構(gòu)算力算子實現(xiàn)方式受其硬件架構(gòu)影響,且CommunicationsLibrary)、華為昇騰使用HCCL(HuaweiCollectiveCommunicationLibrary通信機制和硬件架構(gòu)深度綁定,導致它們通信協(xié)議和底層實現(xiàn)方式完全不同。另一方面,不同算力廠商及其開發(fā)團隊基于自身需求,定制了特定版本的庫和框架,且在針對既有框架進行適配時,因其進度不同具有代際差,使得在多種硬件架構(gòu)上運行相同的計算實例時,所依賴的軟件環(huán)境存在不一致性。(3)異構(gòu)算力基于現(xiàn)有調(diào)度機制協(xié)同“效率低”,因其算存?zhèn)骶胁町悓е聼o法從應用層映射到最佳硬件:針對傳統(tǒng)訓練框架,并行策略是按照其算力芯片數(shù)量進行平均劃分,7但其在異構(gòu)算力下平均分配因其計算能力、傳輸能力差異性造成模型計算量處理不同步、集合通信數(shù)據(jù)傳輸有堵點,“快等慢”造成部分資源浪費。針對大模型推理過程,由于預填充和解碼階段對算力和顯存的需求量不同,傳統(tǒng)大模型推理過程算力顯存階段互為瓶頸,造成低水平資源利用率,需要解決異構(gòu)算力協(xié)同調(diào)度問題使其匹配到最優(yōu)計算任務。8為了打破異構(gòu)算力生態(tài)壁壘,實現(xiàn)不同類型智算異構(gòu)算力高效協(xié)同工作,南向屏蔽底層ASIC、GPGPU不同路線算力差異,北向承載多場景、多行業(yè)、多模態(tài)大模型,構(gòu)建異構(gòu)算力協(xié)同生態(tài)體系,實現(xiàn)異構(gòu)算力的無感知計算、無阻礙通信、無閑置調(diào)度和無差異評測。異構(gòu)算力協(xié)同生態(tài)體系包括統(tǒng)一計算、統(tǒng)一通信、統(tǒng)一調(diào)度和統(tǒng)一評測四方面,通過四個核心維度的統(tǒng)一化實現(xiàn)異構(gòu)算力資源的深度融合。圖異構(gòu)算力協(xié)同體系架構(gòu)(1)統(tǒng)一計算:打破異構(gòu)壁壘構(gòu)建算力融合底座統(tǒng)一計算是異構(gòu)算力協(xié)同的基礎能力,旨在解決異構(gòu)芯片生態(tài)割裂導致的“算力碎片化”問題,構(gòu)建底層異構(gòu)硬件的統(tǒng)一抽象模型,從而實現(xiàn)對各類異構(gòu)算力資源的一體“池化”。將基于特定算力的編程應用程序轉(zhuǎn)譯為與底層硬件架構(gòu)無關的中間表示層,通過智能編譯優(yōu)化技術(shù)實現(xiàn)自適應的即時編譯優(yōu)化;各異構(gòu)算力廠商間算子各異,需要構(gòu)建跨架構(gòu)的統(tǒng)一算子接口,提煉通用算子的統(tǒng)一數(shù)學描述,解耦硬件實現(xiàn)細節(jié),形成能夠在廠商間源碼共享的算子庫,省去重復開發(fā)成本且保障一致的算子實現(xiàn),能夠發(fā)揮硬件的最優(yōu)性能,打造融合算力底座。(2)統(tǒng)一通信:構(gòu)建低延遲高吞吐的智算高速公路統(tǒng)一通信是異構(gòu)算力協(xié)同的必要功能,旨在解決打破異構(gòu)硬件間協(xié)議壁壘導致的“數(shù)據(jù)孤島”困境,構(gòu)建跨廠商、跨架構(gòu)的確定性傳輸基座,實現(xiàn)對異構(gòu)算力間的高速、無損傳輸。9組建服務器內(nèi)Scale-Up總線與服務器間Scale-Out組網(wǎng)擴展方式,針對異構(gòu)算力單元硬件互聯(lián)接口、通信協(xié)議不一致問題,提供超高帶寬、超低時延的內(nèi)存語義通信能力和高擴展、高可靠的長距無損數(shù)據(jù)傳輸能力;優(yōu)化異構(gòu)設備間的網(wǎng)絡中樞,根據(jù)異構(gòu)設備間計算和傳輸能力智能規(guī)劃全局網(wǎng)絡流量,化解跨域、域內(nèi)通信流量阻塞;構(gòu)建異構(gòu)算力間統(tǒng)一通信接口,封裝常用集合通信操作,向下自動適配各異構(gòu)廠商集合通信庫,開發(fā)者無需感知底層差異,通過GDR(GPUDirectRemoteDirectMemoryAccess)等關鍵技術(shù)實現(xiàn)算力間顯存高效互通,實現(xiàn)不同芯片間的超低時延傳輸。(3)統(tǒng)一調(diào)度:實現(xiàn)全局最優(yōu)的資源編排中樞統(tǒng)一調(diào)度是異構(gòu)算力協(xié)同的智能決策中樞,旨在解決多任務資源爭用引發(fā)的“效率下降”難題,構(gòu)建全局最優(yōu)的資源編排范式,實現(xiàn)對異構(gòu)算力集群的全維度精細化調(diào)度。針對異構(gòu)算力計算能力差距,面向大模型訓練場景構(gòu)建分布式并行策略組合、業(yè)務感知的非均質(zhì)拆分等能力,實現(xiàn)跨廠商算力的彈性按需調(diào)度;面向大模型推理場景,支持單機多卡異構(gòu)分布式推理和跨節(jié)點分布式異構(gòu)推理等多種形式,適配模型推理不同階段算力需求特性,精細化調(diào)度實現(xiàn)異構(gòu)算力降本增效;構(gòu)建大模型訓練和推理混合部署的調(diào)度底座,實現(xiàn)訓推任務的動態(tài)、實時切換,化解算力潮汐矛盾,完成從集群到設備級的異構(gòu)算力精細化調(diào)度,實現(xiàn)異構(gòu)算力集群的效能革命。(4)統(tǒng)一評測:建立全棧貫通的評估坐標系統(tǒng)一評測是衡量異構(gòu)算力綜合能力的核心手段,旨在解決異構(gòu)算力度量標準不一致而無法全方位對比的難題,構(gòu)建異構(gòu)算力全棧測評規(guī)范,通過精準的性能評估與測試,有效破解用戶面對多元異構(gòu)算力時的選型困境。評測廣泛覆蓋多樣化的評測場景、科學劃分多維度性能指標,構(gòu)建自動化、規(guī)范化的評測工具鏈,形成異構(gòu)算力在計算、通信、調(diào)度各環(huán)節(jié)的全方位評估,為芯片性能、計算精度、通信帶寬、模型適配性能等關鍵指標提供參考基準;打造全自動化測試平臺,可支持功能靈活集成配置、一鍵部署測試,減少手工測試繁瑣調(diào)配流程,極大提升測試效率;支持算力選型、算力推薦、集群驗收等多個應用場景,實時更新測評情況,精準定位業(yè)務與硬件適配能力并支持高效的異構(gòu)算力組合選型。3.1統(tǒng)一計算技術(shù)3.1.1跨架構(gòu)編譯為解決當前國內(nèi)AI算力異構(gòu)多元和生態(tài)割裂碎片化,導致AI模型開發(fā)存在“一芯一工具鏈、一模一調(diào)優(yōu)”的問題,提出跨架構(gòu)編譯技術(shù)。此技術(shù)采用歸一化的異構(gòu)硬件抽象,統(tǒng)一編程模型與接口和智能動態(tài)編譯優(yōu)化,構(gòu)建跨芯片、可擴展、自優(yōu)化的編譯系統(tǒng),實現(xiàn)AI模型的“一次編寫、多芯運行、智能優(yōu)化”。當前業(yè)界現(xiàn)有AI編譯器大體分三類:一是芯片廠商閉源編譯器,例如英偉達的NVCC(NvidiaCUDACompiler)編譯器和華為的畢昇編譯器等,針對單一架構(gòu)深度定制優(yōu)化;二是大而全的統(tǒng)一異構(gòu)編程框架如SYCL、OpenCL等,通過單一代碼和多目標編譯實現(xiàn)多(TensorVirtualMachine)、Triton等,通過統(tǒng)一中間表示和MLIR自動編譯優(yōu)化實現(xiàn)跨架構(gòu)的編譯??缂軜?gòu)編譯關鍵技術(shù)主要包括異構(gòu)硬件抽象、統(tǒng)一編程模型與接口和智能動態(tài)編譯優(yōu)化:(1)異構(gòu)硬件抽象:異構(gòu)硬件可分為存儲、計算、同步抽象,存儲抽象采用“無限寄存器+SPM+內(nèi)存”模型來解決多種編程模型帶來的訪存差異,計算抽象提供顯式張量/向量指令語義,使高層IR到低層ISA映射具備可理解性,同步抽象采用單指令細粒度同步,以依賴關系為同步指令的紐帶,方便上層應用生成到低層次指令集。(2)統(tǒng)一編程模型:統(tǒng)一編程模型與接口主要基于MLIR體系,通過引入統(tǒng)一編程與編譯框架的中間表示形式,可以通過定義自己的“方言”支持不同領域的計算表示,支撐多種源語言的跨芯片編譯;同時統(tǒng)一編程接口可支撐代碼生成和后端優(yōu)化的復用,賦能運行時的垂直優(yōu)化。(3)智能動態(tài)編譯優(yōu)化:智能動態(tài)編譯優(yōu)化主要包括動態(tài)編譯機制、融合優(yōu)化方法、圖算融合代碼生成,動態(tài)編譯機制在運行時即時生成代碼,支持輸入可變和網(wǎng)絡結(jié)構(gòu)自適應。單模型和跨模型的融合優(yōu)化方法,研究運行時共感知的跨模型算子融合。圖算融合代碼生成基于張量表達式對整圖進行全局依賴分析,在子圖內(nèi)做等價變換和算子融合,提升片上緩存利用率并降低端到端延遲。最終通過跨架構(gòu)編譯技術(shù)開發(fā)者以統(tǒng)一語言描述AI模型,以跨架構(gòu)編譯自動完成多元異構(gòu)的AI芯片部署與動態(tài)優(yōu)化,一套代碼多端運行,縮短模型適配提高異構(gòu)算力性能,促進國產(chǎn)算力生態(tài)健康發(fā)展。3.1.2統(tǒng)一算子加速庫面對AI模型訓練與推理在多元異構(gòu)集群上的性能碎片化、代碼重復和維護成本飆升的問題,統(tǒng)一算子加速庫利用統(tǒng)一編程語言和極致算子編程實現(xiàn)形成跨架構(gòu)的高性能算子庫,芯片廠商僅需在編譯后端做差異化調(diào)優(yōu)即可共享算子實現(xiàn),同時兼顧性能與生態(tài)。業(yè)界現(xiàn)有的算子加速庫方案大致分三類:手寫專用庫(cuDNN、MIOpen)性能極致但不可移植;編譯器自動生成(TVM、XLA)通用性強卻調(diào)優(yōu)慢;框架下沉原語(PrimTorch)易用但深度受限于框架性能未能極致優(yōu)化。統(tǒng)一算子加速庫關鍵技術(shù)主要包括高性能算子實現(xiàn)、跨架構(gòu)算子自動優(yōu)化和輕量級運行(1)算子高性能實現(xiàn):通過極致利用統(tǒng)一編程模型的編程優(yōu)化技巧,最優(yōu)內(nèi)存布局選擇,極致分塊策略和計算流水并行,線程特化和內(nèi)存合并優(yōu)化等編程優(yōu)化技術(shù),編寫高性能的算子實現(xiàn)。(2)跨架構(gòu)算子自動優(yōu)化:通過擴展Tile/Block調(diào)度原語,為不同的異構(gòu)AI芯片后端提供獨立的代價模型,在BlockSize、PipelineStage等參數(shù)空間自動搜索找出最優(yōu)組合,實現(xiàn)算子性能在不同架構(gòu)上的自動優(yōu)化。(3)輕量級運行時:通過獨立緩存機制繞過即時編譯默認對運行時裝飾器的多層冗余調(diào)用,從而降低CPU端運行時開銷優(yōu)化小算子長尾延遲。最終以高性能可復用全覆蓋的多端統(tǒng)一的算子庫,消除不同芯片間算子代碼碎片化的問題,大幅降低維護和二次開發(fā)調(diào)用成本,讓整個異構(gòu)多元算力更加好用易用。3.2統(tǒng)一互聯(lián)技術(shù)3.2.1統(tǒng)一集合通信庫面向異構(gòu)算力協(xié)同場景中不同芯片通信庫各異導致通信算法的實現(xiàn)和優(yōu)化不具備通用性與自適應性、通信機制不互通而不能產(chǎn)生“信息交流”的問題,造成大模型訓推過程中參數(shù)傳輸、梯度同步、中間數(shù)據(jù)交互阻塞,需要構(gòu)建統(tǒng)一集合通信庫支持異構(gòu)芯片間通信原語的轉(zhuǎn)譯。統(tǒng)一集合通信庫提供統(tǒng)一通信算子接口層,屏蔽底層不同芯片中通信原語實現(xiàn)細節(jié),實現(xiàn)通信優(yōu)化跨芯片、跨任務、跨規(guī)模的自適應優(yōu)化能力。業(yè)界統(tǒng)一集合通信庫分為兩條技術(shù)路線,一是以實現(xiàn)CUDA(ComputeUnifiedDeviceArchitecture)生態(tài)兼容為目標,通過完全復現(xiàn)英偉達通信協(xié)議棧、包括接口層對齊、數(shù)據(jù)通信格式二進制兼容、運行時無感知替換等,實現(xiàn)與英偉達芯片的無縫集成;二是以統(tǒng)一適配為核心,通過標準化接口封裝層、廠商硬件適配層、統(tǒng)一跨芯通信三層抽象架構(gòu)解決跨異構(gòu)算力通信問題。統(tǒng)一集合通信庫關鍵技術(shù)主要包括集合通信原語優(yōu)化、異構(gòu)算力互聯(lián)和設備拓撲感知優(yōu)化等:(1)集合通信原語優(yōu)化:為通信原語設計支持異構(gòu)環(huán)境的專用算法,其核心能力包括異構(gòu)通信數(shù)據(jù)流編排、拓撲感知路由的最優(yōu)路徑選擇及計算通信重疊等,最大化并行度、均衡負載并規(guī)避單一設備瓶頸,顯著提升跨設備集合通信操作效率。(2)異構(gòu)算力互聯(lián):打破不同廠商GPU生態(tài)的封閉壁壘,通過統(tǒng)一通信抽象層或通用適配器調(diào)度框架,定義標準化的設備發(fā)現(xiàn)、內(nèi)存管理、任務提交接口,通過動態(tài)加載廠商特定后端,支持運行時透明調(diào)度、轉(zhuǎn)換異構(gòu)設備間的數(shù)據(jù)搬運、同步指令功能,實現(xiàn)跨生態(tài)算力的無縫協(xié)同。(3)設備拓撲感知優(yōu)化:深度感知并利用機內(nèi)Scale-Up和機間Scale-Out網(wǎng)絡連接拓撲,實時分析拓撲結(jié)構(gòu),動態(tài)選擇最優(yōu)算法、優(yōu)化數(shù)據(jù)流路徑,實現(xiàn)最小化跳數(shù)、優(yōu)先利用高速鏈路、全局拓撲協(xié)調(diào)的效果,使通信模式精確匹配底層硬件能力,消除性能瓶頸。3.2.2智算網(wǎng)絡互聯(lián)優(yōu)化面向異構(gòu)算力場景下智算網(wǎng)絡互聯(lián)的性能瓶頸與兼容性限制問題,因業(yè)務流量特征不同引發(fā)的鏈路負載不均、帶寬效率低下和收斂速度慢等因素制約算力協(xié)同效率,深度依賴特定廠商網(wǎng)卡使其網(wǎng)絡設備難以無縫集成、異構(gòu)芯片集合通信庫接口可編程性缺失阻礙協(xié)議棧優(yōu)化或流量調(diào)度技術(shù)的集成部署。智算網(wǎng)絡互聯(lián)優(yōu)化突破性能瓶頸并適配多元異構(gòu)環(huán)境,保障算力資源的全局高效協(xié)同。業(yè)界在異構(gòu)算力協(xié)同場景下的智算網(wǎng)絡互聯(lián)優(yōu)化分為兩條技術(shù)路線,一是純網(wǎng)側(cè)優(yōu)化方案,基于專用網(wǎng)絡設備,利用逐信元自適應路由技術(shù)逼近理論最優(yōu)負載均衡性能,該方案深度依賴專用硬件,通用兼容性受限,傳輸性能存在瓶頸,集群可擴展性存在上限。二是端網(wǎng)協(xié)同方案,基于標準以太網(wǎng)設備構(gòu)建,其核心機制在于:收集異構(gòu)算力節(jié)點的集合通信域信息并上報至集中控制器,由集中控制器實現(xiàn)業(yè)務流量的全局最優(yōu)路徑規(guī)劃和全局擁塞控制決策,有效解決了RoCEv2協(xié)議在智算負載均衡與擁塞控制方面的性能瓶頸,從而實現(xiàn)高效流量傳輸。智能網(wǎng)絡互聯(lián)優(yōu)化關鍵技術(shù)主要包括負載均衡、擁塞控制和GPUDirect等:(1)負載均衡:優(yōu)化多路徑流量分配,避免鏈路擁塞與帶寬浪費。其中,基于交換機端口狀態(tài)感知的自適應負載均衡,實時監(jiān)測端口隊列深度、時延,動態(tài)調(diào)整轉(zhuǎn)發(fā)端口;端網(wǎng)協(xié)同的集合通信全局路徑規(guī)劃,訓練框架與網(wǎng)絡控制器聯(lián)動,根據(jù)任務通信模式為不同通信原語提供最優(yōu)傳輸路徑,實現(xiàn)跨鏈路的智能流量調(diào)度與資源最大化利用。(2)擁塞控制:高效緩解密集型通信模式引發(fā)的瞬時擁塞,該技術(shù)依托細粒度擁塞控制信號或主動擁塞控制機制,通過動態(tài)調(diào)整發(fā)送速率、提前分流熱點流量等手段,顯著降低尾部延遲,保障大規(guī)模分布式訓練的通信穩(wěn)定性。(3)GPUDirect:消除主機內(nèi)存拷貝瓶頸,實現(xiàn)GPU與網(wǎng)絡的深度耦合,其核心技術(shù)為GDR支持網(wǎng)卡直接讀寫GPU顯存的零拷貝方式,以及GDA(GPUDirectAsync)允許GPU驅(qū)動直接操作網(wǎng)卡隊列。二者協(xié)同大幅降低GPU間跨節(jié)點Scale-Out通信的延遲與CPU開銷,提升端到端傳輸效率。(a)GDR傳輸流程3.2.3異構(gòu)互聯(lián)總線面向異構(gòu)算力單元Scale-Up縱向擴展面臨的超高帶寬、超低時延的內(nèi)存語義通信能力需求,異構(gòu)互聯(lián)總線從服務器內(nèi)8卡逐步擴展至千卡級高速互聯(lián)形態(tài),成為智算集群異構(gòu)算力組網(wǎng)性能提升的關鍵技術(shù)。業(yè)界在異構(gòu)互聯(lián)總線方面主要分為兩條技術(shù)路線,一是現(xiàn)階段發(fā)展速度較快的計算總線路線,一般基于自研總線定制,以廠商私有方案為主,具備成熟產(chǎn)品,英偉達去年發(fā)布的NVL72超節(jié)點產(chǎn)品,基于NVLink5.0整合72顆GPU,華為發(fā)布昇騰超節(jié)點,實現(xiàn)目前業(yè)界最大規(guī)模的384卡高速總線互聯(lián),由AMD、AsteraLabs、亞馬遜、思科等廠商聯(lián)合組建UALINK聯(lián)盟,目前UALINK1.0選擇推進計算總線型的開放解決方案。二是起步較晚的以太總線路線,主要基于以太網(wǎng)協(xié)議框架進行增強,博通今年5月發(fā)布基于以太網(wǎng)的Scale-Up解決方案—SUE,支持1024卡高速互聯(lián),每個XPU最大支持2.4TB/s雙向帶寬,并且博通配套發(fā)布了Tomahawk6和TomahawkUltra交換芯片,支持SUE協(xié)議的Scale-Up組網(wǎng),雖然博通SUE開發(fā)了標準,但技術(shù)解決方案依然專有;而國內(nèi)ETH-X、高通量以太聯(lián)盟等則積極推動開源開放的基于以太網(wǎng)的Scale-Up解決方案,ETH-X已發(fā)布樣機,高通量以太預計在今年秋季發(fā)布Scale-Up規(guī)范協(xié)議。由此可見,國內(nèi)計算路線以專有為主,技術(shù)暫時領先,以太路線則以開源開放為主,未來生態(tài)發(fā)展?jié)摿薮?。計算路線和以太路線有著共同的技術(shù)目標,即實現(xiàn)有限規(guī)模下XPU間大帶寬低時延的內(nèi)存語義通信,同時舍棄動態(tài)連接管理、選擇性重傳等復雜協(xié)議設計,通過靜態(tài)連接、鏈路重傳等來確保Scale-Up互聯(lián)的高效可靠傳輸。兩者的關鍵技術(shù)基本一致,主要包括互聯(lián)協(xié)議、互聯(lián)架構(gòu)、互聯(lián)硬件,只是在某些技術(shù)的實現(xiàn)上會有所差異。(1)互聯(lián)協(xié)議:主要定義Scale-Up互聯(lián)的層級架構(gòu)、報文結(jié)構(gòu)、通信機制、可靠性機制等,一般有協(xié)議層、傳輸層、鏈路層和物理層,有些硬件商會將協(xié)議層和傳輸層合并成事務層。協(xié)議層主要定義協(xié)議接口,提供內(nèi)存語義操作接口;傳輸層進行傳輸管理和數(shù)據(jù)包管理,計算路線和以太路線的方案各有不同;鏈路層則負責對接硬件,計算路線一般使用自定義數(shù)據(jù)包,以太路線則使用優(yōu)化后的以太網(wǎng)幀,兩者均會提供鏈路級重傳的可靠性機制,只是方法會有所不同;物理層則負責信號編碼、糾錯和傳輸,計算路線可以基于以太網(wǎng)物理層進行優(yōu)化,也可以使用自定義物理層,以太路線則一般沿用標準以太物理層。(2)互聯(lián)架構(gòu):指多XPU間的互聯(lián)拓撲架構(gòu),不管計算路線還是以太路線,業(yè)界一般采用一級Spine-Leaf組網(wǎng)架構(gòu)方案,XPU的IO數(shù)量與交換平面一一對應,也就是IO數(shù)量等于交換芯片數(shù)量,交換機的端口數(shù)量等于XPU數(shù)量,如果交換機還需要進行二級級聯(lián),則端口數(shù)量需要翻倍,此架構(gòu)為了實現(xiàn)在Scale-Up互聯(lián)域內(nèi),XPU間的帶寬是無收斂的。(3)互聯(lián)硬件:普遍包括單機柜AI超節(jié)點、分機柜AI超節(jié)點、級聯(lián)AI超節(jié)點三種方案,單機柜AI超節(jié)點在算力密度和功率密度上要求較高,規(guī)模也會較小,分機柜AI超節(jié)點則把計算節(jié)點、交換節(jié)點進行分離組裝,可較易提高超節(jié)點規(guī)模,級聯(lián)AI超節(jié)點則是多個單機柜超節(jié)點進行級聯(lián)組裝而成。3.3統(tǒng)一調(diào)度技術(shù)3.3.1分布式訓練框架面向因大模型參數(shù)規(guī)模持續(xù)突破單機算力與存儲極限而造成的分布式訓練需求中模型切分規(guī)格與異構(gòu)算力能力需合理適配的難題,將龐大的訓練任務智能拆分并協(xié)同調(diào)度到多種異構(gòu)算力上執(zhí)行,需要分布式訓練框架在現(xiàn)有基礎上具備異構(gòu)算力感知、模型任務適配和智能調(diào)度等能力,以充分挖掘異構(gòu)集群的計算潛力。分布式訓練框架主要圍繞模型訓練任務拆分與適配計算單元兩個核心任務,主流分布式訓練框架包括Megatron-LM、DeepSpeed等,均能支持數(shù)據(jù)并行、模型并行、混合并行等多種并行策略,并按照并行策略將模型拆分部署在多個計算單元。然而,現(xiàn)有計算單元大多是同構(gòu)的,異構(gòu)硬件間巨大的帶寬差異、動態(tài)變化的集群負載、以及不同并行策略對通信和計算資源的差異化需求,使得靜態(tài)、粗粒度的資源綁定效率低下,需要在現(xiàn)有分布式訓練框架基礎上進行更新升級,使其能夠動態(tài)感知資源狀態(tài)并做出最優(yōu)決策。分布式訓練框架在異構(gòu)算力協(xié)同基礎上進行升級的主要技術(shù)包括精準任務建模、資源拓撲感知、異構(gòu)負載均衡、通信與計算重疊優(yōu)化和并行策略聯(lián)動調(diào)度:(1)精準任務建模:調(diào)度系統(tǒng)首先將訓練過程抽象為有向無環(huán)圖(DirectedAcyclicGraph,DAG),顯式標注算子對設備類型的兼容性(如NPU加速算子、CPU預處理節(jié)點精確刻畫算子間的計算與數(shù)據(jù)依賴關系,為跨架構(gòu)設備的自動化并行切分(支持DP/TP/PP/EP等)提供基礎。(2)資源拓撲感知:用于指導任務部署,基于DAG模型,構(gòu)建跨設備類型拓撲模型,指導調(diào)度器將通信任務映射至最優(yōu)異構(gòu)鏈路。(3)異構(gòu)負載均衡:建立異構(gòu)設備能力畫像,結(jié)合任務特征動態(tài)分配到合適算力,如將計算密集層綁定高算力設備,顯存密集算子調(diào)度至大顯存設備,以達到消除算力短板目的。(4)通信-計算重疊優(yōu)化:為了進一步減少通信延遲對整體吞吐的影響,調(diào)度器與底層高性能異構(gòu)通信協(xié)議深度協(xié)同,異步執(zhí)行通信操作,并與后續(xù)非依賴計算(如下一微批次前向傳播)重疊,利用通信融合、環(huán)形拓撲優(yōu)化等技術(shù)隱藏延遲,提升并行場景吞吐率。(5)并行策略聯(lián)動調(diào)度:系統(tǒng)智能地融合模型結(jié)構(gòu)、集成DAG/拓撲/負載數(shù)據(jù)及實時異構(gòu)資源狀態(tài)信息,動態(tài)決策最優(yōu)并行策略組合與資源綁定方案,以實現(xiàn)資源利用率和訓練穩(wěn)定性的最大化。3.3.2分布式推理系統(tǒng)面向大模型推理服務需求激增,需要應對高并發(fā)、極低延遲響應以及異構(gòu)混合部署等復雜場景需求,對分布式推理系統(tǒng)提出動態(tài)拆分推理任務、并發(fā)執(zhí)行、異構(gòu)算力協(xié)同的更高要求,旨在顯著提升系統(tǒng)吞吐性能和響應速度。業(yè)界現(xiàn)有推理系統(tǒng)主要包括集中式推理和PD分離式推理兩類模式,集中式推理系統(tǒng),將大模型推理Prefill(簡稱P)階段與Decode(簡稱D)階段部署在同一節(jié)點,對底層異構(gòu)GPU資源的動態(tài)感知與適配能力弱。PD分離推理系統(tǒng)將P階段與D階段分布式部署,P階段形成首Token和初始KVCache后通過高速網(wǎng)絡傳輸給D階段,D階段自回歸生成后續(xù)Token。目前,PD分離式推理系統(tǒng)主要圍繞同構(gòu)GPU集群,對有效整合異構(gòu)GPU資源進行協(xié)同P/D調(diào)度仍在起步階段,跨異構(gòu)GPU節(jié)點的緩存共享與負載均衡能力不足??傮w而言,現(xiàn)有推理系統(tǒng)在高效、智能協(xié)同推理調(diào)度方面存在不足。構(gòu)建高效異構(gòu)GPU分布式推理系統(tǒng)的關鍵技術(shù)包括任務調(diào)度與資源綁定、KV緩存遷移與共享機制、異構(gòu)資源適配與優(yōu)化算子調(diào)度等。(1)任務調(diào)度與資源綁定:集中式推理以完整請求為粒度,通常使用靜態(tài)映射表或單負載均衡將請求一次性綁定到某節(jié)點,調(diào)度邏輯相對簡單,擴展性受限。PD分離推理核心在于支持Prefill與Decode階段的跨節(jié)點、跨異構(gòu)GPU動態(tài)解耦與綁定,調(diào)度器需實時感知不同類型GPU的實時負載,實現(xiàn)計算密集型Prefill階段與訪存密集型Decode階段在異構(gòu)資源上的精準匹配。(2)KV緩存?zhèn)鬏斉c共享機制:集中式推理的推理全過程通常在單GPU或同構(gòu)集群內(nèi)完成,KV緩存本地生成、本地訪問,一般無跨設備/節(jié)點遷移需求。PD分離推理當Prefill和Decode被調(diào)度到不同設備時,需要實現(xiàn)KVCache高效緩存?zhèn)鬏敾蚬蚕?,需要設計極低延遲、高帶寬的KV緩存?zhèn)鬏攨f(xié)議和緩存對齊/兼容機制,以解決不同GPU硬件架構(gòu)間的緩存格式差異,確??绠悩?gòu)設備的高效共享與訪問。(3)異構(gòu)資源適配:集中式推理通常依賴推理框架內(nèi)置算子親和性規(guī)則,將模型部署在指定硬件。PD分離式推理可針對Prefill與Decode兩階段特性分別適配不同算力資源,實現(xiàn)全局推理效率最大化。3.3.3跨域異構(gòu)算力協(xié)同面向算力需求的持續(xù)增長與算力資源的碎片化分布現(xiàn)狀,跨地域異構(gòu)算力集群互聯(lián)互通難導致集群間難以實現(xiàn)高效連接,嚴重制約任務跨域傳輸?shù)男?。為解決這些問題,需要網(wǎng)絡和算力間進行一體化考慮,在網(wǎng)絡感知算力、算力融入網(wǎng)絡等方面保障跨域異構(gòu)算力集群高效協(xié)同。業(yè)界針對跨域異構(gòu)算力協(xié)同主要呈現(xiàn)兩種方式,一是多任務分發(fā)式算力調(diào)度,通過將分散、異構(gòu)算力資源進行感知、連接、整合對系統(tǒng)中多任務進行按需供給和靈活分配,為每項任務調(diào)配到最優(yōu)區(qū)域和算力資源,提升系統(tǒng)整體算力利用情況;二是組合式單任務算力調(diào)度,例如將大模型訓練任務分發(fā)到遠隔千里的多個異構(gòu)智算中心,由多區(qū)域、多類型算力共同完成同一任務,突破單域、同構(gòu)算力瓶頸,將訓練任務進行按需粒度拆分與智能化調(diào)度??缬虍悩?gòu)算力協(xié)同關鍵技術(shù)包括算力路由與尋址、算網(wǎng)一體化調(diào)度和跨域多算力節(jié)點高速無損網(wǎng)絡:(1)算力路由與尋址:通過在網(wǎng)絡中引入計算信息,實現(xiàn)網(wǎng)絡與算力的聯(lián)合調(diào)度,綜合算力資源狀態(tài)、業(yè)務需求等因素,實現(xiàn)“一對多”的算網(wǎng)尋址路由,基于IPv6/SRv6協(xié)議的新型路由協(xié)議與尋址機制,結(jié)合算力與距離等多要素融合路由,生成調(diào)度策略。(2)算網(wǎng)一體化調(diào)度:采用SDN、SRv6、算力智能網(wǎng)關等技術(shù),構(gòu)建算力中心統(tǒng)一出口,根據(jù)任務優(yōu)先級、資源負載等因素,實現(xiàn)公平、高效的資源分配和任務調(diào)度,保障跨域智算網(wǎng)絡連接的敏捷拆建、智能選路、低時延隧道動態(tài)連接及彈性帶寬調(diào)整。(3)跨域多算力節(jié)點高速無損網(wǎng)絡:采用IP+光技術(shù)實現(xiàn)跨數(shù)據(jù)中心1.6T的超高帶寬網(wǎng)絡,滿足大模型訓練高通量數(shù)據(jù)傳輸需求,通過PFC、ECN、FastCNP等新型流控和負載均衡技術(shù),保障協(xié)同訓練的網(wǎng)絡無損要求。3.4統(tǒng)一評測體系智算芯片存在產(chǎn)品型號多樣、缺乏權(quán)威算力評測標準和自動化工具,以及測試耗時時間長、工作量大等問題。統(tǒng)一評測體系通過統(tǒng)一指標、統(tǒng)一工具、統(tǒng)一數(shù)據(jù),為芯片選型、容量規(guī)劃、性能優(yōu)化提供可度量、可對比、可復現(xiàn)的統(tǒng)一標準和自動化測試工具與用例,實現(xiàn)厘清異構(gòu)智算算力的優(yōu)缺點與適用場景,促進算力落地,指導未來算力發(fā)展。業(yè)界現(xiàn)有評測實踐大致分三類,一是芯片原廠自測,側(cè)重自家峰值算力,數(shù)據(jù)孤島化;二是第三方實驗室評測,資源有限、更新慢、模型覆蓋面不足;三是頭部云廠商自建Benchmark,場景封閉、結(jié)果不可橫向?qū)Ρ?。三類方案均停留在“單點、單次、單模型”層面,缺乏自動測試的機制,難以支撐多元異構(gòu)、快速迭代的國產(chǎn)芯片落地使用。統(tǒng)一評測體系關鍵技術(shù)主要包括統(tǒng)一測試標準、自動測試平臺和算力排行推薦:(1)統(tǒng)一測試標準:統(tǒng)一測試標準支持多種國內(nèi)外主流AI芯片,覆蓋基本性能、算子性能、集合通信、大模型訓練、大模型推理、多媒體性能、云化能力等7大場景,形成多個可量化指標,實現(xiàn)主流AI芯片的統(tǒng)一度量全面評測橫向可比。(2)自動化測試平臺:提供可復用和可自定義的測試腳本用例庫,可按需組裝測試方案,采用基于容器化調(diào)度與流水線編排,平臺可一鍵拉起千卡級集群測試任務,支持多種國內(nèi)外主流AI芯片,極大提升測試效率。(3)算力排行與推薦:以真實測試數(shù)據(jù)構(gòu)建可滾動發(fā)布算力排行,可實時調(diào)用最新基線數(shù)據(jù),提供場景化的算力計算模型器,利用歷史排行數(shù)據(jù)有效支持算力選型推薦。最終,統(tǒng)一評測體系將成為智算算力生態(tài)的統(tǒng)一標尺,讓每一家芯片廠商在同一賽道比拼,廠家可以建立基線持續(xù)改進,用戶可以“一圖看懂、一鍵選型”,以評促建指引智算算力未來發(fā)展。以異構(gòu)算力混池訓練和混合推理為代表的異構(gòu)算力協(xié)同業(yè)務面臨不同設備間軟件棧不兼容、算力調(diào)度負載不均衡等多重挑戰(zhàn),以中國電信、智源研究院、壁仞科技和微軟為代表的產(chǎn)業(yè)機構(gòu),圍繞大模型在異構(gòu)算力環(huán)境下的高效訓練與低延遲推理開展系列關鍵技術(shù)創(chuàng)新并推動可行性驗證。4.1“一模多芯”異構(gòu)混池訓練異構(gòu)混池訓練是指將訓練任務解耦至多種(大于等于2種)來自不同芯片商的AI算力芯片,協(xié)同完成同一大模型訓練過程,需要在算力芯片統(tǒng)一納管、集合通信庫、訓練框架等層面實現(xiàn)逐層對接。4.1.1中國電信智算異構(gòu)四芯混訓解決方案中國電信聯(lián)合壁仞科技、中興通訊、中國科學院計算技術(shù)研究所、上海人工智能實驗室、北京郵電大學、中科加禾、天數(shù)智芯、沐曦等單位率先發(fā)布了包括統(tǒng)一訓練框架、統(tǒng)一集合通信庫、統(tǒng)一RDMA網(wǎng)絡的“智算異構(gòu)四芯混訓解決方案”,打造覆蓋算力、網(wǎng)絡、通信庫、平臺與訓練框架的全棧異構(gòu)融合方案,標志著我國在多芯異構(gòu)算力協(xié)同訓練領域邁出了關鍵性一步。(1)在訓練框架層:針對異構(gòu)算力性能、顯存和計算效率方面差異而導致的整體訓練效率受限的問題,研發(fā)統(tǒng)一異構(gòu)混合訓練框架,基于異構(gòu)算力感知能力實現(xiàn)非均勻模型拆分,最大化釋放異構(gòu)芯片的協(xié)同潛力。(2)在集合通信層:針對不同AI芯片間通信協(xié)議和接口標準不統(tǒng)一而造成的互通阻礙,構(gòu)建了統(tǒng)一異構(gòu)集合通信庫,屏蔽底層硬件差異,支持多種異構(gòu)芯片間的集合操作,首次實現(xiàn)了基于GDR的高速、低延遲跨芯通信功能,顯著提升了異構(gòu)混訓的整體協(xié)同效率。(3)在網(wǎng)絡互聯(lián)層:針對異構(gòu)網(wǎng)絡環(huán)境通信瓶頸問題,設計RDMA網(wǎng)絡擁塞控制機制,支持多鏈路、多芯片異構(gòu)網(wǎng)絡的端網(wǎng)協(xié)同調(diào)度,可根據(jù)網(wǎng)絡拓撲和任務負載動態(tài)調(diào)整通信路徑與流控策略,實現(xiàn)低延遲、高帶寬的跨芯片通信性能優(yōu)化?;谏鲜觥爸撬惝悩?gòu)四芯混訓解決方案”,中國電信開展英偉達、壁仞、天數(shù)智芯、沐曦四款異構(gòu)芯片混池訓練試驗,測試Llama-2-7B/34B/70B、TeleChat等大模型,實現(xiàn)跨異構(gòu)芯片網(wǎng)絡性能提升30%,異構(gòu)通信效率大于98%,異構(gòu)訓練效率達同構(gòu)訓練的95%,推動異構(gòu)算力混池訓練,打造異構(gòu)算力“合力”,實現(xiàn)“超大算力”統(tǒng)一供給。4.1.2智源研究院異構(gòu)混訓解決方案智源研究院推出端到端異構(gòu)混訓解決方案,圍繞“統(tǒng)一并行策略”與“高效通信機制”兩大核心技術(shù)路徑開展系統(tǒng)性布局,構(gòu)建了以FlagScale和FlagCX為基礎的技術(shù)體系,為多廠商、多架構(gòu)AI芯片的協(xié)同訓練提供了通用化、可規(guī)?;慕鉀Q方案。(1)在并行策略層:通過FlagScale實現(xiàn)異構(gòu)混合并行訓練,設計并實現(xiàn)了面向多種芯片架構(gòu)的通用并行策略體系,能夠根據(jù)芯片類型、計算能力和通信帶寬等特性自動完成非均勻任務劃分,實現(xiàn)跨芯片算力的負載均衡與性能優(yōu)化。FlagScale已支持包括智源自研Aquila系列與Emu3在內(nèi)的10余種大模型的端到端訓練,涵蓋語言、多模態(tài)、具身智能等多個領域,支持稠密與稀疏模型訓練,參數(shù)規(guī)模從億級至千億級不等。(2)在集合通信層:FlagScale已兼容包括壁仞、天數(shù)智芯、沐曦、昆侖芯、寒武紀、摩爾線程、海光以及華為昇騰等在內(nèi)的多種國產(chǎn)AI芯片,同時支持CPU中轉(zhuǎn)和RDMA直連兩種通信模式,實現(xiàn)了異構(gòu)芯片間靈活高效的協(xié)同訓練。在集合通信層,打通異構(gòu)芯片間通信壁壘,研發(fā)統(tǒng)一通信庫FlagCX,基于標準協(xié)議和兼容廠商通信庫,實現(xiàn)多款國產(chǎn)芯片之間的高效通信與集合操作?;谏鲜霎悩?gòu)混訓方案,智源團隊針對自研大模型Aquila-3B展開了端到端混合預訓練,采用4臺英偉達GPU與4臺天數(shù)BI-V150芯片混合構(gòu)建訓練集群,共計消耗1TB的高質(zhì)量文本數(shù)據(jù),并與采用8臺英偉達GPU的同構(gòu)集群進行對比。在全過程監(jiān)督下,異構(gòu)混訓的Loss收斂趨勢與同構(gòu)系統(tǒng)高度一致,模型精度偏差范圍在-2.05%到0.04%之間,訓練效果基本一致,驗證了異構(gòu)訓練方案在精度保持與性能收斂方面的工程可行性與實用性。4.1.2壁仞科技異構(gòu)GPU協(xié)同訓練方案HGCT壁仞科技推出異構(gòu)GPU協(xié)同訓練方案HGCT(HeterogeneousGPUCollaborativeTraining采用三層架構(gòu)層次設計,包括異構(gòu)調(diào)度、異構(gòu)通信、異構(gòu)拆分。2025年3月,壁仞科技與上海人工智能實驗室聯(lián)合開展千卡規(guī)模異構(gòu)混訓,聯(lián)合設計了HGCT統(tǒng)一異構(gòu)通信庫+DeepLink統(tǒng)一異構(gòu)訓練框架的超大規(guī)模異構(gòu)混訓方案。(1)在統(tǒng)一異構(gòu)通信庫層:采用插件化、模塊化設計機制,向上一行代碼實現(xiàn)訓練框架無縫對接,向下自動屏蔽異構(gòu)GPU差異,實現(xiàn)無感高速通信。首先采用通信子圖自動拆分機制,縮小異構(gòu)通信范圍,發(fā)揮原廠通信庫在同構(gòu)通信域的性能優(yōu)勢,針對異構(gòu)通信域則使用HGCT的異構(gòu)GDR通信能力。異構(gòu)GDR采用模塊化、插件化設計,抽象GDR通信的核心邏輯,將依賴底層芯片的相關接口剝離,自動鏈接外部依賴,大幅降低適配和升級維護成本。(2)在異構(gòu)訓練框架層:采用PP流水線異構(gòu)并行拆分策略,針對不同廠商異構(gòu)芯片的算力、顯存、互連帶寬的差異性,采用細粒度顯存優(yōu)化如SelectiveRecompute、AsyncOffload以及異構(gòu)TP(不同流水Stage采用不同的TP策略)等技術(shù),在流水調(diào)度層面取長補短、深度調(diào)優(yōu),設計異構(gòu)并行自動尋優(yōu)機制實現(xiàn)多種拆分策略的最佳組合?;谏鲜龇桨?,壁仞科技聯(lián)合上海人工智能實驗室開展四種國產(chǎn)GPU千卡規(guī)?;旌嫌柧殻煊栃蔬_98.5%,實現(xiàn)千億參數(shù)大模型長時間高效穩(wěn)定訓練,實現(xiàn)了國產(chǎn)芯片+國產(chǎn)異構(gòu)通信庫+國產(chǎn)訓練框架+國產(chǎn)大模型的深度融合。下一步將參照工信部“算力互聯(lián)互通行動計劃”算力業(yè)務互通創(chuàng)新行動要求,進一步攻關萬卡規(guī)模異構(gòu)混訓難題,逐步實現(xiàn)萬億、十萬億規(guī)模參數(shù)的大模型訓練。4.2低成本異構(gòu)混合推理異構(gòu)混合推理是指協(xié)同調(diào)度來自不同芯片商算力完成大模型推理任務,當前的異構(gòu)混合推理以Prefill-Decode分離式推理為主,通過將大模型推理過程解耦為高算低存需求的Prefill階段和低算高存需求的Decode階段,充分適配異構(gòu)芯片能力,從而構(gòu)建靈活、高性能、可擴展的異構(gòu)大模型推理系統(tǒng)。4.2.1微軟Splitwise異構(gòu)PD分離混合推理方案微軟聯(lián)合華盛頓大學設計Splitwise推理優(yōu)化方案,旨在通過“PD分離”提升資源利用率、降低推理延遲并優(yōu)化整體吞吐量。(1)在調(diào)度機制方面:Splitwise采用兩級分層架構(gòu),集群級調(diào)度器負責管理P池、D池及混合池資源并進行動態(tài)調(diào)度,將推理任務分配至最優(yōu)資源組合。機器級調(diào)度器監(jiān)控GPU內(nèi)存和推理任務隊列,基于任務優(yōu)先級調(diào)度,保障SLO(ServiceLevelObjective)下的低延遲。Splitwise通過對大模型推理流程的深度解耦和算力資源的智能調(diào)度,實現(xiàn)了Prefill和Decode階段在英偉達不同代際AI芯片上的高效協(xié)同。(2)在KVCache高效傳輸方面:為減少Prefill和Decode間的傳輸延遲,實現(xiàn)異步分層KVCache傳輸方案,在Prefill階段,每層完成即觸發(fā)該層緩存的異步傳輸,同步開啟下一層計算,從而達到計算與通信的重疊?;赟plitwise的異構(gòu)混合推理方案,以對話追蹤任務為場景和A100為基準,基于A100同構(gòu)集群,PD分離在相同功耗和成本下吞吐量提升2.15倍,構(gòu)建英偉達A100和H100異構(gòu)集群進行協(xié)同調(diào)度,系統(tǒng)在維持相同功耗的前提下將整體成本降低約10%,并實現(xiàn)了1.18倍的吞吐性能提升。結(jié)果表明,Splitwise能夠有效提升大模型推理系統(tǒng)的整體效能,并驗證了其在功耗受限場景下的高效部署潛力。4.2.2中國電信異構(gòu)PD分離混合推理方案中國電信聯(lián)合智源研究院、壁仞科技、基流科技形成業(yè)界PD分離混合推理優(yōu)化方案,重點突破數(shù)據(jù)傳輸、全局資源調(diào)度、異構(gòu)并行策略和多級KVCache緩存體系四大關鍵技術(shù),提出具備高吞吐、低時延與強可擴展性的混合推理方案。(1)在數(shù)據(jù)傳輸方面:構(gòu)建異構(gòu)GPU之間KVCache高速異步傳輸引擎,支持異構(gòu)GPU顯存間高速直連傳輸與GPU顯存-CPU內(nèi)存間異步非阻塞傳輸,支持按Layer或Block異步傳輸KVCache,顯著降低異構(gòu)KVCache通信開銷,提升推理吞吐。(2)在調(diào)度方面:構(gòu)建面向異構(gòu)芯片的全局資源調(diào)度模塊,支持從單P多D到多P多D的靈活調(diào)度,并依據(jù)負載均衡等因素動態(tài)調(diào)整PD階段的資源配比,以滿足不同推理場景的時延與吞吐目標。(3)在并行策略方面:構(gòu)建了面向異構(gòu)芯片的并行策略,支持P和D實例針對異構(gòu)GPU的算力、顯存、通信特點采用不同的并行策略,支持異構(gòu)TP、EP等。(4)在緩存設計方面:系統(tǒng)引入多級KVCache緩存機制,通過構(gòu)建顯存、內(nèi)存與本地SSD(SolidStateDrive)等多層存儲架構(gòu),實現(xiàn)冷熱數(shù)據(jù)分級管理與調(diào)度。基于上述異構(gòu)PD分離混合推理方案,面向DeepSeek系列大模型,開展針對英偉達、壁仞、天數(shù)智芯、沐曦四款異構(gòu)芯片的交叉混合推理實驗,系統(tǒng)性地評估了在內(nèi)容/代碼生成(1K以內(nèi)短輸入/2K以上長輸出)、內(nèi)容分析總結(jié)(2K以上長輸入/1K以內(nèi)短輸出)等場景下不同異構(gòu)算力組合的時延、吞吐量兩個關鍵性能指標和成本效能優(yōu)化情況,基于實測吞吐動態(tài)調(diào)整PD兩階段資源最佳配比,交叉混合推理吞吐性能最高提升72%,成本最大降低42%,盤活異構(gòu)國產(chǎn)算力,實現(xiàn)“利舊降本”,為后續(xù)推進異構(gòu)芯片混合部署和規(guī)模化應用提供了技術(shù)驗證。5.1芯片級:新計算范式芯片當前主流AI芯片(包括GPGPU和ASIC)仍延續(xù)馮·諾依曼架構(gòu)的“計算-存儲分離”設計模式,該架構(gòu)在應對大模型時代的海量數(shù)據(jù)并行計算需求時面臨“內(nèi)存墻”和“功耗墻”瓶頸,催生計算-存儲單元融合設計的發(fā)展趨勢,存算一體芯片應運而生。面對這些根本性挑戰(zhàn),存算一體架構(gòu)被視為突破傳統(tǒng)架構(gòu)極限、解鎖大模型算力能效瓶頸的關鍵方向

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論