




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
高性能計(jì)算平臺(tái)使用培訓(xùn)主要內(nèi)容什么是高性能計(jì)算西電高性能計(jì)算中心概況Linux常用命令高性能計(jì)算集群及調(diào)度介紹平臺(tái)使用簡(jiǎn)介高算資源申請(qǐng)常見問題釋疑1.什么是高性能計(jì)算第一章什么是高性能計(jì)算高性能計(jì)算
高性能計(jì)算(HPC)指通常使用很多處理器(作為單個(gè)機(jī)器的一部分)或者某一集群中組織的幾臺(tái)計(jì)算機(jī)(作為單個(gè)計(jì)算資源操作)的計(jì)算系統(tǒng)和環(huán)境。有許多類型的HPC系統(tǒng),其范圍從標(biāo)準(zhǔn)計(jì)算機(jī)的大型集群,到高度專用的硬件。大多數(shù)基于集群的HPC系統(tǒng)使用高性能網(wǎng)絡(luò)互連,比如那些來自InfiniBand的網(wǎng)絡(luò)互連。高性能計(jì)算的一個(gè)典型趨勢(shì)就是將多個(gè)計(jì)算機(jī)系統(tǒng)連接在一起,利用所有被連接系統(tǒng)的綜合計(jì)算能力來處理大型計(jì)算問題。這通常被稱為高性能計(jì)算集群。這一計(jì)算方法的基本原理就是將問題分為若干部分,而相連的每臺(tái)計(jì)算機(jī)(稱為節(jié)點(diǎn))均可同時(shí)將其解決,從而顯著縮短了解決整個(gè)問題所需的計(jì)算時(shí)間。為什么要做高性能計(jì)算人類對(duì)計(jì)算及性能的要求是無止境的從系統(tǒng)的角度:集成系統(tǒng)資源,以滿足不斷增長(zhǎng)的對(duì)性能和功能的要求從應(yīng)用的角度:適當(dāng)分解應(yīng)用,以實(shí)現(xiàn)更大規(guī)?;蚋?xì)致的計(jì)算高性能計(jì)算作為計(jì)算機(jī)科學(xué)的一個(gè)分支,致力于開發(fā)高性能計(jì)算機(jī)和運(yùn)行在高性能計(jì)算機(jī)上的應(yīng)用軟件?;仡櫄v史,高性能計(jì)算作為一個(gè)強(qiáng)大的計(jì)算工具,與科學(xué)研究的發(fā)展密不可分。一方面,科學(xué)研究對(duì)計(jì)算能力永無止境的需求促進(jìn)了高性能計(jì)算技術(shù)向前發(fā)展;另一方面,高性能計(jì)算技術(shù)的每一次巨大進(jìn)步都為科學(xué)研究提供了全新的手段。高性能集群性能衡量指標(biāo)FLOPS(浮點(diǎn)運(yùn)算每秒)理論峰值:峰值=主頻(GHz)*總核心數(shù)*4(4代表每個(gè)時(shí)鐘周期做4次浮點(diǎn)運(yùn)算)
例如:10個(gè)AMD雙路12核刀片(CPU6174,主頻2.2)總核心數(shù)=10×2×12=240
峰值=2.2×240×4=2112GFLOPS=2.1TFLOPS=2.1萬億次。
GPU峰值:每張2050卡雙精度峰值=0.515TFLOPS單精度峰值=1.03TFOPS
雙精度峰值=0.515*GPU卡數(shù)目(TFLOPS)單精度峰值=1.03*GPU卡數(shù)目(TFLOPS)高性能集群性能衡量指標(biāo)系統(tǒng)效率=實(shí)測(cè)峰值/理論峰值如何提高效率:(1)通過優(yōu)化網(wǎng)絡(luò)(2)通過優(yōu)化測(cè)試程序的編譯與設(shè)置(3)通過優(yōu)化內(nèi)存的配置與容量(4)通過優(yōu)化運(yùn)行參數(shù)及系統(tǒng)參數(shù)!目前:一套通過Infiniband網(wǎng)絡(luò)互連的集群,效率一般在70%以上。高性能計(jì)算應(yīng)用領(lǐng)域2.西電高性能計(jì)算中心概況第二章高性能計(jì)算中心簡(jiǎn)介
我校高性能計(jì)算公共平臺(tái)于2020年10月正式投入使用,是我?!半p一流”高校建設(shè)的重要基礎(chǔ)設(shè)施,由信息和網(wǎng)絡(luò)中心負(fù)責(zé)建設(shè)和運(yùn)維,面向全校提供科學(xué)計(jì)算的公共服務(wù),滿足學(xué)??茖W(xué)研究和人才培養(yǎng)對(duì)大規(guī)模計(jì)算的需求。校級(jí)平臺(tái)采用異構(gòu)的計(jì)算架構(gòu),包括兩個(gè)管理節(jié)點(diǎn)及兩個(gè)登錄節(jié)點(diǎn),計(jì)算節(jié)點(diǎn)由30個(gè)CPU計(jì)算節(jié)點(diǎn)和32個(gè)GPU節(jié)點(diǎn)組成,總計(jì)算能力約680TFlops(萬億次);計(jì)算網(wǎng)絡(luò)采用InfinbandFDR100G高速互聯(lián)網(wǎng)絡(luò);存儲(chǔ)總裸容量超過1.5PB。平臺(tái)目前已經(jīng)安裝配置了多個(gè)版本的編譯器、MPI并行庫(kù)及數(shù)學(xué)庫(kù),通過EnvironmentModules管理環(huán)境變量,用戶能夠更加便捷的使用公共軟件,同時(shí)預(yù)安裝了MATLAB,Anaconda,Lammps,Tensorflow、Pytorch等AI應(yīng)用,開源軟件。高性能計(jì)算平臺(tái)與學(xué)校統(tǒng)一身份認(rèn)證系統(tǒng)集成,已申請(qǐng)用戶,通過統(tǒng)一認(rèn)證賬號(hào)和密碼即可登錄平臺(tái)。
硬件資源
西安電子科技大學(xué)高性能計(jì)算平臺(tái)由2個(gè)管理節(jié)點(diǎn)、2個(gè)登陸節(jié)點(diǎn)、30個(gè)cpu計(jì)算節(jié)點(diǎn)、32個(gè)GPU節(jié)點(diǎn)組成,可用存儲(chǔ)空間為1.5PB,聚合總算力達(dá)680TFlops。
節(jié)點(diǎn)類別主要規(guī)格節(jié)點(diǎn)數(shù)量合計(jì)管理節(jié)點(diǎn)2*Intel(R)Xeon(R)Gold6248RCPU@3.00GHz,512GB2個(gè)
登錄節(jié)點(diǎn)2*Intel(R)Xeon(R)Gold6248RCPU@3.00GHz,512GB2個(gè)
GPU節(jié)點(diǎn)CPU:2*Intel(R)Xeon(R)Platinum816324核心,48線程,2.5GHz內(nèi)存:16*32GB硬盤:SSD2TB2個(gè)GPU節(jié)點(diǎn)數(shù)32
TeslaV100*42張TeslaA100*22張
TeslaP100*3張RTX3080*53張
RTX2080*24張RTX3090*16張TeslaA40*4張CPU:ntel(R)Xeon(R)Gold5218RCPU20核心,40線程,2.1GHz4個(gè)2*Intel(R)Xeon(R)Gold6230CPU@2.10GHz,256GB,8個(gè)CPU:Intel(R)Xeon(R)Gold6226RCPU@2.90GHz5個(gè)CPU:2*Intel(R)Xeon(R)Gold5218RCPU20核心,40線程,2.1GHz內(nèi)存:6*32GB硬盤:SSD960GB4T*26個(gè)CPU:2*Intel(R)Xeon(R)Gold6330CPU@2.00GHz28核心,512G內(nèi)存2個(gè)CPU:2*Intel(R)Xeon(R)Gold6330CPU@2.00GHz28核心
,512內(nèi)存5CPU節(jié)點(diǎn)CPU:2*Intel(R)Xeon(R)Gold6226RCPU@2.90GHz
內(nèi)存:128GB8個(gè)CPU節(jié)點(diǎn)數(shù)30CPU:2*Intel4210CPU,10核心,2.2GHz內(nèi)存:128GB3個(gè)4*Intel(R)Xeon(R)Gold6230CPU@2.10GHz,768GB4個(gè)CPU:2*Intel(R)Xeon(R)Gold6348CPU@2.60GHz
內(nèi)存:256GBDDR415個(gè)軟件資源軟件名版本簡(jiǎn)介適合學(xué)科MATLAB2020aMATLAB是美國(guó)MathWorks公司出品的商業(yè)數(shù)學(xué)軟件,用于數(shù)據(jù)分析、無線通信、深度學(xué)習(xí)、圖像處理與計(jì)算機(jī)視覺、信號(hào)處理、量化金融與風(fēng)險(xiǎn)管理、機(jī)器人,控制系統(tǒng)等領(lǐng)域。用于數(shù)值分析、數(shù)值和符號(hào)計(jì)算、工程與科學(xué)繪圖、控制系統(tǒng)的設(shè)計(jì)與仿真、數(shù)字圖像處理、數(shù)字信號(hào)處理、通訊系統(tǒng)設(shè)計(jì)與仿真、財(cái)務(wù)與金融工程等領(lǐng)域Anaconda2021.05Anaconda是一個(gè)用于科學(xué)計(jì)算的Python發(fā)行版,支持Linux,Mac,Windows,包含了眾多流行的科學(xué)計(jì)算、數(shù)據(jù)分析的Python包。數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)、大數(shù)據(jù)處理和預(yù)測(cè)分析Lammps
29Oct20LAMMPS,即Large-scaleAtomic/MolecularMassivelyParallelSimulator,是一種分子動(dòng)力學(xué)模擬器,主要用于分子動(dòng)力學(xué)相關(guān)的一些計(jì)算和模擬工作化學(xué)化工、生物醫(yī)藥、材料科學(xué)與工程等學(xué)科領(lǐng)域操作系統(tǒng)CentOSLinuxrelease7.7.1908編譯環(huán)境gccinteloneapi套件數(shù)學(xué)庫(kù)intelmkl并行環(huán)境openmpimpichintelmpiGPU環(huán)境cuda系統(tǒng)環(huán)境部分應(yīng)用軟件資源列表高性能計(jì)算中心現(xiàn)狀高性能計(jì)算中心現(xiàn)狀3.Linux常用命令第三章CentOS簡(jiǎn)介CentOS(CommunityEnterpriseOperatingSystem)是Linux發(fā)版之一,它是來自于RedHatEnterpriseLinux依照開放源代碼規(guī)定發(fā)布的源代碼所編譯而成。由于出自同樣的源代碼,因此有些要求高度穩(wěn)定性的服務(wù)器以CentOS替代商業(yè)版的RedHatEnterpriseLinux使用。兩者的不同,在于CentOS并不包含封閉源代碼軟件。CentOS完全遵守RedHat的再發(fā)行政策,并且致力與上游產(chǎn)品在功能上完全兼容。CentOS是免費(fèi)的、開源的、可以重新分發(fā)的開源操作系統(tǒng)
CentOSLinux發(fā)行版是一個(gè)穩(wěn)定的,可預(yù)測(cè)的,可管理的和可復(fù)現(xiàn)的平臺(tái),源于RedHatEnterpriseLinux(RHEL)依照開放源代碼規(guī)定釋出的源碼所編譯而成。Linux常用命令ls 查看當(dāng)前目錄內(nèi)容cd 切換目錄mkdir 創(chuàng)建目錄rmdir 刪除空目錄cp 拷貝文件或目錄rm 刪除目錄或文件ln 創(chuàng)建鏈接pwd 查看當(dāng)前工作目錄touch 修改文件或者目錄的時(shí)間屬性,若文件不存
在,系統(tǒng)會(huì)建立一個(gè)新的文件。chmod 修改目錄或文件權(quán)限Linux常用命令chown
修改目錄或文件所屬組ssh
遠(yuǎn)程登錄命令ping 測(cè)試主機(jī)之間網(wǎng)絡(luò)狀況ipaddr
查看所有網(wǎng)卡ip信息uptime 查看系統(tǒng)負(fù)載和啟動(dòng)時(shí)間free 查看空閑內(nèi)存top 查看進(jìn)程資源ps–elf 查看系統(tǒng)進(jìn)程lsof
查看打開的文件cat/etc/redhat-release查看系統(tǒng)版本4.高性能計(jì)算集群及調(diào)度介紹第四章資源管理與調(diào)度軟件
景行資源管理與調(diào)度軟件(JHUnischeduler)是一套集資源監(jiān)控、管理以及分布式應(yīng)用調(diào)度為一體的云計(jì)算基礎(chǔ)架構(gòu)管理中間件。使用它可以快速地建立起一套完整的校級(jí)應(yīng)用服務(wù)平臺(tái)。
調(diào)度軟件可以將多個(gè)節(jié)點(diǎn)關(guān)聯(lián)起來建立一個(gè)集群,并統(tǒng)一管理和調(diào)度集群中的各類軟硬件資源,包括各品牌服務(wù)器和圖形工作站上的CPU、內(nèi)存、存儲(chǔ)、許可證、GPU卡和遠(yuǎn)程圖形桌面等。支持Linux、Windows和Unix混合集群,也支持物理服務(wù)器、虛擬機(jī)和Docker容器組成的混合集群。調(diào)度軟件可以根據(jù)集群中節(jié)點(diǎn)主機(jī)的負(fù)載條件和應(yīng)用程序的資源需求,從整個(gè)集群應(yīng)用服務(wù)平臺(tái)中選擇最合適的計(jì)算節(jié)點(diǎn)。調(diào)度系統(tǒng)作用資源管理與調(diào)度軟件相關(guān)概念作業(yè):
作業(yè)是指用戶向景行資源管理與調(diào)度軟件提交可執(zhí)行命令,根據(jù)調(diào)度配置的策略,景行資源管理與調(diào)度軟件對(duì)作業(yè)進(jìn)行調(diào)度、控制和跟蹤。在景行資源管理與調(diào)度軟件中,每個(gè)作業(yè)命令可以是單一的進(jìn)程,也可以是一組協(xié)作的并發(fā)進(jìn)程。景行資源管理與調(diào)度軟件為正在執(zhí)行的每個(gè)命令創(chuàng)建一個(gè)新的進(jìn)程組,并且每一個(gè)作業(yè)控制操作都將作用于該組中的所有進(jìn)程。
作業(yè)實(shí)際上是在節(jié)點(diǎn)上運(yùn)行的一組進(jìn)程的集合,比如一組圖像處理過程或是一組數(shù)據(jù)庫(kù)事務(wù)進(jìn)程。一般來說,作業(yè)都是在節(jié)點(diǎn)后臺(tái)運(yùn)行的。作業(yè)號(hào):
是作業(yè)身份的唯一標(biāo)識(shí),在作業(yè)提交時(shí)由景行資源管理與調(diào)度軟件分配給作業(yè)。當(dāng)使用jsub提交作業(yè)時(shí),景行資源管理與調(diào)度軟件輸出顯示作業(yè)號(hào)。資源管理與調(diào)度軟件相關(guān)概念作業(yè)狀態(tài):
作業(yè)有以下幾種狀態(tài):
等待(PEND):在隊(duì)列中等待調(diào)度和派發(fā)。
運(yùn)行(RUN):派發(fā)成功,作業(yè)運(yùn)行。
執(zhí)行完成(DONE):正常完成,返回值為0。
退出(EXIT):作業(yè)退出,返回非0的值。
等待掛起(PSUSP):作業(yè)在等待時(shí)被用戶或景行資源管理與調(diào)度軟件管理員掛起。
系統(tǒng)掛起(SSUSP):被景行資源管理與調(diào)度軟件系統(tǒng)掛起。
用戶掛起(USUSP):作業(yè)在派發(fā)后被用戶或景行資源管理與調(diào)度軟件管理員掛起。
UNKNOWN:作業(yè)的執(zhí)行節(jié)點(diǎn)上的jobagent
進(jìn)程停止或者直接宕機(jī)。資源管理與調(diào)度軟件相關(guān)概念隊(duì)列:
一組作業(yè)以指定規(guī)則的順序排列在作業(yè)容器中,等待景行資源管理與調(diào)度軟件派發(fā)這些作業(yè)到可執(zhí)行的節(jié)點(diǎn)資源上,這個(gè)作業(yè)容器被稱之為隊(duì)列。通過隊(duì)列實(shí)現(xiàn)了不同的作業(yè)調(diào)度和控制策略,只對(duì)提交到該隊(duì)列中的所有作業(yè)起作用。隊(duì)列不等同于單獨(dú)的若干節(jié)點(diǎn),每一個(gè)隊(duì)列可以使用集群中的所有服務(wù)節(jié)點(diǎn),或?yàn)橄到y(tǒng)配置的服務(wù)器節(jié)點(diǎn)的一個(gè)子集。應(yīng)用:
應(yīng)用可為某些類型的作業(yè)提供功能配置。通常使用應(yīng)用程序配置定義來優(yōu)化隊(duì)列級(jí)別設(shè)置。默認(rèn)應(yīng)用為default。5.平臺(tái)使用簡(jiǎn)介第五章集群登錄方式集群提供三種登錄使用方式,分別為“登錄密鑰”、“terminal”和“Linux桌面”,雙擊圖標(biāo)即可打開終端進(jìn)行登錄及作業(yè)提交,如圖:登錄密鑰打開“登錄密鑰”會(huì)彈出下圖所示窗口,在?密鑰密碼中輸入5位以上密碼,點(diǎn)擊確認(rèn),會(huì)提交作業(yè),產(chǎn)生以用戶名為文件名的ssh登錄密鑰文件,將文件下載下來,使用ssh工具進(jìn)行連接登錄密鑰創(chuàng)建成功,現(xiàn)在可以通過ssh工具進(jìn)行連接登錄密鑰導(dǎo)入密鑰后,輸入密碼進(jìn)行登錄:Terminal打開“Terminal”會(huì)通過圖形應(yīng)用客戶端打開終端,顯示如下:Linux桌面打開“Linux桌面”會(huì)通過圖形應(yīng)用客戶端打開Linux桌面,顯示如下:常用圖標(biāo)功能說明:我的作業(yè)
“我的作業(yè)”主要包括查看作業(yè)信息、終止作業(yè)、掛起作業(yè)、繼續(xù)作業(yè)、作業(yè)置頂、作業(yè)置底、刪除數(shù)據(jù)、重新提交和修改作業(yè)這些功能常用圖標(biāo)功能說明:我的會(huì)話
“我的會(huì)話”包含“三維圖形會(huì)話”和“作業(yè)會(huì)話”兩個(gè)標(biāo)簽頁,其主要功能有查看會(huì)話詳細(xì)信息,對(duì)會(huì)話進(jìn)行連接、斷開、注銷。常用圖標(biāo)功能說明:集群狀態(tài)
“集群狀態(tài)”可以在集群狀態(tài)中實(shí)時(shí)監(jiān)控集群任何一個(gè)機(jī)器的具體使用用情況,方便用戶直觀地了解集群機(jī)器資源的使用情況。常用圖標(biāo)功能說明:我的數(shù)據(jù)
“我的數(shù)據(jù)”主要是對(duì)數(shù)據(jù)區(qū)、工作區(qū)中的數(shù)據(jù)進(jìn)行管理和操作。其中數(shù)據(jù)區(qū)指的是用戶在遠(yuǎn)端服務(wù)器上映射的用戶家目錄存儲(chǔ)。工作區(qū)指的是用戶仿真作業(yè)數(shù)據(jù)在遠(yuǎn)端服務(wù)器上映射的存儲(chǔ)目錄。點(diǎn)擊桌面圖標(biāo)“我的數(shù)據(jù)”即可訪問數(shù)據(jù)管理頁面。默認(rèn)用戶磁盤配額為300G。常用圖標(biāo)功能說明:我的數(shù)據(jù)
新增在線編輯功能常用圖標(biāo)功能說明:應(yīng)用倉(cāng)庫(kù)應(yīng)用倉(cāng)庫(kù)中顯示所有上線應(yīng)用,可根據(jù)實(shí)際情況,選擇啟用,或停用。所有啟用應(yīng)用圖標(biāo),會(huì)出現(xiàn)在平臺(tái)主頁上,停用應(yīng)用圖標(biāo)在平臺(tái)主頁回收。常用圖標(biāo)功能說明:鏡像倉(cāng)庫(kù)常用圖標(biāo)功能說明:Docker通用提交常用圖標(biāo)功能說明:Docker通用提交常用隊(duì)列與節(jié)點(diǎn)關(guān)系在高算運(yùn)行環(huán)境中,隊(duì)列與計(jì)算資源是對(duì)應(yīng)關(guān)系在當(dāng)前的高算環(huán)境中,開放的常用公共隊(duì)列與公共資源主要有:debug:(特點(diǎn):調(diào)試作業(yè),最大12核,最長(zhǎng)計(jì)算20分鐘)normal:(特點(diǎn):默認(rèn)隊(duì)列,cpu計(jì)算作業(yè),最大80核,最長(zhǎng)計(jì)算時(shí)間28800分鐘,允許跨節(jié)點(diǎn)并行作業(yè))gpu:(特點(diǎn):
gpu計(jì)算作業(yè),最大48核,最長(zhǎng)計(jì)算時(shí)間28800分鐘,單機(jī)作業(yè))隊(duì)列與資源常用命令jqueues:查看所有隊(duì)列列表;QUEUE_NAMEPRIOSTATUSMAXJL/UJL/PJL/HNJOBSPENDRUNSUSPRSVPENDHOSTnormal10Open:Active----1004060000codesign_app40Open:Active-1--101000codesign_deskt*40Open:Active-1--505000gpu40Open:Active----404000debug10Open:Active----000000jqueues–l隊(duì)列名:查看具體某個(gè)隊(duì)列的配置信息jqueues-lgpuQUEUE:gpu--gpuqueuePARAMETERS/STATISTICSPRIONICESTATUSMAXJL/UJL/PJL/HNJOBSPENDRUNSSUSPUSUSPRSVPENDHOST4010Open:Active----4040000DEFAULTLIMITS:RUNLIMIT17280.0minjhosts
機(jī)器(機(jī)器組名):查看隊(duì)列相關(guān)的機(jī)器組的情況jhostscpuHOST_NAMESTATUSJL/UMAXNJOBSRUNSSUSPUSUSPRSVnode01ok-3200000node02ok-3200000……編譯與提交節(jié)點(diǎn)編譯與提交節(jié)點(diǎn):login01_d_01編譯環(huán)境:moduleavail:命令查看現(xiàn)有的編譯環(huán)境moduleload:加載指定的編譯環(huán)境modulerm環(huán)境名稱:刪除加載的指定環(huán)境調(diào)度系統(tǒng)環(huán)境變量加載調(diào)度系統(tǒng)環(huán)境變量包含調(diào)度系統(tǒng)命令執(zhí)行所需要的環(huán)境信息,在使用時(shí)要預(yù)先加載,加載方式為:./apps/env/hpcprofile或source/apps/env/hpcprofile建議:寫到個(gè)人家目錄下的.bashrc文件中,自動(dòng)加載作業(yè)提交命令作業(yè)提交基本命令:jsub作業(yè)提交命令格式:usage:jsub[-h][-V][-x][-H][-Pproject_name][-Rres_req][-qqueue_name...][-m"host_name[+[pref_level]]|host_group[+[pref_level]]..."][-nmin_processors[,max_processors]][-Jjob_name][-i
in_file][-oout_file][-eerr_file][-Epre_exec_command[argument...]][-Eppost_exec_command[argument...]][-cwd
current_working_directory][-gpgpu"[type=type1,type2]num=gpu_num"]command[command...]常用CPU作業(yè)提交命令格式j(luò)sub–Jjob_name–ncpu_number–qqueue_name–ooutput_file“作業(yè)執(zhí)行命令、參數(shù)或腳本”注意:(1)作業(yè)提交所在的目錄即為作業(yè)執(zhí)行的目錄,因此相對(duì)路徑均需要以當(dāng)前目錄為基礎(chǔ);(2)如果提交格式為腳本,腳本中命令或執(zhí)行文件要寫為絕對(duì)路徑。參數(shù)含義:-Jjob_name:指定作業(yè)名(可不設(shè)置)-ncpu_number:指定作業(yè)運(yùn)行所需要的cpu資源數(shù)(如果不指定則默認(rèn)為1)-qqueue_name:指定作業(yè)提交的隊(duì)列資源(不設(shè)置默認(rèn)為normal隊(duì)列)CPU作業(yè)提交舉例作業(yè)提交舉例jsub
-Jdemo-n2-qdebug-oout.%J
hostname命令行方式提交示例:-ooutput_file:指定作業(yè)運(yùn)行過程中輸出信息保存的文件名,路徑默認(rèn)為作業(yè)提交路徑(不設(shè)置則不輸出過程信息)“作業(yè)執(zhí)行的命令、參數(shù)或腳本”:既可以直接運(yùn)行命令,也可以根據(jù)作業(yè)的需要編寫包含復(fù)雜邏輯的腳本常用GPU作業(yè)提交命令格式j(luò)sub–Jjob_name–gpgpu
gpu_number–qqueue_name–ooutput_file“作業(yè)執(zhí)行命令、參數(shù)或腳本”注意:(1)作業(yè)提交所在的目錄即為作業(yè)執(zhí)行的目錄,因此相對(duì)路徑均需要以當(dāng)前目錄為基礎(chǔ);(2)如果提交格式為腳本,腳本中命令或執(zhí)行文件要寫為絕對(duì)路徑。參數(shù)含義:-Jjob_name:指定作業(yè)名(可不設(shè)置)-gpgpu
gpu_number:指定作業(yè)運(yùn)行所需要的gpu資源數(shù)-qqueue_name:指定作業(yè)提交的隊(duì)列資源(不設(shè)置默認(rèn)為normal隊(duì)列)GPU作業(yè)提交舉例作業(yè)提交舉例jsub
-Jgpudemo-qgpu-gpgpu2-Rspan[hosts=1]-oout.%J
nvidia-smi命令行方式提交示例:-ooutput_file:指定作業(yè)運(yùn)行過程中輸出信息保存的文件名,路徑默認(rèn)為作業(yè)提交路徑(不設(shè)置則不輸出過程信息)“作業(yè)執(zhí)行的命令、參數(shù)或腳本”:既可以直接運(yùn)行命令,也可以根據(jù)作業(yè)的需要編寫包含復(fù)雜邏輯的腳本作業(yè)提交舉例作業(yè)提交舉例先將環(huán)境變量設(shè)置好,然后提交作業(yè)作業(yè)提交舉例作業(yè)提交舉例查看作業(yè)輸出文件腳本提交舉例#!/bin/bash##申請(qǐng)資源#JSUB-qgpu#JSUB-gpgpu1##定義輸出文件#JSUB-eerror.%J#JSUB-ooutput.%J##加載環(huán)境變量moduleloadlammps/gcc/29Oct20##生成$nodelist
和$ncpu
./apps/software/tools/hostfile##執(zhí)行命令mpirun-np$ncpu-ppn1-f$nodelist
lmp-sfgpu-pkgpu2-inin.rhodo刪除并行計(jì)算節(jié)點(diǎn)文件rm$nodelist腳本提交舉例作業(yè)提交舉例在/apps/software/example目錄下存放了腳本提交算例文件,大家可以參考并使用使用前請(qǐng)將該算例文件拷貝到自己家目錄下進(jìn)行使用腳本提交舉例作業(yè)提交舉例提交lammps作業(yè)腳本提交舉例作業(yè)提交舉例提交matlab作業(yè)腳本提交舉例作業(yè)提交舉例提交pytorch或者tensorflow作業(yè)作業(yè)信息查詢查詢作業(yè)命令:jjobs查詢作業(yè)運(yùn)行詳細(xì)信息:jjobs–l作業(yè)號(hào)jjobs-lxxxxJob<xxxx>,JobName<VASP>,User<jhadmin>,Project<default>,Status<DONE>,Queue<blade_para>,Application<default>,Command<#!/bin/sh;#JSUB-qblade_para;#JSUB-n48;#JSUB-eerror.%J;#JSUB-ooutput.%J;#JSUB-JVASP;source/opt/intel/composer_xe_2013/bin/compilervars.shintel64;source/opt/intel/mkl/bin/intel64/mklvars_intel64.sh;moduleloadmpi/intelmpi/5.0.2;/opt/software/other/hostsfile;ex=$(echo`whichmpirun`);$ex-np48-machinefile.hostfile/opt/soft/vasp5.3/vasp.5.3.2>MonNov2318:45:49:Submittedfromhost<xdhpc01>,CWD</home/users/jhadmin/vasp3>,OutputFile<output.2248>,ErrorFile<error.2248>,48ProcessorsRequested;MonNov2318:45:49:Startedon48Hosts/Processors<24*node11><24*node45>,Ex
ecutionHome</home/users/jhadmin>,ExecutionCWD</home/u
sers/jhadmin/vasp3>,Executionuser<jhadmin>;MonNov2318:47:51:Donesuccessfully.TheCPUtimeusedis2577.8seconds.SCHEDULINGPARAMETERS:r15sr1mr5mr15mut
pgiols
LoadSched--------
LoadStop--
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年12月英語四級(jí)重點(diǎn)詞匯
- 2025年網(wǎng)絡(luò)文學(xué)國(guó)際傳播策略研究:跨文化傳播視角下的市場(chǎng)拓展報(bào)告
- 2023年資產(chǎn)評(píng)估模擬試卷
- 2024年“安全生產(chǎn)月”活動(dòng)方案模板參考
- 2025年K2教育人工智能個(gè)性化學(xué)習(xí)系統(tǒng)應(yīng)用效果與教育人才培養(yǎng)模式創(chuàng)新研究報(bào)告
- 2023年級(jí)建造師工程經(jīng)濟(jì)豐君培訓(xùn)
- 期末測(cè)試試卷2025-2026學(xué)年人教PEP版(2024)英語四年級(jí)上冊(cè)(含答案)
- 2025版國(guó)際貿(mào)易綠色認(rèn)證合同匯編
- 2025房屋買賣代理責(zé)任免除協(xié)議
- 二零二五年度電子商務(wù)合同平臺(tái)用戶權(quán)益保護(hù)與合同條款
- 地膜采購(gòu)合同協(xié)議
- 青年教師培訓(xùn):AI賦能教育的創(chuàng)新與實(shí)踐
- 放射性腸炎知識(shí)培訓(xùn)課件
- GB/T 37133-2025電動(dòng)汽車用高壓連接系統(tǒng)
- 物流運(yùn)輸管理優(yōu)化提升方案
- 2025年《處方管理辦法》標(biāo)準(zhǔn)課件
- 2025年醫(yī)院消防安全培訓(xùn)試題及答案
- 《復(fù)合材料電纜支架》課件
- ESG可持續(xù)發(fā)展管理程序(Environmet環(huán)境模塊)
- 2025年重慶市儲(chǔ)備糧管理有限公司招聘筆試參考題庫(kù)含答案解析
- 金屬結(jié)構(gòu)制作和安裝質(zhì)量保證措施
評(píng)論
0/150
提交評(píng)論