![高性能集群作業(yè)調(diào)度系統(tǒng)_第1頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2021-12/18/6470d31c-c6a0-43a3-ae13-e7259b49a2ae/6470d31c-c6a0-43a3-ae13-e7259b49a2ae1.gif)
![高性能集群作業(yè)調(diào)度系統(tǒng)_第2頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2021-12/18/6470d31c-c6a0-43a3-ae13-e7259b49a2ae/6470d31c-c6a0-43a3-ae13-e7259b49a2ae2.gif)
![高性能集群作業(yè)調(diào)度系統(tǒng)_第3頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2021-12/18/6470d31c-c6a0-43a3-ae13-e7259b49a2ae/6470d31c-c6a0-43a3-ae13-e7259b49a2ae3.gif)
![高性能集群作業(yè)調(diào)度系統(tǒng)_第4頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2021-12/18/6470d31c-c6a0-43a3-ae13-e7259b49a2ae/6470d31c-c6a0-43a3-ae13-e7259b49a2ae4.gif)
![高性能集群作業(yè)調(diào)度系統(tǒng)_第5頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2021-12/18/6470d31c-c6a0-43a3-ae13-e7259b49a2ae/6470d31c-c6a0-43a3-ae13-e7259b49a2ae5.gif)
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、高性能集群作業(yè)調(diào)度系統(tǒng)曙光信息產(chǎn)業(yè)股份有限公司 提綱一作業(yè)調(diào)度系統(tǒng)概述二PBS作業(yè)調(diào)度系統(tǒng)三Maui調(diào)度器四曙光Gridview作業(yè)調(diào)度中間件五Q&A1. 1 集群使用中存在的問(wèn)題節(jié)點(diǎn)多用戶(hù)多任務(wù)多 系統(tǒng)資源整合 異構(gòu)資源,軟硬件資源的整合 任務(wù)綜合管理 用戶(hù)提交的任務(wù)的統(tǒng)一安排 用戶(hù)權(quán)限的管理 對(duì)用戶(hù)進(jìn)行各類(lèi)權(quán)限控制1.2 作業(yè)調(diào)度系統(tǒng)的功能 資源管理器:管理集群的軟硬件資源及認(rèn)證信息等 隊(duì)列管理器:管理當(dāng)前所有已提交但還未完成的作業(yè) 調(diào)度器:為作業(yè)分配資源1.3 作業(yè)調(diào)度系統(tǒng)的組成作業(yè)調(diào)度系統(tǒng)的結(jié)構(gòu)1.3 作業(yè)調(diào)度系統(tǒng)的組成1.4 作業(yè)調(diào)度系統(tǒng)的發(fā)展歷史 提綱一作業(yè)調(diào)度系統(tǒng)概述二PBS作業(yè)
2、調(diào)度系統(tǒng)三Maui調(diào)度器四曙光Gridview作業(yè)調(diào)度中間件五Q&A PBS(Portable Batch System), 最初由NASA的Ames研究中心開(kāi)發(fā),設(shè)計(jì)為一個(gè)能滿(mǎn)足異構(gòu)計(jì)算網(wǎng)絡(luò)需要的軟件包。它力求提供對(duì)批處理的初始化和調(diào)度執(zhí)行的控制,允許作業(yè)在不同主機(jī)間的路由。 PBS的開(kāi)源版本為OpenPBS,目前已經(jīng)停止開(kāi)發(fā)。 PBS的商業(yè)版為PBS Pro,由Altair公司開(kāi)發(fā)和維護(hù)。 TORQUE( Tera-scale Open-source Resource and Queue manager )為 OpenPBS的后續(xù)開(kāi)源版本,修正了OpenPBS的很多bug,功能和可擴(kuò)展性都
3、有很大提高。2.1 PBS作業(yè)調(diào)度系統(tǒng)服務(wù)器: pbs_server調(diào)度器: pbs_sched執(zhí)行器: pbs_mom2.2 PBS的組成解壓源文件包 tar zxvf torque-2.5.12.tar.gz 編譯設(shè)置 cd torque-2.5.12 ./configure -prefix= /usr/local -with-server-home= /var/spool/torque -enable-syslog -with-scp -enable-docs 默認(rèn)情況下,TORQUE將可執(zhí)行文件安裝在/usr/local/bin和/usr/local/sbin下。其余的配置文件和運(yùn)行時(shí)
4、環(huán)境將安裝在/var/spool/torque下編譯和安裝makemake install2.3 PBS的安裝(Torque Server端)節(jié)點(diǎn)操作系統(tǒng)相同,可以用如下SHELL腳本在計(jì)算節(jié)點(diǎn)(torque客戶(hù)端)上安裝#在管理節(jié)點(diǎn)上make packages#!/bin/bash for i in seq 1 20; do echo =node$i= ssh node$i /public/sourcecode/torque-2.5.12/ torque-package-mom-linux-*.sh -install Done2.3 PBS的安裝(Torque Client端)p 以root
5、作為torque的管理員賬號(hào)創(chuàng)建作業(yè)隊(duì)列在torque的安裝源文件根目錄中,執(zhí)行./torque.setup rootp Server配置目錄 /var/spool/torque/server_priv/p 計(jì)算節(jié)點(diǎn)列表及屬性:/var/spool/torque/server_priv/nodesnode2 np=12 amd chemnode3 np=12 amd chemnode4 np=8 intel chemnode5 np=8 intel chemnode6 np=4 intel bio gpunode7 np=4 intel bio gpu2.3 PBS Server配置Serve
6、r的系統(tǒng)啟動(dòng)腳本 /etc/init.d/pbs_server Scheduler系統(tǒng)啟動(dòng)腳本 /etc/init.d/pbs_sched Mom系統(tǒng)啟動(dòng)腳本 /etc/init.d/pbs_momTorque服務(wù)端 chkconfig pbs_server on chkconfig pbs_sched on service pbs_server start service pbs_sched startTorque客戶(hù)端 chkconfig pbs_mom on service pbs_mom start2.3 PBS系統(tǒng)服務(wù)2.4 PBS主要操作隊(duì)列設(shè)置節(jié)點(diǎn)查看提交作業(yè)查看作業(yè)作業(yè)其他操作
7、PBS要能正常運(yùn)行還需要通過(guò)qmgr命令在server進(jìn)行配置,設(shè)置一些屬性。輸入qmgr命令進(jìn)入配置交互命令,格式為 qmgr動(dòng)作 對(duì)象類(lèi)型和操作符 動(dòng)作 對(duì)象類(lèi)型 對(duì)象名 屬性 操作符 值(,屬性 操作符 值)create創(chuàng)建一個(gè)對(duì)象delete刪除一個(gè)對(duì)象set設(shè)置對(duì)象的屬性u(píng)nset除去對(duì)象的屬性print打印對(duì)象的屬性list列出對(duì)象的屬性server服務(wù)器queue隊(duì)列node節(jié)點(diǎn)2.4.1 PBS的隊(duì)列設(shè)置創(chuàng)建隊(duì)列create queue 隊(duì)列名 queue_type = execution打開(kāi)和啟動(dòng)隊(duì)列set queue 隊(duì)列名 enable=t, started=t打開(kāi)調(diào)度s
8、et server scheduling=t設(shè)置默認(rèn)隊(duì)列set server default_queue=隊(duì)列名2.4.1 PBS的隊(duì)列設(shè)置下面是讓PBS可以正常運(yùn)行的基本設(shè)置 導(dǎo)入server配置文件qmgr queue.conf 配置文件例子 create queue default set queue default queue_type = execution set queue default max_running = 10 set queue default enabled = True set queue default started = True set server sc
9、heduling = True set server default_queue = default set server query_other_jobs = True2.4.1 PBS的隊(duì)列設(shè)置 資源和用戶(hù)限制resources_default.cput 該隊(duì)列默認(rèn)的作業(yè)的CPU時(shí)間,格式:時(shí):分:秒注意:該CPU時(shí)間為:進(jìn)程數(shù)*(結(jié)束時(shí)間-開(kāi)始時(shí)間)resources_default.walltime該隊(duì)列默認(rèn)的墻上時(shí)間,格式:時(shí):分:秒max_running某隊(duì)列最多可運(yùn)行的作業(yè)數(shù),如果該項(xiàng)為0或沒(méi)有該項(xiàng),表示沒(méi)有限制max_user_run一個(gè)用戶(hù)最多可以運(yùn)行的作業(yè)數(shù)acl_user
10、_enable是否啟用用戶(hù)訪(fǎng)問(wèn)控制,如果acl_user_enable = True,則在acl_users中列出的用戶(hù)才能使用該隊(duì)列acl_users格式:,用戶(hù)名不接受通配符acl_host_enable如果acl_host_enable = True,則acl_hosts屬性中列出的主機(jī)才能使用該隊(duì)列acl_hosts該隊(duì)列可以使用的節(jié)點(diǎn)列表2.4.1 PBS的隊(duì)列設(shè)置dawningnode1 $ pbsnodespbsnodes -a -anode2 statestate=free npnp=12 ntypentype=cluster status =rectime=134734483
11、9,varattr=,jobs=,state=free,netload=1994804223313,gres=,loadave=0.15,ncpusncpus=32,physmem=132133404kb,availmemavailmem=147084788kb,totmem=148910612kb,idletime=1721946,nusers=1,nsessions=1,sessions=2455,uname=Linux node2 2.6.32-220.el6.x86_64 #1 SMP Wed Nov 9 08:03:13 EST 2011 x86_64,opsys=linux gpu
12、sgpus = 0node3 state=down np=12 ntype=cluster 2.4.2 PBS查看節(jié)點(diǎn)狀態(tài)pbsnodes命令的主要參數(shù)-a 列出所有結(jié)點(diǎn)及其屬性,屬性包括“state”和“status”-o 將指定結(jié)點(diǎn)的狀態(tài)標(biāo)記為“offline”。這將幫助管理員暫時(shí)停止某些結(jié)點(diǎn)的服務(wù)-l 以行的方式列出被標(biāo)記的結(jié)點(diǎn)的狀態(tài),如 -l free,-l offline-c 清除結(jié)點(diǎn)列表中的“offline”或“down”狀態(tài)設(shè)置,使結(jié)點(diǎn)可以被分配給作業(yè)-r 清除指定結(jié)點(diǎn)的“offline”狀態(tài)2.4.2 PBS查看節(jié)點(diǎn)狀態(tài)步驟:1.準(zhǔn)備:編寫(xiě)描述該作業(yè)的腳本,包括作業(yè)名,需要的資
13、源等。2.提交:使用qsub命令將該作業(yè)提交給PBS服務(wù)器3.排隊(duì):服務(wù)器將該任務(wù)排入適當(dāng)?shù)年?duì)列4.調(diào)度:服務(wù)器檢查各工作節(jié)點(diǎn)的狀態(tài)是否符合該作業(yè)的要求,并進(jìn)行調(diào)度。5.執(zhí)行:當(dāng)條件滿(mǎn)足時(shí),作業(yè)被發(fā)給相應(yīng)的執(zhí)行服務(wù)器執(zhí)行。程序運(yùn)行時(shí)執(zhí)行服務(wù)器會(huì)收集程序的標(biāo)準(zhǔn)輸出和標(biāo)準(zhǔn)錯(cuò)誤流,等程序結(jié)束時(shí),將這些信息返回給用戶(hù)。6.查詢(xún)和調(diào)整:當(dāng)作業(yè)在運(yùn)行時(shí),用戶(hù)可以使用qstat進(jìn)行狀態(tài)查詢(xún)。用戶(hù)發(fā)現(xiàn)作業(yè)提交錯(cuò)誤時(shí),可以使用qdel刪除正在運(yùn)行的作業(yè)。7.查看結(jié)果:使用文本編輯軟件vi或者系統(tǒng)命令cat, less等查看輸出及錯(cuò)誤信息顯示。2.4.3 PBS作業(yè)提交 在PBS系統(tǒng)中,用戶(hù)使用 qsub 命令提
14、交用戶(hù)程序。用戶(hù)運(yùn)行程序的命令及PBS環(huán)境變量設(shè)置組成PBS作業(yè)腳本,如下qsub 2.4.3 PBS作業(yè)提交基本命令#PBS -N vasp#PBS -l nodes=2:ppn=1#PBS -l walltime=12:00:00#PBS -q default cd $PBS_O_WORKDIR./test.exe作業(yè)腳本使用如下格式提交到PBS系統(tǒng)運(yùn)行運(yùn)運(yùn) 行行 參參 數(shù)數(shù)說(shuō)說(shuō) 明明-a 向PBS系統(tǒng)指定作業(yè)運(yùn)行的開(kāi)始時(shí)間。作業(yè)運(yùn)行時(shí)間格式為: CCYYMMDDhhmm.SS-A 使用不同的用戶(hù)來(lái)提交作業(yè),缺省使用當(dāng)前用戶(hù)名-o -e 該參數(shù)指定標(biāo)準(zhǔn)錯(cuò)誤輸出的位置,缺省的情況下,PBS系
15、統(tǒng)把標(biāo)準(zhǔn)輸出和標(biāo)準(zhǔn)錯(cuò)誤輸出放在用戶(hù)qsub命令提交作業(yè)的目錄下。標(biāo)準(zhǔn)錯(cuò)誤輸出:.o標(biāo)準(zhǔn)錯(cuò)誤輸出:.e路徑使用如下格式標(biāo)準(zhǔn): :-N 指定提交的作業(yè)名-q 指定作業(yè)提交的目標(biāo)隊(duì)列。如果該參數(shù)沒(méi)有指定,命令qsub會(huì)把作業(yè)腳本提交到缺省的隊(duì)列中。-l 該參數(shù)指定作業(yè)腳本申請(qǐng)的PBS系統(tǒng)資源列表。申請(qǐng)資源列表使用如下格式: =,資源名=, .例如作業(yè)希望申請(qǐng)?jiān)陔p路節(jié)點(diǎn)上申請(qǐng)4個(gè)CPU資源的情況,則可以在腳本中如下:#PBS l nodes=2:ppn=2運(yùn)行參數(shù)在 PBS 腳本和 qsub 命令行中均有效,qsub命令行參數(shù)的優(yōu)先級(jí)更高2.4.3 PBS 運(yùn)行參數(shù)變變 量量 名名說(shuō)說(shuō) 明明登陸登陸S
16、HELL繼承來(lái)的變量繼承來(lái)的變量包括$HOME,$LANG,$LOGNAME,$PATH,$MAIL,$SHELL和$TZ。$PBS_O_HOSTqsub提交的節(jié)點(diǎn)名稱(chēng)$PBS_O_QUEUEqsub提交的作業(yè)的最初隊(duì)列名稱(chēng)$PBS_O_WORKDIRqsub提交的作業(yè)的絕對(duì)路徑$PBS_JOBID作業(yè)被PBS系統(tǒng)指定的作業(yè)號(hào)$PBS_JOBNAME用戶(hù)指定的作業(yè)名,可以在作業(yè)提交的時(shí)候用qsub N 指定,或者在PBS腳本中加入#PBS N 。$PBS_NODEFILEPBS系統(tǒng)指定的作業(yè)運(yùn)行的節(jié)點(diǎn)名。該變量在并行機(jī)和機(jī)群中使用。當(dāng)在PBS腳本中用#PBS l nodes=2:ppn=2指定
17、程序運(yùn)行的節(jié)點(diǎn)數(shù)時(shí),可以使用$PBS_NODEFILE在腳本中引用PBS系統(tǒng)指定的作業(yè)運(yùn)行的節(jié)點(diǎn)名。比如:#PBS l nodes=2:ppn=2mpirun np 4 machinefile $PBS_NODEFILE $PBS_QUEUEPBS腳本在執(zhí)行時(shí)的隊(duì)列名2.4.3 PBS 環(huán)境變量# 這是一個(gè)串行作業(yè)腳本的例子#PBS -N test#PBS -l nodes=1:ppn=1cd $HOME/test/./a.out $HOME/result/a.result# 這是一個(gè)并行作業(yè)腳本的例子#PBS -N vasp_job#PBS -l nodes=2:ppn=2#PBS -q l
18、owecho This job is $PBS_JOBID$PBS_QUEUE cd $PBS_O_WORKDIRmpirun -np 16 -machinefile $PBS_NODEFILE ./vasp2.4.3 PBS 腳本舉例#PBS -l nodes=2:ppn=4:amd:chem#PBS -l nodes=1:ppn=8:chem+1:ppn=8:bio#PBS -l nodes=node1:ppn=8+node2:ppn=8指定節(jié)點(diǎn)特性p 一些軟件有特殊的節(jié)點(diǎn)指定格式,比如ANSYS的命令行參數(shù)格式為: ansys121 -dis -machines node1:2:node
19、2:2 -i test.inp -o test.logp 這時(shí)我們可以對(duì) $PBS_NODEFILE 進(jìn)行字符處理,得到需要的格式2.4.3 PBS 腳本舉例# 這是一個(gè)ANSYS并行作業(yè)的例子#PBS -N ansys_job#PBS -l nodes=2:ppn=8#PBS -q lowINPUTFILE=test.inpOUTPUTFILE=test.loghosts=cat $PBS_NODEFILE | uniq -c | awk print $2:$1 | tr n : | sed s/:$/cd $PBS_O_WORKDIRansys121 -dis -machines $hos
20、ts -i $INPUTFILE -o $OUTPUTFILE作業(yè)提交后,會(huì)生成一個(gè)作業(yè)號(hào),如:dawningnode1 $ qsub test.pbs93.node1查看集群作業(yè)運(yùn)行狀態(tài):dawningnode1 $ qstat Job id Name User Time Use S Queue- - - - - -93.node1 test.pbs test 0 R default95.node1 vasp.Hg vasp 0 E default111.node1 structure amber 0 Q default2.4.4 PBS 查看作業(yè)狀態(tài)E:退出 Q:排隊(duì)H:掛起 R :運(yùn)行C
21、:結(jié)束查詢(xún)某個(gè)作業(yè)運(yùn)行狀態(tài):qstat 93.node1 (或者 qstat 93)顯示作業(yè)運(yùn)行在哪些節(jié)點(diǎn)上:qstat -n 93.node1 顯示作業(yè)運(yùn)行詳細(xì)信息:qstat -f 93.node1dawningnode1 $ qstat Job id Name User Time Use S Queue- - - - - -93.node1 test.pbs zhaocs 0 R default95.node1 vasp.Hg vasp 0 E default111.node1 structure amber 0 Q defaultqdel 93.node1注:用戶(hù)只能刪除自己的作業(yè),管
22、理員可以刪除所有用戶(hù)作業(yè)2.4.5 PBS 作業(yè)其他操作刪除作業(yè)dawningnode1 $ qstat Job id Name User Time Use S Queue- - - - - -93.node1 test.pbs zhaocs 0 R default95.node1 vasp.Hg vasp 0 E default111.node1 structure amber 0 Q default掛起作業(yè):qhold 111.node1取消作業(yè)掛起qrls 111.node1作業(yè)掛起及取消2.4.5 PBS 作業(yè)其他操作dawningnode1 $ qstat Job id Name U
23、ser Time Use S Queue- - - - - -93.node1 test.pbs zhaocs 0 R default95.node1 vasp.Hg vasp 0 E default111.node1 structure amber 0 Q default更改作業(yè)2.4.5 PBS 作業(yè)其他操作更改作業(yè)運(yùn)行隊(duì)列:qmove high 111.node1更改作業(yè)資源屬性:qalter -l walltime=10:00:00 111.node1交換作業(yè)順序2.4.5 PBS 作業(yè)其他操作dawningnode1 $ qstat Job id Name User Time Use
24、 S Queue- - - - - -93.node1 test.pbs zhaocs 0 R default95.node1 vasp.Hg vasp 0 E default111.node1 structure amber 0 Q default112.node1 gaussian gauss 0 Q default交換兩個(gè)作業(yè)的排隊(duì)順序:qorder 111.node1 112.node1dawningnode1 $ qstat Job id Name User Time Use S Queue- - - - - -93.node1 test.pbs zhaocs 0 R default
25、95.node1 vasp.Hg vasp 0 E default112.node1 gaussian gauss 0 Q default111.node1 structure amber 0 Q default2.4.5 PBS 作業(yè)其他操作 PBS腳本中可以指定多個(gè)作業(yè)之間的依賴(lài)關(guān)系,比如作業(yè)提交前另一個(gè)作業(yè)必須完成,否則處于排隊(duì)狀態(tài)#PBS -N step2#PBS -l nodes=4:ppn=4#PBS -q high#PBS -W depend=after: #PBS -N job_rerun#PBS -l nodes=4:ppn=4#PBS -q high#PBS -W depe
26、nd=afternotok: 當(dāng)指定作業(yè)非正常結(jié)束,作業(yè)才能提交運(yùn)行一作業(yè)調(diào)度系統(tǒng)概述二PBS作業(yè)調(diào)度系統(tǒng)三Maui調(diào)度器四曙光Gridview作業(yè)調(diào)度中間件五Q&A 提綱 Torque帶有自己的默認(rèn)調(diào)度策略器(pbs_sched),但是這個(gè)最基本的調(diào)度策略并不高級(jí)。它根據(jù)fifo的原則安排作業(yè),對(duì)一般的集群管理應(yīng)該是足夠了,但如果你的集群有幾百個(gè)以上節(jié)點(diǎn),分成若干個(gè)隊(duì)列,那pbs_sched就力不從心了。 為此,可以使用一系列第三方的調(diào)度策略進(jìn)行補(bǔ)充。Maui就是被廣泛使用的調(diào)度策略之一。3.1 Maui調(diào)度器介紹3.1 Maui調(diào)度器介紹 Maui采用積極的調(diào)度策略?xún)?yōu)化資源的利用和減少作業(yè)
27、的響應(yīng)時(shí)間。 Maui的資源和負(fù)載管理允許高級(jí)的參數(shù)配置:作業(yè)優(yōu)先級(jí)(Job Priority)、調(diào)度和分配(Scheduling and Allocation)、公平性和公平共享(Fairness and Fairshare)和預(yù)留策略(Reservation Policy)。Maui的QoS機(jī)制允許資源和服務(wù)的直接傳遞、策略解除(Policy Exemption)和指定特征的受限訪(fǎng)問(wèn)。 Maui需要資源管理器和其配合使用。我們可以把Maui想象為PBS中的一個(gè)插入部件。 集群已安裝配置好Torque解壓源文件包 tar zxvf maui-3.2.6p17.tar.gz 編譯設(shè)置 cd m
28、aui-3.2.6p17 ./configure -with-pbs=/usr/local -with-pbs指定Torque安裝目錄編譯和安裝 make make install 3.1 Maui安裝(Server)p 編輯啟動(dòng)腳本 cd maui-3.2.6p17 cp etc/maui.d /etc/init.d/ vim /etc/init.d/maui.d 修改其中的” MAUI_PREFIX=/usr/local/maui” (maui的安裝目錄)p 停用pbs_sched,啟用maui chkconfig pbs_sched off chkconfig maui.d on ser
29、vice pbs_sched stop service maui.d start3.1 Maui安裝(Server)Maui的配置參數(shù)都寫(xiě)在配置文件maui.cfg中,配置參數(shù)可以參考官方手冊(cè)Maui Administrators Guide主要參數(shù)如下: vim maui.cfg # 設(shè)置Maui服務(wù)器主機(jī)名SERVERHOST server # 一級(jí)權(quán)限用戶(hù),擁有Maui所有控制權(quán)限,包括更改調(diào)度策略,更改作業(yè)屬性 ADMIN1 root # 二級(jí)權(quán)限用戶(hù),不能更改調(diào)度策略,但能更改作業(yè)屬性 ADMIN2 zhang wang zhao # 三級(jí)權(quán)限用戶(hù),只有查看權(quán)限,ALL表示所有賬戶(hù)
30、ADMIN3 ALL3.2 Maui配置# 定義資源管理器(Resource Manager),指定類(lèi)型為PBS,以及Torque服務(wù)器主機(jī)名,刷新資源信息的時(shí)間,端口號(hào) RMCFG0 TYPE=PBS HOST=server RMPOLLINTERVAL 00:00:30 SERVERPORT 42559 SERVERMODE NORMAL# 日志設(shè)置 LOGFILE maui.log LOGFILEMAXSIZE 10000000 LOGLEVEL 3 3.2 Maui配置#設(shè)置Fair share策略 #FSPOLICY PSDEDICATED #FSDEPTH 7 #FSINTERVA
31、L 86400 #FSDECAY 0.80#設(shè)置回填(Backfill)策略 BACKFILLPOLICY FIRSTFIT RESERVATIONPOLICY CURRENTHIGHEST#節(jié)點(diǎn)分配策略 #NODEALLOCATIONPOLICY MINRESOURCE #NODEALLOCATIONPOLICY CPULOAD #NODEALLOCATIONPOLICY SHARED NODEALLOCATIONPOLICY FIRSTAVAILABLE 3.2 Maui配置# QOS配置 QOSCFGpreemptor QFLAGS=PREEMPTOR QOSCFGpreemptee Q
32、FLAGS=PREEMPTEE CLASSCFGhigh PRIORITY=11000 QDEF=preemptor CLASSCFGlow PRIORITY=6000 QDEF=preemptee CLASSCFGmiddle PRIORITY=9000 QDEF=preemptee#用戶(hù)優(yōu)先級(jí)設(shè)置 USERCFGroot MAXPROC=400 MAXNODE=100 MAXJOB=100 USERCFGtest PRIORITY=100 MAXPROC=200 MAXJOB=10 USERCFGDEFAULT PRIORITY=100 MAXPROC=100 MAXJOB=43.2 Ma
33、ui配置一作業(yè)調(diào)度系統(tǒng)概述二PBS作業(yè)調(diào)度系統(tǒng)三Maui調(diào)度器四曙光Gridview作業(yè)調(diào)度中間件五Q&A 提綱 4 曙光Gridview作業(yè)調(diào)度中間件介紹功能中間件應(yīng)用使用方法作業(yè)調(diào)度中間件結(jié)構(gòu)圖4.1 曙光Gridview作業(yè)調(diào)度中間件增加節(jié)點(diǎn)修改節(jié)點(diǎn)刪除節(jié)點(diǎn)創(chuàng)建隊(duì)列修改隊(duì)列刪除隊(duì)列隊(duì)列節(jié)點(diǎn)用戶(hù)修改用戶(hù)身份修改用戶(hù)等級(jí)修改用戶(hù)權(quán)限強(qiáng)大的資源管理4.2 作業(yè)調(diào)度中間件功能基于WEB圖形界面集成度高,嵌入到Gridview中流程簡(jiǎn)單界面友好1423輕巧的專(zhuān)業(yè)應(yīng)用提交4.2 作業(yè)調(diào)度中間件功能管理多個(gè)集群1提供完善的參數(shù)設(shè)置2靈活的提交方式34.2 作業(yè)調(diào)度中間件功能作業(yè)提交提供作業(yè)監(jiān)控功能1提
34、供修改作業(yè)狀態(tài)功能2提供多集群作業(yè)監(jiān)控34.2 作業(yè)調(diào)度中間件功能作業(yè)管理實(shí)用的用戶(hù)管理和記賬功能4.2 作業(yè)調(diào)度中間件功能穩(wěn)定性高4.2 作業(yè)調(diào)度中間件功能代碼保護(hù)審查嚴(yán)格備份作業(yè)調(diào)度系統(tǒng)恢復(fù)作業(yè)調(diào)度系統(tǒng)功能穩(wěn)定測(cè)試嚴(yán)格具有備份功能l單元測(cè)試嚴(yán)格l集成測(cè)試嚴(yán)格l兼容性測(cè)試嚴(yán)格MPI程序,例如:Vasp、WRF、mpiBLAST 等等典型的商業(yè)軟件,例如:Gaussian、Fluent、Ansys等等應(yīng)用與作業(yè)調(diào)度系統(tǒng)相結(jié)合常用的mpi程序常用的商業(yè)軟件用戶(hù)自己開(kāi)發(fā)的串行并行程序4.3 GridView作業(yè)調(diào)度的應(yīng)用常用軟件DOCK MPIBLAST常用軟件常用軟件工程量子力學(xué)生物常用軟件AM
35、BERCHARMMGROMACSNAMDLAMMPS分子動(dòng)力學(xué)應(yīng)用與作業(yè)調(diào)度系統(tǒng)相結(jié)合高性能主要領(lǐng)域主要業(yè)務(wù)軟件得到各個(gè)領(lǐng)域的首席工程師的驗(yàn)證4.3 GridView作業(yè)調(diào)度的應(yīng)用ANSYSLSDYNA CFXCOMSOLFLUENTABINITGAUSSIANPWSCFVASP4.4 GridView作業(yè)調(diào)度的使用4.4.1 節(jié)點(diǎn)監(jiān)控節(jié)點(diǎn)監(jiān)控提供以下幾個(gè)功能(1)監(jiān)控節(jié)點(diǎn)狀態(tài)(2)增加節(jié)點(diǎn)(3)刪除節(jié)點(diǎn)(4)重啟節(jié)點(diǎn)進(jìn)程4.4.1 節(jié)點(diǎn)監(jiān)控4.4.2 隊(duì)列管理 隊(duì)列管理主要包含對(duì)隊(duì)列的創(chuàng)建、刪除、修改和查看等操作。 只有root用戶(hù)和用戶(hù)管理中規(guī)定的管理員才能打開(kāi)隊(duì)列管理的主頁(yè)面,從而操作控
36、制隊(duì)列。4.4.2 隊(duì)列管理4.4.2 隊(duì)列管理4.4.3 用戶(hù)設(shè)置 用戶(hù)管理主要是對(duì)用戶(hù)在作業(yè)調(diào)度系統(tǒng)中的身份、優(yōu)先級(jí),以及在作業(yè)調(diào)度系統(tǒng)對(duì)資源的使用和使用上限進(jìn)行設(shè)置、修改和查看。這里的用戶(hù)是指已經(jīng)存在于操作系統(tǒng)中的一般用戶(hù),不包括root用戶(hù)和用戶(hù)ID小于500的系統(tǒng)用戶(hù)。 4.4.3 用戶(hù)設(shè)置4.4.4 作業(yè)提交 該作業(yè)調(diào)度系統(tǒng)主要通過(guò)web頁(yè)面將作業(yè)提交給調(diào)度器。系統(tǒng)中有三種提交方式:(1)Portal提交(2)腳本方式提交(3)命令行方式提交 每次只能選擇一種方式提交,在打開(kāi)提交窗口時(shí),默認(rèn)是第一種提交方式。4.4.4.1 portal提交 根據(jù)應(yīng)用特點(diǎn)定制,目前集成了19種軟件,
37、具體使用方法見(jiàn)手冊(cè)Gridview_應(yīng)用Portal_用戶(hù)手冊(cè)4.4.4.1 portal提交4.4.4.1 portal提交用戶(hù)針對(duì)應(yīng)用特殊配置 每個(gè)應(yīng)用在$HOME/ .clusportal /目錄下有個(gè)對(duì)應(yīng)的 .setting文件 ,前綴為應(yīng)用名。Fluentfluent.setting# run settingprog_default=/public/software/ansys_inc/v121/fluent/bin/fluentprog_list=/public/software/ansys_inc/v121/fluent/bin/fluent:# runfile settingF
38、luent_ENVFILE=/public/software/profile.d/fluent-env.sh4.4.4.2 腳本和命令行提交4.4.4.2 腳本和命令行提交4.4.4.1 portal提交機(jī)群上作業(yè)情況my job id is 326.node1run nodes is following:node4node4node4node4begin time is Tue Aug 21 11:09:34 CST 2012/public/software/ansys_inc/v121/fluent/fluent12.1.4/bin/fluent -r12.1.4 2d -g -t4 -cnf=/opt/gridview/pbs/dispatcher/aux/326.node1 -ssh -mpi=openmpi -i /home/shenj/work/fluent/3/cavity.jou parallel/timer/usagePerformance Timer for 300 iterations on 4 compute nodes Average wall-clock time per iteration: 0.002 sec Glo
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度辦公室門(mén)套定制與建筑節(jié)能改造合同
- 港口物流居間合同委托書(shū)
- 電子設(shè)備采購(gòu)合同
- 法院判決離婚協(xié)議書(shū)
- 醫(yī)療器械外包合同
- 設(shè)備維護(hù)管理作業(yè)指導(dǎo)書(shū)
- 奶茶購(gòu)銷(xiāo)合同飲料購(gòu)銷(xiāo)合同
- IT服務(wù)管理規(guī)范指南
- 農(nóng)業(yè)生產(chǎn)產(chǎn)業(yè)升級(jí)路徑選擇方案
- 價(jià)格調(diào)整與市場(chǎng)定位策略方案
- GB/T 19675.2-2005管法蘭用金屬?zèng)_齒板柔性石墨復(fù)合墊片技術(shù)條件
- 社會(huì)工作綜合能力上(初級(jí))課件
- 運(yùn)動(dòng)技能學(xué)習(xí)與控制課件第十三章動(dòng)作技能的保持和遷移
- 2023年春節(jié)后建筑施工復(fù)工復(fù)產(chǎn)專(zhuān)項(xiàng)方案
- 污水處理廠化驗(yàn)管理手冊(cè)
- 電梯設(shè)備維護(hù)保養(yǎng)合同模板范本
- 叉車(chē)操作規(guī)程
- 土建工程技術(shù)標(biāo)范本(DOC167頁(yè))
- 注塑參數(shù)DOE分析范例
- 綜合布線(xiàn)類(lèi)項(xiàng)目施工圖解(共21頁(yè))
- 圓錐曲線(xiàn)方程復(fù)習(xí)
評(píng)論
0/150
提交評(píng)論