torque+maui作业调度
生活随笔
收集整理的這篇文章主要介紹了
torque+maui作业调度
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
關于Torque+maui調度
- 使用背景
- 解決方案
- 使用總結:
- 一.相關命令
- 二.maui配置:
使用背景
針對實際集群環境中,計算資源總體數量固定,容易產生計算需求高峰,用戶的作業會出現排隊的現象。為保障關鍵計算任務的運行,避免資源需求“潮汐”影響,需要對集群的作業進行自動化調度、排序。解決方案
1.限定用戶作業的最大作業數量、同一時刻的最大運行總核數、用戶的優先級,當高優先級用戶作業未超出上述限定范圍,但計算作業依然因為資源需求排隊,無法計算時,則殺死部 分普通用戶作業(低優先級作業),以釋放資源,滿足重大計算任務運行。2.由于 torque+maui 在調度策略上不支持搶占調度,因此需要額外開發工具,定期檢測作業的運行狀態,并采用外力干預作業的運行。若集群可以更換為 Slurm 或者 LSF 作業調度系統,則可以使用作業調度自帶的搶占功能,進行彌補。使用總結:
一.相關命令
與作業相關TORQUE 和Maui 常用的用戶命令主要有:canceljob:取消已存在的作業checkjob:顯示作業狀態、資源需求、環境、限制、信任、歷史、已分配資源和資源利用等nqs2pbs:將nqs 作業腳本轉換為pbs 作業腳本pbsnodes:顯示節點信息printjob:顯示指定作業腳本中的作業信息qdel:取消指定的作業qhold:掛起一個作業qmove:將一個作業從一個隊列移到另一個隊列中qnodes:pbsnodes 的別名,顯示節點信息qorder:交換兩個作業的排隊順序qrls:將被掛起的作業送入準備運行的隊列中qselect:顯示符合條件的作業的作業號qstat:顯示隊列、服務節點和作業的信息qsub:提交作業showbf:顯示有特殊資源需求的資源的可用性showq:顯示已激活和空閑的作業的優先級細節showstart:顯示空閑作業的估計開始時間tracejob:追蹤作業信息diagnose -p:查看正在排隊的任務的優先值setspri 優先值 JOBID:(maui命令)將JOBID的任務的優先值修改為現在的優先值,優先值在0-1000之內setspri -r 優先值 JOBID:(maui命令)在現有的優先值的基礎上加上或者減去指定的優先值。優先值的范圍在+/- 1000000000qhold JOBID:(torque的命令)將JOBID從排隊的隊列中暫停排隊qrls JOBID:(torque的命令)將被暫停掉的JOBID放回到隊列中,參與排隊。這個時候,任務的優先值從頭計算。以前的優先值丟失sethold -b JOBID:(maui的命令)將JOBID從排隊的隊列中暫停排隊。releasehold -a JOBID:(maui的命令)將被暫停掉的JOBID放回到隊列中,參與排隊。qmgr -c "p s":查看創建的隊列情況qrerun jobid:重新提交作業,作業id和原作業相同注:具體請參考TORQUE 和Maui 用戶手冊。二.maui配置:
范例1:USERCFG[user1] MAXJOB=3 MAXPROC=64 RIORITY=1000說明:用戶 user1,最多 3 個 running 的作業,一共最多 64 核,該用戶作業初始優先級為 1000。 范例2:USERWEIGHT 2GROUPWEIGHT 1GROUPCFG[test1] PRIORITY=100GROUPCFG[test2] PRIORITY=1000說明:用戶組test1中用戶提交的作業初始優先級為 100。用戶組test2中用戶提交的作業初始優先級為 1000,且用戶組設置的權重為1,如果用戶組test1、test2中設置了部分用戶的有限級,USERWEIGHT 2表名用戶維度的優先值權重為2。總優先值=(A prioritiy)*(A WEIGHT)+(B prioritiy)*(B WEIGHT)+……關于隊列,節點等配置后續使用過程中繼續更新。因對龐大的調度系統相關內容研究淺薄,以上使用場景只是冰山一角,如有問題,歡迎小伙們指正。總結
以上是生活随笔為你收集整理的torque+maui作业调度的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: matlab ecef2enu函数,GP
- 下一篇: osg+shader光照半透明