バッチキュー一覧
バッチキュー一覧
各ワークグループのバッチキュー
構成 | 説明 | s | l | h | p1 | z |
---|---|---|---|---|---|---|
DESCRIPTION | キューの説明 | 実行時間6時間以下のジョブ | 実行時間48時間以下のジョブ | 重いジョブ | MPI/OpenMPジョブ | 理論計算 登録制 |
PRIORITY | キューの優先順位度 | 120 | 100 | 100 | 100 | 100 |
NICE | UNIXスケジューリング順位 | 5 | 5 | 5 | 5 | 5 |
QJOB_LIMIT | キューに対するジョブスロット制限 | 3200 | - | 1200 | 1200 | - |
HJOB_LIMIT | ホストあたりのジョブ実行数 | - | - | - | - | - |
UJOB_LIMIT | ユーザあたりの使用可能スロット数 | 800 | 1200 | 200 | 240 | 100 |
TASKLIMIT | タスクあたりの使用可能スロット数 | 1 1 124 | 1 1 124 | 1 1 124 | 2 4 644 | 1 1 124 |
RES_REQ | 有効なホストを決定するためのリソース要件 | affinity[core(1):cpubind=core] span[host=1] | affinity[core(1):cpubind=core] span[host=1] | affinity[core(1):cpubind=core] span[host=1] | affinity[core(1):cpubind=core] | affinity[core(1):cpubind=core] |
CPULIMIT | CPU時間制限 | 2:30 | 20:00 | 144:00 | 1280:00 | - |
RUNLIMIT | 実行時間制限 | 5:00 | 40:00 | 192:00 | 40:00 | - |
MEMLIMIT | プロセスあたりの物理メモリ制限(MB) | 4096 | 4096 | 4096 | 40965 | 4096 |
SWAPLIMIT | プロセスあたりのSWAP領域制限(MB) | - | - | - | - | - |
PROCESSLIMIT | ジョブあたりのプロセス数制限 | 20 | 20 | 20 | - | 20 |
FAIRSHARE | キューレベルのフェアシェア | USER_SHARES [default, 1] |
- | - | - | - |
FAIRSHARE_QUEUES | クロスキューフェアシェアにおけるスレーブキュー | fairshare_grp3 | - | - | - | - |
RERUNNABLE | ジョブの自動再実行 | YES | YES | YES | YES | YES |
PRE_EXEC | ジョブ投入前実行シェル | - | - | - | - | - |
USERS | ジョブ投入可能ユーザ | all | all | all | all | permitted users |
HOSTS | ジョブ投入ホスト | cnode | cnode | cnode | cnode | cnode |
REQUEUE_EXIT_VALUES | ジョブのキューへの自動再登録 | 101 | 101 | 101 | 101 | 101 |
SLOT_RESERVE | キューのプロセッサ予約を有効にし、予約時間を指定 | - | - | - | MAX_RESERVE_TIME[4320] | - |
BACKFILL | バックフィルスケジューリング有効 | - | - | - | y | - |
CORELIMIT | プロセスあたりのコアファイルサイズ制限(KB) | - | - | - | - | - |
STACKLIMIT | プロセスあたりのスタックセグメントサイズ制限(KB) | - | - | - | - | - |
JOB_STARTER | ジョブを実行する前の環境作成 | 2 | 2 | 2 | export PSM_SHAREDCONTEXTS_MAX=4 | 2 |
構成 | 説明 | b_b1 | b_index | b_nagoya |
---|---|---|---|---|
DESCRIPTION | キューの説明 | Belleユーザ解析ジョブ(72時間) | Belleユーザ解析ジョブ(index ファイル用) | Belleユーザ解析ジョブ(名古屋大接続用) |
PRIORITY | キューの優先順位度 | 100 | 110 | 110 |
NICE | UNIXスケジューリング順位 | 5 | 5 | 5 |
QJOB_LIMIT | キューに対するジョブスロット制限 | - | 600 | 600 |
HJOB_LIMIT | ホストあたりのジョブ実行数 | - | - | - |
UJOB_LIMIT | ユーザあたりの使用可能スロット数 | 1000 | 100 | 100 |
TASKLIMIT | タスクあたりの使用可能スロット数 | 1 1 44 | 1 | 1 |
RES_REQ | 有効なホストを決定するためのリソース要件 | span[hosts=1] affinity[core(1):cpubind=core] | affinity[core(1):cpubind=core] | affinity[core(1):cpubind=core] |
CPULIMIT | CPU時間制限 | 96:00 | 48:00 | 48:00 |
RUNLIMIT | 実行時間制限 | 48:00 | 48:00 | 48:00 |
MEMLIMIT | プロセスあたりの物理メモリ制限(MB) | 4096 | 4096 | 4096 |
SWAPLIMIT | プロセスあたりのSWAP領域制限(MB) | - | - | - |
PROCESSLIMIT | ジョブあたりのプロセス数制限 | 30 | 30 | 30 |
FAIRSHARE | キューレベルのフェアシェア | - | USER_SHARES [default, 1] |
- |
FAIRSHARE_QUEUES | クロスキューフェアシェアにおけるスレーブキュー | fairshare_grp3 | b_nagoya | - |
RERUNNABLE | ジョブの自動再実行 | YES | YES | YES |
PRE_EXEC | ジョブ投入前実行シェル | - | - | - |
USERS | ジョブ投入可能ユーザ | belleall | belleall | belleall |
HOSTS | ジョブ投入ホスト | cnode | cnode | cnode |
REQUEUE_EXIT_VALUES | ジョブのキューへの自動再登録 | - | - | - |
SLOT_RESERVE | キューのプロセッサ予約を有効にし、予約時間を指定 | MAX_RESERVE_TIME[4320] | - | - |
BACKFILL | バックフィルスケジューリング有効 | y | - | - |
CORELIMIT | プロセスあたりのコアファイルサイズ制限(KB) | - | - | - |
STACKLIMIT | プロセスあたりのスタックセグメントサイズ制限(KB) | 4096 | 4096 | 4096 |
JOB_STARTER | ジョブを実行する前の環境作成 | 2 | 2 | 2 |
構成 | 説明 | koto_prod | th1 | cmb_p | cmb_px | a | p4001 | g |
---|---|---|---|---|---|---|---|---|
DESCRIPTION | キューの説明 | had_kotoユーザ解析ジョブ | theoryユーザ解析ジョブ | CMB用 | CMB用 | 最低リソース保証(GRA) | MPI/OpenMP(400並列) | GPUサーバを使用したジョブ |
PRIORITY | キューの優先順位度 | 100 | 100 | 100 | 100 | 100 | 100 | 100 |
NICE | UNIXスケジューリング順位 | 5 | 5 | 5 | 5 | 5 | 5 | 5 |
QJOB_LIMIT | キューに対するジョブスロット制限 | 300 | 1200 | 1200 | 1000- | - | - | |
HJOB_LIMIT | ホストあたりのジョブ実行数 | - | - | - | 10 | - | - | - |
UJOB_LIMIT | ユーザあたりの使用可能スロット数 | - | 200 | 240 | 80 | 4 | 800 | 100 |
TASKLIMIT | タスクあたりの使用可能スロット数 | 1 | 1 1 244 | 2 48 484 | 24 | 1 | 1 400 4004 | 1 1 84 |
RES_REQ | 有効なホストを決定するためのリソース要件 | - | span[hosts=1] affinity[core(1):cpubind=core] | affinity[core(1):cpubind=core] | affinity[core(1):cpubind=core] | affinity[core(1):cpubind=core] | affinity[core(1):cpubind=core] | affinity[core(1):cpubind=core] |
CPULIMIT | CPU時間制限 | 1:00 | 1152:00 | 2304:00 | 1152:00 | 20:00 | 19224:00 | 192:00 |
RUNLIMIT | 実行時間制限 | 2:00 | 480:00 | 48:00 | 48:00 | 40:00 | 48:00 | 48:00 |
MEMLIMIT | プロセスあたりの物理メモリ制限(MB) | 4096 | 4096 | 4096 | 24567 | 4096 | 4096 | 4096 |
SWAPLIMIT | プロセスあたりのSWAP領域制限(MB) | - | - | - | - | - | - | - |
PROCESSLIMIT | ジョブあたりのプロセス数制限 | 20 | 20 | - | - | 20 | - | 20 |
FAIRSHARE | キューレベルのフェアシェア | - | - | - | - | - | - | - |
FAIRSHARE_QUEUES | クロスキューフェアシェアにおけるスレーブキュー | - | fairshare_grp3 | fairshare_grp3 | fairshare_grp3 | - | - | - |
RERUNNABLE | ジョブの自動再実行 | YES | YES | YES | YES | YES | YES | YES |
PRE_EXEC | ジョブ投入前実行シェル | - | - | - | - | - | - | - |
USERS | ジョブ投入可能ユーザ | had_koto | permittedusers | cmb | cmb | all | permitted users | permitted users |
HOSTS | ジョブ投入ホスト | cnode | cnode | cnode | cnode | cnode_GRA | cnode | ccg01 |
REQUEUE_EXIT_VALUES | ジョブのキューへの自動再登録 | 101 | - | - | - | 101 | 101 | 101 |
SLOT_RESERVE | キューのプロセッサ予約を有効にし、予約時間を指定 | - | MAX_RESERVE_TIME[4320] | - | - | - | MAX_RESERVE_TIME[4320] | - |
BACKFILL | バックフィルスケジューリング有効 | - | y | - | - | - | y | - |
CORELIMIT | プロセスあたりのコアファイルサイズ制限(KB) | - | - | - | - | - | - | - |
STACKLIMIT | プロセスあたりのスタックセグメントサイズ制限(KB) | - | - | - | - | - | - | - |
JOB_STARTER | ジョブを実行する前の環境作成 | 2 | 2 | - | - | - | - | - |
構成 | 説明 | b2_a | b2_beast | b2_fei | b2_prod | b_prod | ph | t2k |
---|---|---|---|---|---|---|---|---|
DESCRIPTION | キューの説明 | belle2ユーザ用 | 長時間ジョブ用 | 長時間ジョブ用 | belle2 extra productionキュー | belleユーザ用(テストキュー) | 長時間並列ジョブ用 (computeT1) | t2kユーザ用 |
PRIORITY | キューの優先順位度 | 100 | 130 | 110 | 110 | 110 | 100 | 100 |
NICE | UNIXスケジューリング順位 | 5 | 5 | 5 | 5 | 5 | 5 | 5 |
QJOB_LIMIT | キューに対するジョブスロット制限 | - | 200 | 100 | 400 | 1000 | - | 500 |
HJOB_LIMIT | ホストあたりのジョブ実行数 | - | - | - | - | - | - | - |
UJOB_LIMIT | ユーザあたりの使用可能スロット数 | - | - | - | - | - | 100 | - |
TASKLIMIT | タスクあたりの使用可能スロット数 | 1 4 44 | 1 | - | 1 | 1 | 1 48 484 | 1 |
RES_REQ | 有効なホストを決定するためのリソース要件 | span[hosts=1] affinity[core(1):cpubind=core] | affinity[core(1):cpubind=core] | affinity[core(1):cpubind=core] | affinity[core(1):cpubind=core] | span[hosts=1] affinity[core(1):cpubind=core]a | affinity[core(1):cpubind=core] | affinity[core(1):cpubind=core] |
CPULIMIT | CPU時間制限 | 96:00 | 3:00 | 48:00 | 24:00 | 168:00 | 2304:00 | 3:00 |
RUNLIMIT | 実行時間制限 | 48:00 | 6:00 | 96:00 | 48:00 | 168:00 | 480:00 | 6:00 |
MEMLIMIT | プロセスあたりの物理メモリ制限(MB) | 4096 | 4096 | 4096 | 4096 | 4096 | 4096 | 4096 |
SWAPLIMIT | プロセスあたりのSWAP領域制限(MB) | - | - | - | - | - | - | - |
PROCESSLIMIT | ジョブあたりのプロセス数制限 | 30 | 20 | 20 | 100 | 30 | - | 20 |
FAIRSHARE | キューレベルのフェアシェア | - | - | - | - | - | - | - |
FAIRSHARE_QUEUES | クロスキューフェアシェアにおけるスレーブキュー | - | - | - | - | - | - | - |
RERUNNABLE | ジョブの自動再実行 | YES | YES | YES | YES | NO | YES | YES |
PRE_EXEC | ジョブ投入前実行シェル | - | - | - | - | - | - | - |
USERS | ジョブ投入可能ユーザ | permittedusers | permittedusers | permittedusers | permittedusers | permittedusers | permitted users | t2k |
HOSTS | ジョブ投入ホスト | cnode | cnode | cnode | cnode | cnode | cnode | cnode |
REQUEUE_EXIT_VALUES | ジョブのキューへの自動再登録 | 101 | 101 | - | - | - | - | 101 |
SLOT_RESERVE | キューのプロセッサ予約を有効にし、予約時間を指定 | - | - | - | - | MAX_RESERVE_TIME[4320] | MAX_RESERVE_TIME[4320] | - |
BACKFILL | バックフィルスケジューリング有効 | y | - | - | - | y | y | - |
CORELIMIT | プロセスあたりのコアファイルサイズ制限(KB) | - | - | - | - | - | - | - |
STACKLIMIT | プロセスあたりのスタックセグメントサイズ制限(KB) | 4096 | - | - | - | 4096 | - | - |
JOB_STARTER | ジョブを実行する前の環境作成 | 2 | 2 | 2 | 2 | 2 | export PSM_SHAREDCONTEXTS_MAX=4 | 2 |
ジョブ実行ホストグループ
ホストグループ | ノード |
---|---|
cnode | cb001 - cb063 |
cnode_GRA | cb001 - cb005 |
クロスキューフェアシェアグループ
本システムでは、複数のキューに同時に適用されるフェアシェアポリシーを定義しています(クロスキューフェアシェア)。ユーザが複数のキューにジョブを投入した場合、ユーザの優先順位は、そのユーザが下表のグループで定義されているキューに投入したすべてのジョブを考慮に入れて計算されます。
グループ | キュー |
---|---|
fairshare_grp | l, h, p, z, b_b, b2_a, cmb_p, t2k, koto_prod, th, gridshort, gridbelle_short, gridilc_short, gridg4med_short, gridmiddle, gridlong, gridbelle_middle, gridbelle_long, gridbelle_heavy, gridilc_middle, gridilc_long, gridilc_heavy, gridg4med_middle, gridg4med_long, gridg4med_heavy, gridops, p400, ph, g |
利用上の注意
上記のキューの他に、以下のようなキューもあります。これらは、Gridシステムからの実行のみを想定したキューですので、一般ユーザでのジョブ投入はできません。
- gridshort
- gridmiddle
- gridlong
- gridbelle_short
- gridbelle_middle
- gridbelle_long
- gridbelle_heavy
- gridilc_short
- gridilc_middle
- gridilc_long
- gridilc_heavy
- gridg4med_short
- gridg4med_middle
- gridg4med_long
- gridg4med_heavy
- gridops
-
キュー p, p400, ph、及びキュー b_b, th のジョブは、待ち状態になった場合、ジョブ投入時点で空いているジョブスロットを自身の実行のために予約します。予約されたジョブスロットは、予約されている間、ジョブは実行されません。予約は並列ジョブが要求するジョブスロット数に達するか、最初の予約から24時間経過するまで維持されます。 ↩↩↩↩
-
ジョブ実行前に以下の環境変数設定スクリプトを実行します。LSB_DJOB_NUMPROC は bsub オプション -n で指定した値が入ります。( -n 無指定の場合は PROCLIMIT デフォルト値が入ります)
if [ -z "${OMP_NUM_THREADS}" ]; then if [ -z "${LSB_DJOB_NUMPROC}" ]; then export OMP_NUM_THREADS=1 else export OMP_NUM_THREADS=${LSB_DJOB_NUMPROC} fi fi if [[ -z "${LSB_DJOB_NUMPROC}" ]] || [[ ${LSB_DJOB_NUMPROC} -eq 1 ]]; then export BASF_NPROCESS=0 else export BASF_NPROCESS=${LSB_DJOB_NUMPROC} fi
↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩ -
ジョブ実行に使用する CPU 数が変更可能です。PROCLIMIT 欄の3つの値は、左から [最小値] [デフォルト値] [最大値] を意味しています。bsub オプション -n で [最小値] から [最大値] の間で CPU 数を指定することができます。指定しない場合、[デフォルト値] が使用されます。 ↩↩↩↩↩↩↩↩↩↩↩↩
-
LSF の制限とは別に、OS の設定で各ユーザ単位で 1500 プロセスまでの制限がかかっています。 ↩