目次 (4.3.ジョブの実行方法(fjコマンド編))
4.3. ジョブの実行方法(fjコマンド編)
4.3.1. ジョブ投入コマンド(fjsub)
4.3.2. ジョブ情報表示コマンド(fjstat)
4.3.3. ジョブのキャンセルコマンド(fjdel)
4.3. ジョブの実行方法(fj コマンド編)
スーパーコンピュータ「京」にて稼働しているジョブ管理コマンド(fj
コマンド)もSLURM コマンドと同様にFOCUS スパコン上にて実行できます。
ジョブを実行するには、フロントエンドサーバからコマンドを実行します。
ジョブ管理のためのコマンドは次のとおりです。
表4.3 ジョブ管理コマンド一覧(fj
コマンド編)
コマンド | コマンド用途 | 手順 |
---|---|---|
sinfo –s |
キュー(パーティション)の情報を表示する | 4.1.2.キュー情報の確認方法 |
squeues |
キューのノード実行状況を表示する | |
freenodes |
空ノード数を表示する | 4.1.3. 利用可能なノード数の確認方法 |
fjsub |
ジョブを投入する | 4.3.1.ジョブ投入コマンド(fjsub) |
fjstat |
ジョブやキューの状態・情報を表示する | 4.3.2.ジョブ情報表示コマンド(fjstat) |
fjdel |
ジョブをキャンセルする | 4.3.3.ジョブのキャンセルコマンド(fjdel) |
4.3.1. ジョブ投入コマンド(fjsub)
ジョブを実行するために、ジョブ投入スクリプトを事前に作成します。fjsub
コマンドにジョブ投入スクリプトを指定することで、ジョブがキューイングされ実行されます。
【fjsub
コマンドの書式】
fjsub ジョブ投入スクリプト
注)bsub
と異なり、リダイレクトではなく、引数でジョブ投入スクリプトを渡します。
【fjsub
コマンドの例(スクリプトファイルがrun.sh
の場合)】
$ fjsub run.sh
ジョブ投入コマンド(fjsub
)について、以下に主なオプションを示します。
表 4.3.1 fjsub
オプション
オプション | 概要 |
---|---|
fjsub -N "sample job name" |
ジョブに任意のジョブ名をつけます。 |
fjsub -L node=ノード数 |
ノード数を指定します。 |
fjsub -L elapse=経過時間 |
ジョブの経過時間制限値を指定します。 経過時間は分単位で指定することができます。 |
fjsub -o ./out_%j.log (※) |
out_ジョブID という名前のファイルに標準出力を出力します。-e オプションが指定されていない場合は、標準エラー出力もこのファイルに出力されます。 |
fjsub -e ./err_%j.log (※) |
err_ジョブID という名前のファイルに標準エラー出力を出力します。 |
※シンボル「%j
」はジョブID に置換されます。
4.3.2. ジョブ情報表示コマンド(fjstat)
ジョブの各種情報を表示するときは、fjstat
コマンドを実行します。fjstat
の後に、ジョブID をスペース区切りで複数指定すると、複数のジョブを一度に表示することができます。また、ジョブID を省略すると、参照可能な全てのジョブ情報を表示することができます。
fjstat ジョブID
fjstat ジョブID ジョブID ジョブID
fjstat
注)他の利用者の情報は表示されません。
【fjstat
コマンド例】
$ fjstat QUEUED RUNNING HOLD ERROR TOTAL 0 3 0 0 3 s 0 3 0 0 3 JOB_ID JOB_NAME MD ST USER START_DATE ELAPSE_LIM NODE_REQUIRE 1 test_test_test NM RUN ****** 12/27 11:34:39 0001:40:00 1 2 test_test_test NM RUN ****** 12/27 11:49:18 0000:06:00 1 3 test_test_test NM RUN ****** 12/27 11:55:00 0001:40:00 1
表 4.3.2-1 fjstat
オプション
オプション | 概要 |
---|---|
[-c ] |
指定したクラスタに登録されたジョブを集計対象とします。 |
[-A|--all] |
全てのクラスタに登録されたジョブを集計対象とします。 |
--choose [, ...]] |
集計情報を表示する際の表示項目とその順序(位置)を指定します。 |
[ [ ...]] |
集計対象のジョブID を指定します。 |
--help |
本コマンドの使用方法を表示します。 |
表 4.3.2-2 ジョブステータス
ステータス | 略称 | 意味 |
---|---|---|
QUEUE | QUE | ジョブ実行待ち状態のジョブ件数 |
RUNNING | RUN | ジョブ実行中のジョブ件数 |
HOLD | HLD | ユーザにより停止されたジョブ件数 |
ERROR | ERR | エラーにより停止されたジョブ件数 |
- | EXT | ジョブ終了処理完了 |
- | CCL | ジョブ実行中止による終了 |
表 4.3.2-3 表示アイテム
アイテム名 | 説明 | 詳細ステータス |
---|---|---|
JOB_ID | ジョブID | ジョブ登録時にSLURM が発行するジョブID(整数) |
JOB_NAME | ジョブ名 | ジョブ登録時にユーザが指定したジョブ名(デフォルトではスクリプトファイル名) |
MD | ジョブモデル | 常にNM の2 文字固定 |
ST | ジョブステータス | ジョブのステータス名(表 5.1.2.3-2 ジョブステータス) |
USER | 実行ユーザ名 | アカウント名 |
START_DATE | ジョブ開始時刻 | ジョブ実行前の場合は、開始予測時間”YYYY/MM/DD”を出力 実行中および実行後の場合は、実際に開始した時刻”MM/DD hh:mm:ss”を出力(予測時刻の場合は時刻が括弧で囲まれて出力される) |
ELAPSE_LIM | 経過時間制限 | “hhhh:mm:ss”の形式 桁が溢れる場合は、ss を省略して出力 |
NODE_REQUIRE | ジョブの投入時のノード数 | ノード数 |
4.3.3. ジョブのキャンセルコマンド(fjdel)
ジョブをキャンセルするにはfjdel
コマンドを用います。fjstat
コマンドなどで確認したジョブID を指定します。
fjdel
の後に、ジョブID をスペース区切りで指定すると、複数のジョブを一度にキャンセルすることができます。
fjdel ジョブID ジョブID ジョブID