4.3.ジョブの実行方法(fjコマンド編)

目次 (4.3.ジョブの実行方法(fjコマンド編))

4.3.   ジョブの実行方法(fjコマンド編)
4.3.1.  ジョブ投入コマンド(fjsub)
4.3.2.  ジョブ情報表示コマンド(fjstat)
4.3.3.  ジョブのキャンセルコマンド(fjdel)

 

▲このページの先頭へ

4.3. ジョブの実行方法(fj コマンド編)

スーパーコンピュータ「京」にて稼働しているジョブ管理コマンド(fj コマンド)もSLURM コマンドと同様にFOCUS スパコン上にて実行できます。
ジョブを実行するには、フロントエンドサーバからコマンドを実行します。
ジョブ管理のためのコマンドは次のとおりです。

表4.3 ジョブ管理コマンド一覧(fj コマンド編)

コマンド コマンド用途 手順
sinfo –s キュー(パーティション)の情報を表示する 4.1.2.キュー情報の確認方法
squeues キューのノード実行状況を表示する
freenodes 空ノード数を表示する 4.1.3. 利用可能なノード数の確認方法
fjsub ジョブを投入する 4.3.1.ジョブ投入コマンド(fjsub)
fjstat ジョブやキューの状態・情報を表示する 4.3.2.ジョブ情報表示コマンド(fjstat)
fjdel ジョブをキャンセルする 4.3.3.ジョブのキャンセルコマンド(fjdel)

▲このページの先頭へ

4.3.1. ジョブ投入コマンド(fjsub)

ジョブを実行するために、ジョブ投入スクリプトを事前に作成します。fjsub コマンドにジョブ投入スクリプトを指定することで、ジョブがキューイングされ実行されます。

fjsub コマンドの書式】

fjsub ジョブ投入スクリプト

注)bsub と異なり、リダイレクトではなく、引数でジョブ投入スクリプトを渡します。

fjsubコマンドの例(スクリプトファイルがrun.shの場合)】

$ fjsub run.sh

ジョブ投入コマンド(fjsub)について、以下に主なオプションを示します。

表 4.3.1 fjsub オプション

オプション 概要
fjsub -N "sample job name" ジョブに任意のジョブ名をつけます。
fjsub -L node=ノード数 ノード数を指定します。
fjsub -L elapse=経過時間 ジョブの経過時間制限値を指定します。
経過時間は分単位で指定することができます。
fjsub -o ./out_%j.log (※) out_ジョブID という名前のファイルに標準出力を出力します。-eオプションが指定されていない場合は、標準エラー出力もこのファイルに出力されます。
fjsub -e ./err_%j.log (※) err_ジョブID という名前のファイルに標準エラー出力を出力します。

※シンボル「%j」はジョブID に置換されます。

▲このページの先頭へ

4.3.2. ジョブ情報表示コマンド(fjstat)

ジョブの各種情報を表示するときは、fjstat コマンドを実行します。fjstat の後に、ジョブID をスペース区切りで複数指定すると、複数のジョブを一度に表示することができます。また、ジョブID を省略すると、参照可能な全てのジョブ情報を表示することができます。

fjstat ジョブID
fjstat ジョブID ジョブID ジョブID
fjstat

注)他の利用者の情報は表示されません。

fjstat コマンド例】

$ fjstat
    QUEUED    RUNNING       HOLD     ERROR     TOTAL
         0          3          0         0         3
   s     0          3          0         0         3
  JOB_ID        JOB_NAME  MD   ST         USER      START_DATE  ELAPSE_LIM  NODE_REQUIRE
       1  test_test_test  NM  RUN       ******  12/27 11:34:39  0001:40:00             1
       2  test_test_test  NM  RUN       ******  12/27 11:49:18  0000:06:00             1
       3  test_test_test  NM  RUN       ******  12/27 11:55:00  0001:40:00             1 

表 4.3.2-1 fjstat オプション

オプション 概要
[-c ] 指定したクラスタに登録されたジョブを集計対象とします。
[-A|--all] 全てのクラスタに登録されたジョブを集計対象とします。
--choose [, ...]] 集計情報を表示する際の表示項目とその順序(位置)を指定します。
[ [ ...]] 集計対象のジョブID を指定します。
--help 本コマンドの使用方法を表示します。

表 4.3.2-2 ジョブステータス

ステータス 略称 意味
QUEUE QUE ジョブ実行待ち状態のジョブ件数
RUNNING RUN ジョブ実行中のジョブ件数
HOLD HLD ユーザにより停止されたジョブ件数
ERROR ERR エラーにより停止されたジョブ件数
EXT ジョブ終了処理完了
CCL ジョブ実行中止による終了

表 4.3.2-3 表示アイテム

アイテム名 説明 詳細ステータス
JOB_ID ジョブID ジョブ登録時にSLURM が発行するジョブID(整数)
JOB_NAME ジョブ名 ジョブ登録時にユーザが指定したジョブ名(デフォルトではスクリプトファイル名)
MD ジョブモデル 常にNM の2 文字固定
ST ジョブステータス ジョブのステータス名(表 5.1.2.3-2 ジョブステータス)
USER 実行ユーザ名 アカウント名
START_DATE ジョブ開始時刻 ジョブ実行前の場合は、開始予測時間”YYYY/MM/DD”を出力
実行中および実行後の場合は、実際に開始した時刻”MM/DD hh:mm:ss”を出力(予測時刻の場合は時刻が括弧で囲まれて出力される)
ELAPSE_LIM 経過時間制限 “hhhh:mm:ss”の形式
桁が溢れる場合は、ss を省略して出力
NODE_REQUIRE ジョブの投入時のノード数 ノード数

▲このページの先頭へ

4.3.3. ジョブのキャンセルコマンド(fjdel)

ジョブをキャンセルするにはfjdel コマンドを用います。fjstat コマンドなどで確認したジョブID を指定します。

fjdel の後に、ジョブID をスペース区切りで指定すると、複数のジョブを一度にキャンセルすることができます。

fjdel ジョブID ジョブID ジョブID

 

▲このページの先頭へ