要旨

Windows Server から複数のサーバに同時に問い合わせ、応答データを集計して出力したい作業がある。Linux では & でバックグラウンドに回したり、GNU Parallel を使ったりするのだが、似たようなことが PowerShell でもできる。

利用には若干の工夫が必要なためメモしておく。

サンプルスクリプト(変更前)

下記のように複数のサーバに ssh で問い合わせ、結果を表示するようなスクリプトを想定する。

# サーバ A からデータ取得
function Get-ServerDataA {
    param (
        [string]$arg1 = "",
        [string]$arg2 = ""
    )
    $res = & ssh batchuser@serverA.example.internal batch1.sh $arg1 $arg2
    return $res
}

# サーバ B からデータ取得
function Get-ServerDataB {
    param (
        [string]$arg1 = "",
        [string]$arg2 = ""
    )
    $res = & ssh batchuser@serverB.example.internal batch2.sh $arg1 $arg2
    return $res
}

# 順次実行する
$resultA = Get-ServerDataA "ABC" "DEF"
$resultB = Get-ServerDataB "PQR" "XYZ"

# 取得結果を出力
Write-Host $resultA
Write-Host $resultB

Get-ServerDataA と Get-ServerDataB の応答がそれぞれ 30秒, 40秒かかるとしたら、単純計算で 70秒は掛かることになる。PowerShell 側ではただ待っているだけなので、この2つの呼び出しを並列化し、すべて完了したら結果を表示したい。並列化の想定通りであれば、遅い方の時間 40秒+αで終わるはず。

サンプルスクリプト(並列化)

上記スクリプトを並列化する。

## function をスクリプトブロックに変換し変数に入れる
# サーバ A からデータ取得
$function_Get_ServerDataA = {
    param (
        [string]$arg1 = "",
        [string]$arg2 = ""
    )
    $res = & ssh batchuser@serverA.example.internal batch1.sh $arg1 $arg2
    return $res
}

# サーバ B からデータ取得
$function_Get_ServerDataB = {
    param (
        [string]$arg1 = "",
        [string]$arg2 = ""
    )
    $res = & ssh batchuser@serverB.example.internal batch2.sh $arg1 $arg2
    return $res
}

# バックグラウンドジョブで並列実行
$jobA = Start-Job -ScriptBlock $function_Get_ServerDataA -ArgumentList "ABC", "DEF"
$jobB = Start-Job -ScriptBlock $function_Get_ServerDataB -ArgumentList "PQR", "XYZ"

# 全ジョブの終了を待つ
Get-Job | Wait-Job | Out-Null

# 各ジョブの結果を取り出す
$resultA = Receive-Job $jobA
$resultB = Receive-Job $jobB

# 終了しただけ残っているジョブを削除しておく
Get-Job | Remove-Job

# 取得結果を出力
Write-Host $resultA
Write-Host $resultB

ポイントは下記の通り。

  • ジョブ管理系の *-Job コマンドレットを使用する
  • 実行させたい処理単位をスクリプトブロックとして定義し、変数に入れておく
  • バックグラウンド内のジョブは、外部で定義した function やグローバル変数が (普通には) 参照できないため、引数として渡す
  • Start-Job で並列化したい分だけ実行を掛け、Wait-Job で全ジョブ終了を待つ。
  • Recieve-Job で、各 JOB 応答オブジェクトから結果を取り出す。
  • 各ジョブは実行後も消えずに残っているので、後処理として Remove-Job ですべて削除する。

共通の関数を複数のジョブで使いたいときは、function 定義自体をスクリプトブロックとして 変数に入れ、Start-Job に -InitializationScript オプションで渡す等の工夫が必要。

検証

上記のようなコード例は実機で並行稼働できることを実証済みだが、ピンとこない方のために手元で確認できるコードを書いてみた。Windows 10 標準の PowerShell 5.1 および、最新の PowerShell 7 の双方で動作確認してある。

サーバAの処理が10秒、サーバBの処理が5秒と想定し、Sleep で代用する。

順次実行: Test-Sequential.ps1

# サーバ A からデータ取得
function Get-ServerDataA {
    param ([string]$arg1 = "", [string]$arg2 = "")
    Start-Sleep -s 10
    $res = "SERVER A: ${arg1}-${arg2}"
    return $res
}

# サーバ B からデータ取得
function Get-ServerDataB {
    param ([string]$arg1 = "", [string]$arg2 = "")
    Start-Sleep -s 5
    $res = "SERVER B: ${arg1}-${arg2}"
    return $res
}

# 順次実行する
$resultA = Get-ServerDataA "ABC" "DEF"
$resultB = Get-ServerDataB "PQR" "XYZ"

# 取得結果を出力
Write-Host $resultA
Write-Host $resultB

並列実行: Test-Parallel.ps1

# サーバ A からデータ取得
$func_Get_ServerDataA = {
    param ([string]$arg1 = "", [string]$arg2 = "")
    Start-Sleep -s 10
    $res = "SERVER A: ${arg1}-${arg2}"
    return $res
}

# サーバ B からデータ取得
$func_Get_ServerDataB = {
    param ([string]$arg1 = "", [string]$arg2 = "")
    Start-Sleep -s 5
    $res = "SERVER B: ${arg1}-${arg2}"
    return $res
}

# 並列実行+終了待ち
$jobA = Start-Job -ScriptBlock $func_Get_ServerDataA -ArgumentList "ABC","DEF"
$jobB = Start-Job -ScriptBlock $func_Get_ServerDataB -ArgumentList "PQR","XYZ"
Get-Job | Wait-Job | Out-Null

# 結果取得+JOB後片付け
$resultA = Receive-Job $jobA
$resultB = Receive-Job $jobB
Get-Job | Remove-Job

# 取得結果を出力
Write-Host $resultA
Write-Host $resultB

速度比較

実行時間を測定できる Measure-Command コマンドレットを利用し、秒数のみ表示してみる。

(1) 順次実行バージョン

PS C:\> Measure-Command { .\Test-Sequential.ps1 } | Format-List TotalSeconds
SERVER A: ABC-DEF
SERVER B: PQR-XYZ

TotalSeconds : 15.024752

(2) 並列実行化

PS C:\> Measure-Command { .\Test-Parallel.ps1 } | Format-List TotalSeconds
SERVER A: ABC-DEF
SERVER B: PQR-XYZ

TotalSeconds : 10.1969016

想定通り、長く掛かる方のジョブの時間の約 10 秒で完了している。

このコードではエラーハンドリングは行っていない。Wait-Job にはタイムアウトオプションもあるため、複数のジョブのうち1つが失敗したら結果を表示せず、エラー終了する処理を入れるべきだと思う。