バッチ処理
バッチ処理(バッチしょり、英: batch processing)はバッチ単位で行なわれる処理である。特に以下の2つの意味で用いられる。
- コンピュータでひとまとまりのデータを一括して処理する方式。本項で詳述する。
- ひとつの設備である程度まとまった時間、または単位操作ごとに処理を区切り、原材料をこの区切りごとにまとめて投入する処理のこと。回分処理(かいぶんしょり)も同義。発酵工程やバッチ殺菌などは典型的なバッチ処理である。反対語は逐次処理または連続処理。
コンピュータのバッチ処理
[編集]コンピュータのデータ処理におけるバッチ処理は、ひとまとまりのデータを一括して処理する方式である[1]。逐次生み出されるデータを一定期間・一定量集めたものをバッチといい、このバッチ単位で処理を行なう方式がバッチ処理である。
バックアップ、フィルタリング、ソートなどの特定のデータ処理タスクは、個々のデータトランザクションで実行するには計算負荷が高く、非効率的となる場合がある。代わりに、データシステムはそのようなタスクをバッチで(まとめて)処理する。大量の反復的なデータジョブを定期的に完了するためにコンピュータが使用する方法である[2]。
比較される方式として、逐次生み出されるデータをストリームとして捉え、到着したデータを順次扱うストリーム処理がある[3]。データをキューイングせず即時処理するリアルタイム処理とも比較される。
バッチ処理を直列につなぎパイプライン処理とする(パイプラインを構築する)ことがしばしば行なわれる。
MS-DOSおよびMicrosoft Windowsのバッチファイルの由来はバッチ処理から来ている。バッチファイルは複数のコマンド行を連続で自動実行できるようにまとめて記述したテキストファイルであり、プログラムの一種である[4]。コマンド群を定期的に繰り返し実行する際に使われる。Unix系オペレーティングシステムのシェルスクリプトもまたバッチ処理に使われる。例えば複数のソースファイルからなるプログラムをコンパイルしてリンクし、実行ファイルを生成(ビルド)するとき、プログラムを修正するたびに毎回コマンドラインシェル(コマンドラインインタプリタ)上でコンパイラに渡す複雑なオプションを指定するためのコマンドを手入力するのは骨が折れるし、途中で入力ミスをしてしまうと最初からやり直しになってしまうこともある。バッチファイルやスクリプトファイルにあらかじめコマンド群を記述しておけば、次回からはそのファイルを使って実行するだけで済み、作業を自動化することができる[注釈 1]。定期的なデータのバックアップや集計作業などにも同じことが言える。
「バッチ (batch)」はプログラミングをする際、紙テープやパンチカードを利用していた時代より使用され始めた言葉である。カードまたは紙テープはシステムオペレーターに渡され、オペレーターはタスクのスケジューリングをし、コンピュータにカードまたは紙テープを投入していった。スケジューリングされたタスクは直ちにシステムに入れられたのではなく、一緒にまとめて投入されたので(バッチとは、複数の似ているものを1つのグループとして生産、処理すること、または一緒に集めて1つのユニットとして扱うこと。en:Batch processingより)、これらのタスクの集まりを「バッチジョブ」と呼ぶようになった[要出典]。
バッチジョブは一度設定されると人間の手を煩わせることなく動作する非対話型処理である。そのため入力データもスクリプトやコマンド行パラメータを通してあらかじめ用意される。この点でユーザーの入力を必要とする対話型プログラムとは対極にある。
バッチジョブは相互対話式の思想に基づく処理の仕組みではないが、IBM の CICS のようなトランザクション処理システムもテクニカルな視点から見ればバッチジョブとして動いている。もっとも、その部分はユーザーから隠れて見えない部分である。
様々な計算ジョブを制御された順番に行なう強力なユーティリティがUNIXやWindows向けに存在する。このようなユーティリティをジョブ管理システムという。基本的なジョブ管理システムはモダンなデスクトップOSやサーバーOSであれば標準ツールとして搭載されているほか、各種OS用の強力な商用パッケージも市販されている。
NECの情報管理ソフトの中にDataBooster(データブースター)という製品がある。これは通常夜間行われる日次月次のバッチ処理を高速化しようというもので、数十GB単位の大量のメモリと専用の処理アルゴリズムによって、時間のかかる中間ファイルの生成を行なわないところに特徴がある。
システム利用者が少ない・あるいはサービス提供時間外でシステム負荷が低い夜間に実行されるバッチ処理は「夜間バッチ」と呼ばれる。何らかの事情で夜間バッチが事前の想定時刻までに処理を完了できなかった場合は「突き抜け」と呼ばれる場合がある[5]。
利点
[編集]バッチ処理には以下のような利点がある。
- 多くのユーザーがコンピュータのリソースを共有できる。
- 処理をコンピュータのリソースがあまり忙しくない時間帯(多くは夜間、休日)にシフトできる。
- 人間がついていなくてもコンピュータのリソースが暇にならないように最大限有効活用できる。
- 高価なコンピュータをフルに活用することで費用対効果の効率向上に寄与する。
- サービスを停止して行うバッチ処理の場合、データの整合性を保つことが容易となる。
欠点
[編集]- 即時性が必要な処理には向かない。
- 夜間バッチを使用して「突き抜け」が発生した場合、本来のサービスと合わせて負荷がかかり大規模なシステム障害を引き起こす可能性がある。
バッチ管理システム
[編集]この節に雑多な内容が羅列されています。 |
ウィキペディアはオンライン百科事典であって、情報を無差別に収集する場ではありません。 |
- Spring Batch[※ 1]
- Java Batch System[※ 2] - 現在β版
- blancoBatchProcess[※ 3] - Excelから生成
- SUNBATCH - サントリーシステムテクノロジー
- ParallelFrame - メディア情報開発
- オブジェクトワークス/BT JobManager - NRI
- TERASOLUNA Batch Framework for Java - NTTデータ
- Web Solid Framework - ワイ・エス・ピー
- WebSphere Extended Deployment - IBM
- Batch Execution and Control Environment for Java (JBeX) - 日本IBM
- Quartz Enterprise Job Scheduler[※ 4]
- Real timeFramework Architecture - フューチャーアーキテクト
- Batch.dart[※ 5][※ 6]
脚注
[編集]注釈
[編集]出典
[編集]- ^ 「一定期間又は一定量のデータを集め, 一括して処理する方式」 ITパスポート試験. (2018). ITパスポート試験 平成30年度 春期分. 問94ア
- ^ バッチ処理とは? - バッチ処理システムの説明 - AWS
- ^ ストリーミングデータとは - ストリーミングデータの説明 - AWS / §バッチデータとストリーミングデータにはどのような違いがありますか?
- ^ batch fileの意味・使い方|英辞郎 on the WEB
- ^ “夜間バッチとは - 意味をわかりやすく - IT用語辞典 e-Words”. IT用語辞典 e-Words. 株式会社インセプト. 2024年5月22日閲覧。