Datastageはデータを抽出し、ソースからターゲットにデータを変換してロードするETLツールです。 データソースには、シーケンシャルファイル、インデックス付きファイル、リレーショナルデータベース、外部データソース、アーカイブ、エンタープライズアプリケーションなどがあります。
DataStageの詳細な知識を得たい方は、こちらのリンクをご覧ください DataStageオンライントレーニング
Datastageは、大規模な組織で異なるシステム間のインターフェースとして使用されます。 データの抽出、変換、読み込みを行います。 データステージは、90年代半ばにVMark社から発売されました。
これまでに発売されたDatastageには、Enterprise Edition (PX)、Server Edition、MVS Edition、DataStage for PeopleSoftなど、さまざまなバージョンがありました。 最新版はIBM InfoSphere DataStage
IBMインフォメーションサーバーには以下の製品があります。
- IBM InfoSphere DataStage
- IBM InfoSphere QualityStage
- IBM InfoSphere Information Services Director
- IBM InfoSphere Information Analyzer
- IBM Information Server FastTrack
- IBM InfoSphere Business Glossary
DataStageの概要
Datastageには、以下のような機能があります。
- 企業や外部の幅広いデータソースからのデータを統合することができます
- データ検証ルールを実装しています
- 大量のデータを処理、変換するのに便利です
- スケーラブルな並列処理を使用しています。
- 複雑な変換を処理し、複数の統合プロセスを管理することができます
- ソースまたはターゲットとしてエンタープライズアプリケーションに直接接続することができます
- 分析とメンテナンスのためにメタデータを利用することができます
- バッチ、リアルタイム、またはWebサービスとして動作します。
以下のセクションでは、IBM InfoSphere DataStageの以下の側面について簡単に説明します。
- データ変換
- ジョブ
- 並列処理
InfoSphere DataStageとQualityStageは、以下のようなエンタープライズアプリケーションやデータソースのデータにアクセスできます。
- リレーショナル・データベース
- メインフレーム・データベース
- ビジネスおよび分析アプリケーション
- エンタープライズ・リソース・プランニング(ERP)またはカスタマー・リレーションシップ・マネジメント(CRM)データベース
- Order-To-Before-To-Before-To-Before-To-Before-To-Before データベース
- オンライン分析処理(OLAP)またはパフォーマンス管理データベース
処理ステージの種類
IBM infosphereのジョブは、互いにリンクされた個々のステージで構成されています。 ステージは、データ ソースからデータ ターゲットへのデータの流れを記述します。 通常、1つのステージには、最低1つのデータ入力および/または1つのデータ出力があります。 しかし、いくつかのステージでは、複数のデータ入力を受け入れ、複数のステージに出力することができます。
Job designでは、以下のような様々なステージを使用することができます。
- トランスフォームステージ
- フィルタステージ
- アグレゲータステージ
- 重複除去ステージ
- 結合ステージ
- ルックアップステージli
- Copyステージ
- Sortステージ
- Container
DataStageのコンポーネントとアーキテクチャ
DataStageには4つの主要なコンポーネントがあります。
- 管理者。 管理タスクに使用されます。 これには、DataStageユーザーの設定、パージ基準の設定、&移動プロジェクトの作成などが含まれます。
- マネージャー。 DataStageのリポジトリのメインインターフェースです。 再利用可能なメタデータの保存と管理に使用されます。 DataStageマネージャを介して、Repositoryの内容を表示および編集することができます。
- Designer。 DataStageのアプリケーションやジョブの作成に使用されるデザインインターフェースです。 データソース、必要な変換、データの保存先を指定します。 ジョブは実行ファイルを作成するためにコンパイルされ、ディレクターによってスケジュールされ、サーバーによって実行されます
- ディレクター。 DataStageのサーバージョブとパラレルジョブの検証、スケジュール、実行、監視に使用されます。
DataStageのアーキテクチャ図
上の画像は、IBM Infosphere DataStageがIBM Information Serverプラットフォームの他の要素とどのように相互作用するかを説明しています。
Datastageツールの前提条件
DataStageには、以下のセットアップが必要です。
- Infosphere
- DataStage Server 9.1.2以上
- Microsoft Visual Studio .NET 2010 Express Edition C++
- Oracleデータベースに接続する場合はOracleクライアント(インスタントクライアントではなくフルクライアント)
- DB2データベースに接続する場合はDB2クライアント
ダウンロードとインストール InfoSphere Information Server
DataStageにアクセスするには、IBM InfoSphere Serverの最新バージョンをダウンロードしてインストールします。 このサーバーは、AIX、Linux、Windowsの各OSをサポートしています。
古いバージョンのInfosphereから新しいバージョンにデータを移行するには、資産交換ツールを使用します。
インストールファイル
Infosphere Datastageをインストールして構成するには、以下のファイルが必要です。
Windowsの場合、
- EtlDeploymentPackage-windows-oracle.pkg
- EtlDeploymentPackage-windows-db2.pkg
Linuxの場合、
- EtlDeploymentPackage-linux-db2.pkg
- EtlDeploymentPackage-linux-oracle.pkg
CDC Transaction stage JobでのChangeデータの処理フロー。
- データベースの「InfoSphere CDC」サービスは、データベースの変更を監視し、キャプチャします。 データベースを監視し、ソースデータベースからの変更をキャプチャする
- レプリケーション定義に従い、「InfoSphere CDC」は変更データを「InfoSphere CDC for InfoSphere DataStage」に転送する。”
- 「InfoSphere CDC for InfoSphere DataStage」サーバーは、TCP/IPセッションを通じて「CDC Transaction stage」にデータを送信します。 InfoSphere CDC for InfoSphere DataStage」サーバーは、キャプチャしたログのトランザクション境界をマークするために、COMMITメッセージも(ブックマーク情報とともに)送信します。
- 「InfoSphere CDC for InfoSphere DataStage」サーバーが送信した各COMMITメッセージについて、「CDC Transaction stage」はエンドオブウェーブ(EOW)マーカーを作成します。
- 「ターゲット・データベース・コネクター・ステージ」がすべての入力リンク上のエンドオブウェーブ・マーカーを受信すると、ブックマーク情報をブックマーク・テーブルに書き込み、ターゲット・データベースにトランザクションをコミットします。
- 「InfoSphere CDC for InfoSphere DataStage」サーバーは、「ターゲット・データベース」上のブックマーク・テーブルからブックマーク情報を要求します。”
- 「InfoSphere CDC for InfoSphere DataStage」サーバーはブックマーク情報を受信します。
この情報は以下の目的で使用されます。
- レプリケーション開始時に変更が読み込まれるトランザクションログの開始ポイントを決定する。
- 既存のトランザクション ログをクリーンアップできるかどうかを判断する
SQL レプリケーションを設定する
Datastage を始める前に、データベースを設定する必要があります。
- レプリケーションのソースとして機能するものと、ターゲットとして機能するものです。
また、2つのテーブル(ProductとInventory)を作成し、サンプルデータを入力します。
次に、コントロール テーブル、サブスクリプション セット、登録、サブスクリプション セット メンバーを作成して、SQL レプリケーションを設定します。
ここでは、データベースとして小売店の商品を例にとり、Inventory と Product の 2 つのテーブルを作成します。 これらのテーブルは、これらのセットを通じてソースからターゲットにデータをロードします。 (コントロールテーブル、サブスクリプションセット、登録、サブスクリプションセットメンバー)
ステップ1) SALESと呼ばれるソースデータベースを作成します。
Step 2) 以下のコマンドを実行してSALESデータベースを作成します。
db2 create database SALES
Step 3) SALESデータベースのアーカイブ・ログをオンにします。 また、以下のコマンドでデータベースをバックアップします
db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN
db2 backup db SALES
Step 4) 同じコマンドプロンプトで、ダウンロードした圧縮ファイルから解凍したsqlrepl-datastage-tutorialディレクトリ内のsetupDBサブディレクトリに移動します。
Step 5)以下のコマンドを実行して、Inventoryテーブルを作成し、そのテーブルにデータをインポートします。
db2 import from inventory.ixf of ixf create into inventory
Step 6) ターゲットテーブルを作成します。
これでソースとターゲットの両方のデータベースを作成したので、次のステップではレプリケーションの方法を見ていきます。
Creating the SQL Replication objects
以下の画像は、ソースからターゲットのデータベースに変更データが配信される流れを示しています。 サブスクリプション セット メンバーと呼ばれるテーブル間でソースとターゲットのマッピングを作成し、メンバーをサブスクリプションにグループ化します。
InfoSphere CDC (Change Data Capture)内のレプリケーションの単位は、サブスクリプションと呼ばれています。
- ソースで行われた変更は、「キャプチャー制御テーブル」に取り込まれ、CDテーブルに送られた後、ターゲットテーブルに送られます。 適用プログラムは、変更が必要な行の詳細を把握しています。
- サブスクリプションには、ソース データ ストアのデータをターゲット データ ストアに適用する方法を指定するマッピング詳細が含まれます。
- サブスクリプションが実行されると、InfoSphere CDC はソース・データベース上の変更をキャプチャします。
- InfoSphere CDCは、ブックマーク情報を使用して、InfoSphere DataStageジョブの進捗を監視します。
- 障害が発生した場合、ブックマーク情報はリスタートポイントとして使用されます。 この例では、ASN.IBMSNAP_FEEDETLテーブルにDataStage関連のシンクポイント情報が格納されており、DataStageの進捗状況の把握に使用されます。