DataStage Tutorial: Einsteigertraining

Datastage ist ein ETL-Tool, das Daten extrahiert, transformiert und von der Quelle ins Ziel lädt. Zu den Datenquellen können sequenzielle Dateien, indizierte Dateien, relationale Datenbanken, externe Datenquellen, Archive, Unternehmensanwendungen usw. gehören. DataStage erleichtert die Geschäftsanalyse durch die Bereitstellung von Qualitätsdaten, die bei der Gewinnung von Business Intelligence helfen.

Wenn Sie fundiertes Wissen über DataStage erlangen möchten, gehen Sie bitte durch diesen Link DataStage Online Training

Datastage wird in einer großen Organisation als Schnittstelle zwischen verschiedenen Systemen eingesetzt. Es kümmert sich um die Extraktion, Übersetzung und das Laden von Daten von der Quelle zum Ziel. Es wurde erstmals von VMark Mitte der 90er Jahre eingeführt. Mit der Übernahme von DataStage durch IBM im Jahr 2005 wurde es in IBM WebSphere DataStage und später in IBM InfoSphere umbenannt.

Die verschiedenen Versionen von Datastage, die bisher auf dem Markt erhältlich waren, waren Enterprise Edition (PX), Server Edition, MVS Edition, DataStage für PeopleSoft und so weiter. Die neueste Edition ist IBM InfoSphere DataStage

Der IBM Information Server umfasst folgende Produkte,

IBM InfoSphere DataStage
IBM InfoSphere QualityStage
IBM InfoSphere Information Services Director
IBM InfoSphere Information Analyzer
IBM Information Server FastTrack
IBM InfoSphere Business Glossary

DataStage Übersicht

Datastage hat folgende Fähigkeiten.

Es kann Daten aus den unterschiedlichsten Unternehmens- und externen Datenquellen integrieren
Es implementiert Datenvalidierungsregeln
Es ist nützlich bei der Verarbeitung und Transformation großer Datenmengen
Es verwendet einen skalierbaren parallelen Verarbeitungs Ansatz
Es kann komplexe Transformationen verarbeiten und mehrere Integrationsprozesse verwalten
Eine direkte Verbindung zu Unternehmensanwendungen als Quellen oder Ziele nutzen
Metadaten für Analyse und Wartung nutzen
Betrieb in Batch, Echtzeit oder als Web-Service

In den folgenden Abschnitten werden die folgenden Aspekte von IBM InfoSphere DataStage kurz beschrieben:

Datentransformation
Jobs
Parallelverarbeitung

InfoSphere DataStage und QualityStage können auf Daten in Unternehmensanwendungen und Datenquellen zugreifen, wie zum Beispiel:

Relationale Datenbanken
Mainframe-Datenbanken
Geschäfts- und Analyseanwendungen
Enterprise Resource Planning (ERP) oder Customer Relationship Management (CRM) Datenbanken
Online Analytical Processing (OLAP) oder Performance Management Datenbanken

Verarbeitungsstufentypen

IBM infosphere job besteht aus einzelnen Stufen, die miteinander verbunden sind. Er beschreibt den Datenfluß von einer Datenquelle zu einem Datenziel. Normalerweise hat eine Stage mindestens eine Dateneingabe und/oder eine Datenausgabe. Einige Stages können jedoch mehr als eine Dateneingabe akzeptieren und an mehr als eine Stage ausgeben.

Im Job-Design können Sie verschiedene Stages verwenden:

Transform stage
Filter stage
Aggregator stage
Remove duplicates stage
Join stage
Lookup stage
Copy stage
Sort stage
Containers

DataStage Komponenten und Architektur

DataStage hat vier Hauptkomponenten und zwar,

Administrator: Sie wird für Administrationsaufgaben verwendet. Dazu gehören das Einrichten von DataStage-Benutzern, das Einrichten von Bereinigungskriterien und das Erstellen von & Verschiebeprojekten.
Manager: Er ist die Hauptschnittstelle des Repositorys von DataStage. Er dient der Speicherung und Verwaltung von wiederverwendbaren Metadaten. Über den DataStage-Manager kann man den Inhalt des Repositorys einsehen und bearbeiten.
Designer: Eine Design-Oberfläche, die zum Erstellen von DataStage-Anwendungen oder -Jobs verwendet wird. Er gibt die Datenquelle, die erforderliche Transformation und das Ziel der Daten an. Jobs werden kompiliert, um eine ausführbare Datei zu erstellen, die vom Director geplant und vom Server ausgeführt wird
Director: Er wird verwendet, um DataStage-Server-Jobs und parallele Jobs zu validieren, zu planen, auszuführen und zu überwachen.

Datastage-Architektur-Diagramm

Das obige Bild erklärt, wie IBM Infosphere DataStage mit anderen Elementen der IBM Information Server-Plattform interagiert. DataStage ist in zwei Abschnitte unterteilt, Shared Components und Runtime Architecture.

Voraussetzung für das Datastage-Tool

Für DataStage benötigen Sie die folgende Einrichtung.

Infosphere
DataStage Server 9.1.2 oder höher
Microsoft Visual Studio .NET 2010 Express Edition C++
Oracle-Client (vollständiger Client, kein Instant-Client), wenn Sie eine Verbindung zu einer Oracle-Datenbank herstellen
DB2-Client, wenn Sie eine Verbindung zu einer DB2-Datenbank herstellen

Download und Installation InfoSphere Information Server

Um auf DataStage zuzugreifen, laden Sie die neueste Version von IBM InfoSphere Server herunter und installieren Sie sie. Der Server unterstützt die Betriebssysteme AIX, Linux und Windows. Sie können je nach Anforderung wählen.

Um Ihre Daten von einer älteren Version von Infosphere auf die neue Version zu migrieren, verwenden Sie das Asset Interchange Tool.

Installationsdateien

Für die Installation und Konfiguration von Infosphere Datastage müssen Sie folgende Dateien in Ihrem Setup haben.

Für Windows,

EtlDeploymentPackage-windows-oracle.pkg
EtlDeploymentPackage-windows-db2.pkg

Für Linux,

EtlDeploymentPackage-linux-db2.pkg
EtlDeploymentPackage-linux-oracle.pkg

Verarbeitungsablauf von Änderungsdaten in einem CDC-Transaktionsstufenjob.

Der Dienst ‚InfoSphere CDC‘ für die die Datenbank überwacht und erfasst die Änderung aus einer Quelldatenbank
Nach der Replikationsdefinition übergibt „InfoSphere CDC“ die Änderungsdaten an „InfoSphere CDC für InfoSphere DataStage.“InfoSphere CDC für InfoSphere DataStage“
Der „InfoSphere CDC für InfoSphere DataStage“-Server sendet die Daten über eine TCP/IP-Sitzung an die „CDC Transaction stage“. Der „InfoSphere CDC für InfoSphere DataStage“-Server sendet außerdem eine COMMIT-Nachricht (zusammen mit Lesezeicheninformationen), um die Transaktionsgrenze im erfassten Protokoll zu markieren.
Für jede COMMIT-Nachricht, die vom „InfoSphere CDC für InfoSphere DataStage“-Server gesendet wird, erstellt die „CDC Transaction stage“ EOW-Marker (End-of-Wave). Diese Markierungen werden auf allen Ausgangsverbindungen an die „Zieldatenbank-Connector-Stufe“ gesendet.
Wenn die „Zieldatenbank-Connector-Stufe“ eine Wellenende-Markierung auf allen Eingangsverbindungen empfängt, schreibt sie Lesezeicheninformationen in eine Lesezeichentabelle und überträgt dann die Transaktion an die Zieldatenbank.
Der „InfoSphere CDC für InfoSphere DataStage“-Server fordert Lesezeicheninformationen aus einer Lesezeichentabelle auf der „Zieldatenbank“ an.“
Der „InfoSphere CDC für InfoSphere DataStage“-Server empfängt die Lesezeicheninformationen.

Diese Informationen werden verwendet, um,

den Startpunkt im Transaktionsprotokoll zu bestimmen, an dem Änderungen gelesen werden, wenn die Replikation beginnt.
Bestimmen, ob das vorhandene Transaktionsprotokoll bereinigt werden kann

Einrichten der SQL-Replikation

Bevor Sie mit Datastage beginnen, müssen Sie eine Datenbank einrichten. Sie erstellen zwei DB2-Datenbanken.

Eine dient als Replikationsquelle und
eine als Ziel.

Sie erstellen auch zwei Tabellen (Produkt und Inventar) und füllen sie mit Beispieldaten auf. Dann können Sie die Integration zwischen SQL Replication und Datastage testen.

Im weiteren Verlauf werden Sie die SQL-Replikation einrichten, indem Sie Steuertabellen, Abo-Sets, Registrierungen und Abo-Set-Mitglieder erstellen. Wir werden im nächsten Abschnitt mehr darüber erfahren.

Hier nehmen wir als Beispiel einen Einzelhandelsverkaufsartikel als Datenbank und erstellen zwei Tabellen Inventar und Produkt. Diese Tabellen werden Daten von der Quelle zum Ziel über diese Sets laden. (Steuertabellen, Abo-Sets, Registrierungen und Mitglieder des Abo-Sets.)

Schritt 1) Erstellen Sie eine Quelldatenbank mit dem Namen SALES. Erstellen Sie unter dieser Datenbank zwei Tabellen „Produkt“ und „Inventar“.

Schritt 2) Führen Sie den folgenden Befehl aus, um die SALES-Datenbank zu erstellen.

db2 create database SALES

Schritt 3) Aktivieren Sie die Archivierungsprotokollierung für die SALES-Datenbank. Sichern Sie außerdem die Datenbank mit den folgenden Befehlen

db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN
db2 backup db SALES

Schritt 4) Wechseln Sie in derselben Eingabeaufforderung in das Unterverzeichnis setupDB im Verzeichnis sqlrepl-datastage-tutorial, das Sie aus der heruntergeladenen komprimierten Datei entpackt haben.

Schritt 5) Erstellen Sie mit folgendem Befehl die Tabelle „Inventar“ und importieren Sie die Daten in die Tabelle, indem Sie den folgenden Befehl ausführen.

db2 import from inventory.ixf of ixf create into inventory

Schritt 6) Erstellen Sie eine Zieltabelle. Benennen Sie die Zieldatenbank als STAGEDB.

Da Sie nun beide Datenbanken, Quelle und Ziel, erstellt haben, sehen wir uns im nächsten Schritt an, wie die Replikation erfolgt.

Erstellen der SQL-Replikationsobjekte

Das folgende Bild zeigt, wie der Fluss der Änderungsdaten von der Quelle zur Zieldatenbank geliefert wird. Sie erstellen eine Quell-zu-Ziel-Zuordnung zwischen Tabellen, die als Abonnementsatzmitglieder bezeichnet werden, und gruppieren die Mitglieder in einem Abonnement.

Die Einheit der Replikation innerhalb von InfoSphere CDC (Change Data Capture) wird als Abonnement bezeichnet.

Die in der Quelle durchgeführten Änderungen werden in der „Capture-Steuertabelle“ erfasst, die an die CD-Tabelle und dann an die Zieltabelle gesendet wird. Während das Anwendungsprogramm die Details über die Zeile hat, in der die Änderungen durchgeführt werden müssen. Es fügt auch die CD-Tabelle in das Abonnement-Set ein.
Ein Abonnement enthält Zuordnungsdetails, die angeben, wie Daten in einem Quelldatenspeicher auf einen Zieldatenspeicher angewendet werden. Hinweis: CDC wird jetzt als Infosphere-Datenreplikation bezeichnet.
Wenn eine Subskription ausgeführt wird, erfasst InfoSphere CDC die Änderungen in der Quelldatenbank. InfoSphere CDC liefert die Änderungsdaten an das Ziel und speichert die Sync-Point-Informationen in einer Bookmark-Tabelle in der Zieldatenbank.
InfoSphere CDC verwendet die Bookmark-Informationen, um den Fortschritt des InfoSphere DataStage-Jobs zu überwachen.
Im Falle eines Fehlers werden die Bookmark-Informationen als Wiederanlaufpunkt verwendet. In unserem Beispiel speichert die Tabelle ASN.IBMSNAP_FEEDETL DataStage-bezogene Synchpoint-Informationen, die zur Verfolgung des DataStage-Fortschritts verwendet werden.

Heading