DataStage Handleiding: Beginner’s Training

Datastage is een ETL tool die data extraheert, transformeert en data laadt van bron naar het doel. De gegevensbronnen kunnen sequentiële bestanden, geïndexeerde bestanden, relationele databases, externe gegevensbronnen, archieven, bedrijfsapplicaties, enz. zijn. DataStage vergemakkelijkt de bedrijfsanalyse door het verstrekken van kwaliteitsgegevens om te helpen bij het verkrijgen van business intelligence.

Als u diepgaande kennis wilt opdoen over DataStage, ga dan via deze link DataStage Online Training

Datastage wordt gebruikt in een grote organisatie als een interface tussen verschillende systemen. Het zorgt voor extractie, vertaling en het laden van gegevens van bron naar de doelbestemming. Het werd voor het eerst gelanceerd door VMark in het midden van de jaren ’90. Met de overname van DataStage door IBM in 2005, werd het omgedoopt tot IBM WebSphere DataStage en later tot IBM InfoSphere.

Verschillende versies van Datastage beschikbaar in de markt tot nu toe waren Enterprise Edition (PX), Server Edition, MVS Edition, DataStage voor PeopleSoft en ga zo maar door. De nieuwste editie is IBM InfoSphere DataStage

IBM Information server omvat de volgende producten,

  • IBM InfoSphere DataStage
  • IBM InfoSphere QualityStage
  • IBM InfoSphere Information Services Director
  • IBM InfoSphere Information Analyzer
  • IBM Information Server FastTrack
  • IBM InfoSphere Business Glossary

DataStage Overview

Datastage heeft de volgende Capabilities.

  • Het kan gegevens integreren uit de meest uiteenlopende bedrijfs- en externe gegevensbronnen
  • Het implementeert regels voor gegevensvalidatie
  • Het is nuttig bij het verwerken en transformeren van grote hoeveelheden gegevens
  • Het maakt gebruik van schaalbare parallelle verwerking aanpak
  • Het kan complexe transformaties aan en beheert meerdere integratieprocessen
  • Maak gebruik van directe connectiviteit met bedrijfsapplicaties als bron of doel
  • Maak gebruik van metadata voor analyse en onderhoud
  • Werkt in batch, real time, of als een Web service

In de volgende secties beschrijven we kort de volgende aspecten van IBM InfoSphere DataStage:

  • Data transformatie
  • Jobs
  • Parallelle verwerking

InfoSphere DataStage en QualityStage kunnen toegang krijgen tot gegevens in bedrijfsapplicaties en gegevensbronnen zoals:

  • Relationele databases
  • Mainframe databases
  • Business en analytische applicaties
  • Enterprise resource planning (ERP) of customer relationship management (CRM) databases
  • Online analytical processing (OLAP) of performance management databases

Processing Stage Types

IBM infosphere job bestaat uit afzonderlijke stappen die aan elkaar zijn gekoppeld. Het beschrijft de stroom van gegevens van een gegevensbron naar een gegevensdoel. Gewoonlijk heeft een stap minimaal één gegevensinvoer en/of één gegevensuitvoer. Sommige fasen kunnen echter meer dan één gegevensinvoer accepteren en naar meer dan één fase uitvoeren.

In Job design kunt u verschillende stadia gebruiken:

  • Transform stage
  • Filter stage
  • Aggregator stage
  • Remove duplicates stage
  • Join stage
  • Lookup stage
  • Copy stage
  • Sort stage
  • Containers

DataStage Componenten en Architectuur

DataStage heeft vier hoofdcomponenten namelijk,

  1. Beheerder: Deze wordt gebruikt voor beheertaken. Dit omvat het instellen van DataStage gebruikers, het instellen van zuiveringscriteria en het aanmaken van & verhuisprojecten.
  2. Manager: Het is de belangrijkste interface van de Repository van DataStage. Het wordt gebruikt voor de opslag en het beheer van herbruikbare Metadata. Via DataStage manager, kan men de inhoud van de Repository bekijken en bewerken.
  3. Designer: Een ontwerp-interface die wordt gebruikt om DataStage applicaties OF jobs te creëren. Het specificeert de gegevensbron, de vereiste transformatie, en de bestemming van gegevens. Jobs worden gecompileerd om een executable te maken die wordt gepland door de Director en uitgevoerd door de Server
  4. Director: Deze wordt gebruikt om DataStage-serverjobs en parallelle jobs te valideren, te plannen, uit te voeren en te bewaken.

Datastage-architectuurdiagram

In de bovenstaande afbeelding wordt uitgelegd hoe IBM Infosphere DataStage samenwerkt met andere elementen van het IBM Information Server-platform. DataStage is onderverdeeld in twee secties, Shared Components, en Runtime Architecture.

Voorvereiste voor Datastage tool

Voor DataStage hebt u de volgende setup nodig.

  • Infosphere
  • DataStage Server 9.1.2 of hoger
  • Microsoft Visual Studio .NET 2010 Express Edition C++
  • Oracle client (volledige client, geen instant client) als verbinding wordt gemaakt met een Oracle-database
  • DB2 client als verbinding wordt gemaakt met een DB2-database

Download en installatie InfoSphere Information Server

Om toegang te krijgen tot DataStage moet u de nieuwste versie van IBM InfoSphere Server downloaden en installeren. De server ondersteunt AIX, Linux, en Windows besturingssysteem. U kunt kiezen afhankelijk van uw behoeften.

Om uw gegevens te migreren van een oudere versie van infosphere naar een nieuwe versie gebruikt u de asset interchange tool.

Installatie bestanden

Voor het installeren en configureren van Infosphere Datastage, moet u de volgende bestanden in uw setup hebben.

Voor Windows,

  • EtlDeploymentPackage-windows-oracle.pkg
  • EtlDeploymentPackage-windows-db2.pkg

Voor Linux,

  • EtlDeploymentPackage-linux-db2.pkg
  • EtlDeploymentPackage-linux-oracle.pkg

Verwerking van Wijzigingsgegevens in een CDC Transactie fase Job.

  1. De ‘InfoSphere CDC’-service voor de database controleert en vangt de wijziging van een brondatabase op
  2. Op grond van de replicatiedefinitie draagt “InfoSphere CDC” de wijzigingsgegevens over aan “InfoSphere CDC for InfoSphere DataStage.”
  3. De “InfoSphere CDC for InfoSphere DataStage”-server zendt gegevens naar de “CDC Transaction stage” via een TCP/IP-sessie. De “InfoSphere CDC for InfoSphere DataStage”-server stuurt ook een COMMIT-bericht (samen met bladwijzerinformatie) om de transactiegrens in het vastgelegde logboek te markeren.
  4. Voor elk COMMIT-bericht dat door de “InfoSphere CDC for InfoSphere DataStage”-server wordt verzonden, creëert de “CDC Transaction stage” end-of-wave (EOW)-markers. Deze markers worden op alle uitvoerlinks naar de “target database connector stage” verzonden.
  5. Wanneer de “target database connector stage” een end-of-wave marker op alle invoerlinks ontvangt, schrijft het bladwijzerinformatie naar een bladwijzertabel en commit vervolgens de transactie naar de doeldatabase.
  6. De “InfoSphere CDC for InfoSphere DataStage” server vraagt bladwijzerinformatie op uit een bladwijzertabel op de “doeldatabase.”
  7. De “InfoSphere CDC for InfoSphere DataStage”-server ontvangt de bladwijzerinformatie.

Deze informatie wordt gebruikt om,

  • Het startpunt in het transactielogboek te bepalen waar wijzigingen worden gelezen wanneer de replicatie begint.
  • Om te bepalen of het bestaande transactielogboek kan worden opgeschoond

Set Up SQL Replication

Voordat u met Datastage begint, moet u een database opzetten. U maakt twee DB2-databases aan.

  • Een om als replicatiebron te dienen en
  • Een als doel.

U maakt ook twee tabellen aan (Product en Inventaris) en vult deze met voorbeeldgegevens. Daarna kunt u de integratie tussen SQL Replication en Datastage testen.

Vooruitlopend zult u SQL replicatie opzetten door het aanmaken van controletabellen, subscription sets, registraties en subscription set members. We zullen hier meer over leren in de volgende sectie.

Hier nemen we een voorbeeld van Retail sales item als onze database en maken twee tabellen Inventory en Product. Deze tabellen zullen gegevens laden van bron naar doel via deze sets. (controletabellen, abonnementsets, registraties en leden van abonnementsets.)

Stap 1) Maak een brondatabase die SALES wordt genoemd. Maak onder deze database twee tabellen product en Inventory.

Step 2) Voer het volgende commando uit om de SALES database aan te maken.

db2 create database SALES

Step 3) Zet archiveringslogging aan voor de SALES database. Maak ook een back-up van de database met de volgende opdrachten

db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN
db2 backup db SALES

Stap 4) Ga in dezelfde opdrachtprompt naar de submap setupDB in de map sqlrepl-datastage-tutorial die u hebt uitgepakt uit het gedownloade gecomprimeerde bestand.

Stap 5) Gebruik het volgende commando om een voorraadtabel te maken en importeer gegevens in de tabel door het volgende commando uit te voeren.

db2 import from inventory.ixf of ixf create into inventory

Step 6) Maak een doeltabel. Geef de doel-database de naam STAGEDB.

Omdat u nu beide databases bron en doel hebt gemaakt, zullen we in de volgende stap zien hoe we kunnen repliceren.

Creëren van de SQL Replicatie objecten

De afbeelding hieronder laat zien hoe de stroom van wijzigingsgegevens wordt geleverd van bron- naar doel-database. U maakt een bron-naar-doel mapping tussen tabellen bekend als subscription set members en groepeert de members in een subscription.

De eenheid voor replicatie binnen InfoSphere CDC (Change Data Capture) wordt een abonnement genoemd.

  • De wijzigingen in de bron worden vastgelegd in de “Capture control table” die naar de CD-tabel wordt gestuurd en vervolgens naar de doeltabel. Terwijl het toepassingsprogramma de details heeft over de rij van waaruit wijzigingen moeten worden aangebracht. Het zal ook CD tabel in subscription set.
  • Een abonnement bevat mapping details die specificeren hoe gegevens in een bron data store worden toegepast op een doel data store. Opmerking: CDC wordt nu Infosphere data replication genoemd.
  • Wanneer een abonnement wordt uitgevoerd, legt InfoSphere CDC wijzigingen in de brondatabase vast. InfoSphere CDC levert de wijzigingsgegevens aan het doel en slaat de informatie over het synchronisatiepunt op in een bladwijzertabel in de doeldatabase.
  • InfoSphere CDC gebruikt de bladwijzerinformatie om de voortgang van de InfoSphere DataStage job te controleren.
  • In het geval van een storing wordt de bladwijzerinformatie gebruikt als herstartpunt. In ons voorbeeld slaat de ASN.IBMSNAP_FEEDETL-tabel DataStage-gerelateerde synchpoint-informatie op die wordt gebruikt om de voortgang van DataStage te volgen.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *