DataStage Handleiding: Beginner's Training

Datastage is een ETL tool die data extraheert, transformeert en data laadt van bron naar het doel. De gegevensbronnen kunnen sequentiële bestanden, geïndexeerde bestanden, relationele databases, externe gegevensbronnen, archieven, bedrijfsapplicaties, enz. zijn. DataStage vergemakkelijkt de bedrijfsanalyse door het verstrekken van kwaliteitsgegevens om te helpen bij het verkrijgen van business intelligence.

Als u diepgaande kennis wilt opdoen over DataStage, ga dan via deze link DataStage Online Training

Datastage wordt gebruikt in een grote organisatie als een interface tussen verschillende systemen. Het zorgt voor extractie, vertaling en het laden van gegevens van bron naar de doelbestemming. Het werd voor het eerst gelanceerd door VMark in het midden van de jaren ’90. Met de overname van DataStage door IBM in 2005, werd het omgedoopt tot IBM WebSphere DataStage en later tot IBM InfoSphere.

Verschillende versies van Datastage beschikbaar in de markt tot nu toe waren Enterprise Edition (PX), Server Edition, MVS Edition, DataStage voor PeopleSoft en ga zo maar door. De nieuwste editie is IBM InfoSphere DataStage

IBM Information server omvat de volgende producten,

IBM InfoSphere DataStage
IBM InfoSphere QualityStage
IBM InfoSphere Information Services Director
IBM InfoSphere Information Analyzer
IBM Information Server FastTrack
IBM InfoSphere Business Glossary

DataStage Overview

Datastage heeft de volgende Capabilities.

Het kan gegevens integreren uit de meest uiteenlopende bedrijfs- en externe gegevensbronnen
Het implementeert regels voor gegevensvalidatie
Het is nuttig bij het verwerken en transformeren van grote hoeveelheden gegevens
Het maakt gebruik van schaalbare parallelle verwerking aanpak
Het kan complexe transformaties aan en beheert meerdere integratieprocessen
Maak gebruik van directe connectiviteit met bedrijfsapplicaties als bron of doel
Maak gebruik van metadata voor analyse en onderhoud
Werkt in batch, real time, of als een Web service

In de volgende secties beschrijven we kort de volgende aspecten van IBM InfoSphere DataStage:

Data transformatie
Jobs
Parallelle verwerking

InfoSphere DataStage en QualityStage kunnen toegang krijgen tot gegevens in bedrijfsapplicaties en gegevensbronnen zoals:

Relationele databases
Mainframe databases
Business en analytische applicaties
Enterprise resource planning (ERP) of customer relationship management (CRM) databases
Online analytical processing (OLAP) of performance management databases

Processing Stage Types

IBM infosphere job bestaat uit afzonderlijke stappen die aan elkaar zijn gekoppeld. Het beschrijft de stroom van gegevens van een gegevensbron naar een gegevensdoel. Gewoonlijk heeft een stap minimaal één gegevensinvoer en/of één gegevensuitvoer. Sommige fasen kunnen echter meer dan één gegevensinvoer accepteren en naar meer dan één fase uitvoeren.

In Job design kunt u verschillende stadia gebruiken:

Transform stage
Filter stage
Aggregator stage
Remove duplicates stage
Join stage
Lookup stage
Copy stage
Sort stage
Containers

DataStage Componenten en Architectuur

DataStage heeft vier hoofdcomponenten namelijk,

Beheerder: Deze wordt gebruikt voor beheertaken. Dit omvat het instellen van DataStage gebruikers, het instellen van zuiveringscriteria en het aanmaken van & verhuisprojecten.
Manager: Het is de belangrijkste interface van de Repository van DataStage. Het wordt gebruikt voor de opslag en het beheer van herbruikbare Metadata. Via DataStage manager, kan men de inhoud van de Repository bekijken en bewerken.
Designer: Een ontwerp-interface die wordt gebruikt om DataStage applicaties OF jobs te creëren. Het specificeert de gegevensbron, de vereiste transformatie, en de bestemming van gegevens. Jobs worden gecompileerd om een executable te maken die wordt gepland door de Director en uitgevoerd door de Server
Director: Deze wordt gebruikt om DataStage-serverjobs en parallelle jobs te valideren, te plannen, uit te voeren en te bewaken.