Tutoriel DataStage : Formation pour les débutants

Datastage est un outil ETL qui extrait les données, les transforme et les charge de la source vers la cible. Les sources de données peuvent inclure des fichiers séquentiels, des fichiers indexés, des bases de données relationnelles, des sources de données externes, des archives, des applications d’entreprise, etc. DataStage facilite l’analyse commerciale en fournissant des données de qualité pour aider à obtenir des renseignements commerciaux.

Si vous voulez acquérir des connaissances approfondies sur DataStage, veuillez passer par ce lien Formation en ligne DataStage

Datastage est utilisé dans une grande organisation comme interface entre différents systèmes. Il prend en charge l’extraction, la traduction et le chargement des données de la source vers la destination cible. Il a été lancé pour la première fois par VMark au milieu des années 90. Avec l’acquisition de DataStage par IBM en 2005, il a été rebaptisé IBM WebSphere DataStage, puis IBM InfoSphere.

Diverses versions de Datastage disponibles sur le marché jusqu’à présent étaient Enterprise Edition (PX), Server Edition, MVS Edition, DataStage for PeopleSoft, etc. La dernière édition est IBM InfoSphere DataStage

Le serveur d’information IBM comprend les produits suivants ,

IBM InfoSphere DataStage
IBM InfoSphere QualityStage
IBM InfoSphere Information Services Director
IBM InfoSphere Information Analyzer
IBM InfoSphere Information. Analyzer
IBM Information Server FastTrack
IBM InfoSphere Business Glossary

Présentation de DataStage

Datastage a les capacités suivantes .

Il peut intégrer des données provenant du plus large éventail de sources de données d’entreprise et externes
Implémente des règles de validation des données
Il est utile pour traiter et transformer de grandes quantités de données
Il utilise un traitement parallèle évolutif. approche
Il peut traiter des transformations complexes et gérer de multiples processus d’intégration
Il exploite la connectivité directe aux applications d’entreprise en tant que sources ou cibles
Il exploite les métadonnées pour l’analyse et la maintenance
Il fonctionne en batch, temps réel, ou en tant que service Web

Dans les sections suivantes, nous décrivons brièvement les aspects suivants d’IBM InfoSphere DataStage :

Transformation de données
Jobs
Traitement parallèle

InfoSphere DataStage et QualityStage peuvent accéder aux données des applications d’entreprise et des sources de données telles que :

Bases de données relationnelles
Bases de données mainframe
Applications commerciales et analytiques
Planification des ressources de l’entreprise (ERP) ou gestion de la relation client (CRM). bases de données
Traitement analytique en ligne (OLAP) ou bases de données de gestion des performances

Types d’étapes de traitement

La tâche Infosphère d’IBM est constituée d’étapes individuelles liées entre elles. Il décrit le flux de données d’une source de données vers une cible de données. Habituellement, une étape comporte au minimum une entrée de données et/ou une sortie de données. Cependant, certaines étapes peuvent accepter plus d’une entrée de données et une sortie vers plus d’une étape.

Dans Job design, les différentes étapes que vous pouvez utiliser sont :

Étape de transformation
Étape de filtrage
Étape d’agrégation
Étape de suppression des doublons
Étape de jonction
Étape de consultation

Étape de copie
Étape de tri
Conteneurs

Composants et architecture de DataStage

DataStage possède quatre composants principaux à savoir ,

L’administrateur : Il est utilisé pour les tâches d’administration. Cela comprend la configuration des utilisateurs de DataStage, la configuration des critères de purge et la création de & projets de déménagement.
Gestionnaire : C’est l’interface principale du référentiel de DataStage. Il est utilisé pour le stockage et la gestion des métadonnées réutilisables. A travers le gestionnaire de DataStage, on peut voir et modifier le contenu du Référentiel.
Designer : Une interface de conception utilisée pour créer des applications DataStage OU des travaux. Il spécifie la source de données, la transformation requise et la destination des données. Les jobs sont compilés pour créer un exécutable qui sont planifiés par le Director et exécutés par le Server
Directeur : Il est utilisé pour valider, planifier, exécuter et surveiller les jobs serveur DataStage et les jobs parallèles.