Tutoriel DataStage : Formation pour les débutants

Datastage est un outil ETL qui extrait les données, les transforme et les charge de la source vers la cible. Les sources de données peuvent inclure des fichiers séquentiels, des fichiers indexés, des bases de données relationnelles, des sources de données externes, des archives, des applications d’entreprise, etc. DataStage facilite l’analyse commerciale en fournissant des données de qualité pour aider à obtenir des renseignements commerciaux.

Si vous voulez acquérir des connaissances approfondies sur DataStage, veuillez passer par ce lien Formation en ligne DataStage

Datastage est utilisé dans une grande organisation comme interface entre différents systèmes. Il prend en charge l’extraction, la traduction et le chargement des données de la source vers la destination cible. Il a été lancé pour la première fois par VMark au milieu des années 90. Avec l’acquisition de DataStage par IBM en 2005, il a été rebaptisé IBM WebSphere DataStage, puis IBM InfoSphere.

Diverses versions de Datastage disponibles sur le marché jusqu’à présent étaient Enterprise Edition (PX), Server Edition, MVS Edition, DataStage for PeopleSoft, etc. La dernière édition est IBM InfoSphere DataStage

Le serveur d’information IBM comprend les produits suivants ,

  • IBM InfoSphere DataStage
  • IBM InfoSphere QualityStage
  • IBM InfoSphere Information Services Director
  • IBM InfoSphere Information Analyzer
  • IBM InfoSphere Information. Analyzer
  • IBM Information Server FastTrack
  • IBM InfoSphere Business Glossary

Présentation de DataStage

Datastage a les capacités suivantes .

  • Il peut intégrer des données provenant du plus large éventail de sources de données d’entreprise et externes
  • Implémente des règles de validation des données
  • Il est utile pour traiter et transformer de grandes quantités de données
  • Il utilise un traitement parallèle évolutif. approche
  • Il peut traiter des transformations complexes et gérer de multiples processus d’intégration
  • Il exploite la connectivité directe aux applications d’entreprise en tant que sources ou cibles
  • Il exploite les métadonnées pour l’analyse et la maintenance
  • Il fonctionne en batch, temps réel, ou en tant que service Web

Dans les sections suivantes, nous décrivons brièvement les aspects suivants d’IBM InfoSphere DataStage :

  • Transformation de données
  • Jobs
  • Traitement parallèle

InfoSphere DataStage et QualityStage peuvent accéder aux données des applications d’entreprise et des sources de données telles que :

  • Bases de données relationnelles
  • Bases de données mainframe
  • Applications commerciales et analytiques
  • Planification des ressources de l’entreprise (ERP) ou gestion de la relation client (CRM). bases de données
  • Traitement analytique en ligne (OLAP) ou bases de données de gestion des performances

Types d’étapes de traitement

La tâche Infosphère d’IBM est constituée d’étapes individuelles liées entre elles. Il décrit le flux de données d’une source de données vers une cible de données. Habituellement, une étape comporte au minimum une entrée de données et/ou une sortie de données. Cependant, certaines étapes peuvent accepter plus d’une entrée de données et une sortie vers plus d’une étape.

Dans Job design, les différentes étapes que vous pouvez utiliser sont :

  • Étape de transformation
  • Étape de filtrage
  • Étape d’agrégation
  • Étape de suppression des doublons
  • Étape de jonction
  • Étape de consultation
  • .

  • Étape de copie
  • Étape de tri
  • Conteneurs

Composants et architecture de DataStage

DataStage possède quatre composants principaux à savoir ,

  1. L’administrateur : Il est utilisé pour les tâches d’administration. Cela comprend la configuration des utilisateurs de DataStage, la configuration des critères de purge et la création de & projets de déménagement.
  2. Gestionnaire : C’est l’interface principale du référentiel de DataStage. Il est utilisé pour le stockage et la gestion des métadonnées réutilisables. A travers le gestionnaire de DataStage, on peut voir et modifier le contenu du Référentiel.
  3. Designer : Une interface de conception utilisée pour créer des applications DataStage OU des travaux. Il spécifie la source de données, la transformation requise et la destination des données. Les jobs sont compilés pour créer un exécutable qui sont planifiés par le Director et exécutés par le Server
  4. Directeur : Il est utilisé pour valider, planifier, exécuter et surveiller les jobs serveur DataStage et les jobs parallèles.

.

Diagramme d’architecture de DataStage

L’image ci-dessus explique comment IBM Infosphere DataStage interagit avec les autres éléments de la plate-forme IBM Information Server. DataStage est divisé en deux sections, les composants partagés et l’architecture d’exécution.

Préalable pour l’outil Datastage

Pour DataStage, vous aurez besoin de la configuration suivante.

  • Infosphere
  • DataStage Server 9.1.2 ou supérieur
  • Microsoft Visual Studio .NET 2010 Express Edition C++
  • Client Oracle (client complet, pas un client instantané) si vous vous connectez à une base de données Oracle
  • ClientDB2 si vous vous connectez à une base de données DB2

Téléchargement et installation InfoSphere Information Server

Pour accéder à DataStage, téléchargez et installez la dernière version d’IBM InfoSphere Server. Le serveur prend en charge le système d’exploitation AIX, Linux et Windows. Vous pouvez choisir en fonction de vos besoins.

Pour migrer vos données d’une ancienne version d’infosphère vers une nouvelle version, utilisez l’outil d’échange d’actifs.

Fichiers d’installation

Pour installer et configurer Infosphere Datastage, vous devez disposer des fichiers suivants dans votre installation.

Pour Windows,

  • EtlDeploymentPackage-windows-oracle.pkg
  • EtlDeploymentPackage-windows-db2.pkg

Pour Linux,

  • EtlDeploymentPackage-linux-db2.pkg
  • EtlDeploymentPackage-linux-oracle.pkg

Flux de traitement des données de changement dans un job en phase de transaction CDC.

  1. Le service ‘InfoSphere CDC’ pour la la base de données surveille et capture le changement à partir d’une base de données source
  2. Selon la définition de réplication,  » InfoSphere CDC  » transfère les données de changement à  » InfoSphere CDC pour InfoSphere DataStage. »
  3. Le serveur « InfoSphere CDC for InfoSphere DataStage » envoie les données au « CDC Transaction stage » via une session TCP/IP. Le serveur « InfoSphere CDC for InfoSphere DataStage » envoie également un message COMMIT (accompagné d’informations sur les signets) pour marquer la limite de la transaction dans le journal capturé.
  4. Pour chaque message COMMIT envoyé par le serveur « InfoSphere CDC for InfoSphere DataStage », le « CDC Transaction stage » crée des marqueurs de fin de vague (EOW). Ces marqueurs sont envoyés sur tous les liens de sortie à l’étage de connecteur de base de données cible.
  5. Lorsque l' » étage de connecteur de base de données cible  » reçoit un marqueur de fin de vague sur tous les liens d’entrée, il écrit des informations de signet dans une table de signet, puis commet la transaction sur la base de données cible.
  6. Le serveur  » InfoSphere CDC for InfoSphere DataStage  » demande des informations de signet à partir d’une table de signet sur la  » base de données cible « . »
  7. Le serveur « InfoSphere CDC for InfoSphere DataStage » reçoit les informations de signet.

Ces informations sont utilisées pour,

  • Déterminer le point de départ dans le journal des transactions où les changements sont lus lorsque la réplication commence.
  • Déterminer si le journal des transactions existant peut être nettoyé

Configurer la réplication SQL

Avant de commencer avec Datastage, vous devez configurer la base de données. Vous allez créer deux bases de données DB2.

  • L’une qui servira de source de réplication et
  • l’autre de cible.

Vous allez également créer deux tables (Produit et Inventaire) et les alimenter avec des données types. Ensuite, vous pourrez tester votre intégration entre la réplication SQL et Datastage.

Pour aller plus loin, vous allez configurer la réplication SQL en créant des tables de contrôle, des ensembles d’abonnement, des enregistrements et des membres d’ensembles d’abonnement. Nous en apprendrons plus en détail dans la section suivante.

Ici, nous allons prendre un exemple d’article de vente au détail comme base de données et créer deux tables Inventaire et Produit. Ces tables chargeront les données de la source à la cible à travers ces ensembles. (Tables de contrôle, ensembles d’abonnement, inscriptions et membres de l’ensemble d’abonnement.)

Etape 1) Créez une base de données source appelée SALES. Sous cette base de données, créez deux tables produit et Inventaire.

Etape 2) Exécutez la commande suivante pour créer la base de données SALES.

db2 create database SALES

Etape 3) Activez la journalisation d’archivage pour la base de données SALES. En outre, sauvegardez la base de données en utilisant les commandes suivantes

db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN
db2 backup db SALES

Étape 4) Dans la même invite de commande, passez au sous-répertoire setupDB dans le répertoire sqlrepl-datastage-tutorial que vous avez extrait du fichier compressé téléchargé.

.

Étape 5) Utilisez la commande suivante pour créer la table Inventaire et importez les données dans la table en exécutant la commande suivante.

db2 import from inventory.ixf of ixf create into inventory

Etape 6) Créez une table cible. Nommez la base de données cible comme STAGEDB.

Puisque maintenant vous avez créé les deux bases de données source et cible, l’étape suivante nous allons voir comment la répliquer.

Création des objets de réplication SQL

L’image ci-dessous montre comment le flux de données de changement est livré de la base de données source à la base de données cible. Vous créez un mappage source-cible entre des tables connues sous le nom de membres de l’ensemble d’abonnement et vous regroupez les membres dans un abonnement.

.

L’unité de réplication dans InfoSphere CDC (Change Data Capture) est appelée abonnement.

  • Les modifications effectuées dans la source sont capturées dans la « table de contrôle de capture » qui est envoyée à la table CD, puis à la table cible. Alors que le programme d’application aura les détails sur la ligne à partir de laquelle les changements doivent être faits. Il joindra également la table CD dans l’ensemble d’abonnement.
  • Un abonnement contient des détails de mappage qui spécifient comment les données d’un magasin de données source sont appliquées à un magasin de données cible. Remarque, le CDC est désormais désigné sous le nom de réplication de données Infosphere.
  • Lorsqu’un abonnement est exécuté, InfoSphere CDC capture les changements sur la base de données source. InfoSphere CDC fournit les données de changement à la cible, et stocke les informations de point de synchronisation dans une table de signet dans la base de données cible.
  • InfoSphere CDC utilise les informations de signet pour surveiller la progression du travail InfoSphere DataStage.
  • En cas d’échec, les informations de signet sont utilisées comme point de redémarrage. Dans notre exemple, la table ASN.IBMSNAP_FEEDETL stocke les informations de synchronisation liées à DataStage qui sont utilisées pour suivre la progression de DataStage.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *