Datastage è uno strumento ETL che estrae i dati, li trasforma e li carica dalla fonte alla destinazione. Le fonti di dati possono includere file sequenziali, file indicizzati, database relazionali, fonti di dati esterne, archivi, applicazioni aziendali, ecc. DataStage facilita l’analisi del business fornendo dati di qualità per aiutare ad ottenere la business intelligence.
Se vuoi ottenere una conoscenza approfondita su DataStage, vai a questo link DataStage Online Training
Datastage è usato in una grande organizzazione come interfaccia tra diversi sistemi. Si occupa dell’estrazione, della traduzione e del caricamento dei dati dall’origine alla destinazione. È stato lanciato per la prima volta da VMark a metà degli anni ’90. Con IBM che ha acquisito DataStage nel 2005, è stato rinominato in IBM WebSphere DataStage e più tardi in IBM InfoSphere.
Varie versioni di Datastage disponibili sul mercato finora erano Enterprise Edition (PX), Server Edition, MVS Edition, DataStage per PeopleSoft e così via. L’ultima edizione è IBM InfoSphere DataStage
IBM Information server include i seguenti prodotti,
- IBM InfoSphere DataStage
- IBM InfoSphere QualityStage
- IBM InfoSphere Information Services Director
- IBM InfoSphere Information Analyzer
- IBM Information Server FastTrack
- IBM InfoSphere Business Glossary
DataStage Overview
Datastage ha le seguenti capacità.
- Può integrare i dati dalla più ampia gamma di fonti di dati aziendali ed esterne
- Integra le regole di validazione dei dati
- E’ utile nell’elaborazione e trasformazione di grandi quantità di dati
- Utilizza un approccio scalabile di elaborazione parallela scalabile
- Può gestire trasformazioni complesse e gestire più processi di integrazione
- Fruisce della connettività diretta alle applicazioni aziendali come fonti o obiettivi
- Fruisce dei metadati per l’analisi e la manutenzione
- Funziona in batch, tempo reale, o come servizio Web
Nelle seguenti sezioni, descriviamo brevemente i seguenti aspetti di IBM InfoSphere DataStage:
- Trasformazione dei dati
- Jobs
- Elaborazione parallela
InfoSphere DataStage e QualityStage possono accedere ai dati in applicazioni aziendali e fonti di dati come:
- Base di dati relazionali
- Base di dati mainframe
- Applicazioni aziendali e analitiche
- Pianificazione delle risorse aziendali (ERP) o gestione delle relazioni con i clienti (CRM) database
- Elaborazione analitica online (OLAP) o database per la gestione delle performance
Tipi di fasi di elaborazione
Il lavoro infosphere di IBM consiste di singole fasi che sono collegate tra loro. Descrive il flusso di dati da una fonte di dati a un obiettivo di dati. Di solito, uno stage ha almeno un input e/o un output di dati. Tuttavia, alcune fasi possono accettare più di un input e output di dati in più di una fase.
Nel progetto Job i vari stage che si possono usare sono:
- Fase di trasformazione
- Filtro
- Fase di aggregazione
- Fase di rimozione dei duplicati
- Fase di unione
- Fase di ricerca
- Fase di copia
- Fase di ordinamento
- Contenitori
Componenti di DataStage e architettura
DataStage ha quattro componenti principali e cioè,
- Amministratore: È usato per i compiti di amministrazione. Questo include l’impostazione degli utenti di DataStage, l’impostazione dei criteri di epurazione e la creazione di & progetti in movimento.
- Manager: È l’interfaccia principale del Repository di DataStage. È utilizzato per la memorizzazione e la gestione dei metadati riutilizzabili. Attraverso DataStage manager, si può visualizzare e modificare il contenuto del Repository.
- Designer: Un’interfaccia di progettazione usata per creare applicazioni DataStage o lavori. Specifica l’origine dei dati, la trasformazione richiesta e la destinazione dei dati. I lavori vengono compilati per creare un eseguibile che viene pianificato dal Direttore ed eseguito dal Server
- Direttore: Viene utilizzato per convalidare, programmare, eseguire e monitorare i lavori del server DataStage e i lavori paralleli.
Datastage Architecture Diagram
L’immagine sopra spiega come IBM Infosphere DataStage interagisce con altri elementi della piattaforma IBM Information Server. DataStage è diviso in due sezioni, Componenti Condivisi e Architettura Runtime.
Pre-requisito per lo strumento Datastage
Per DataStage, avrete bisogno della seguente configurazione.
- Infosphere
- DataStage Server 9.1.2 o superiore
- Microsoft Visual Studio .NET 2010 Express Edition C++
- Oracle client (client completo, non un instant client) se si connette a un database Oracle
- DB2 client se si connette a un database DB2
Scarico e installazione InfoSphere Information Server
Per accedere a DataStage, scaricare e installare l’ultima versione di IBM InfoSphere Server. Il server supporta i sistemi operativi AIX, Linux e Windows. Puoi scegliere in base alle tue esigenze.
Per migrare i tuoi dati da una vecchia versione di infosphere alla nuova versione usa lo strumento di interscambio delle risorse.
File di installazione
Per installare e configurare Infosphere Datastage, devi avere i seguenti file nel tuo setup.
Per Windows,
- EtlDeploymentPackage-windows-oracle.pkg
- EtlDeploymentPackage-windows-db2.pkg
Per Linux,
- EtlDeploymentPackage-linux-db2.pkg
- EtlDeploymentPackage-linux-oracle.pkg
Flusso di dati di modifica in un lavoro di fase di transazione CDC.
- Il servizio ‘InfoSphere CDC’ per il database monitora e cattura il cambiamento da un database sorgente
- Secondo la definizione di replica “InfoSphere CDC” trasferisce i dati del cambiamento a “InfoSphere CDC per InfoSphere DataStage.”
- Il server “InfoSphere CDC for InfoSphere DataStage” invia i dati al “CDC Transaction stage” attraverso una sessione TCP/IP. Il server “InfoSphere CDC for InfoSphere DataStage” invia anche un messaggio COMMIT (insieme alle informazioni dei segnalibri) per marcare il confine della transazione nel log catturato.
- Per ogni messaggio COMMIT inviato dal server “InfoSphere CDC for InfoSphere DataStage”, il “CDC Transaction stage” crea dei marcatori di fine onda (EOW). Questi marcatori sono inviati su tutti i collegamenti in uscita allo stadio connettore del database di destinazione.
- Quando lo “stadio connettore del database di destinazione” riceve un marcatore di fine onda su tutti i collegamenti in entrata, scrive le informazioni del segnalibro in una tabella segnalibro e poi commette la transazione sul database di destinazione.
- Il server “InfoSphere CDC per InfoSphere DataStage” richiede le informazioni del segnalibro da una tabella segnalibro sul “database di destinazione.”
- Il server “InfoSphere CDC per InfoSphere DataStage” riceve le informazioni del segnalibro.
Queste informazioni sono usate per,
- Determinare il punto di partenza nel log delle transazioni dove vengono lette le modifiche quando inizia la replica.
- Determinare se il log delle transazioni esistente può essere pulito
Impostare la replica SQL
Prima di iniziare con Datastage, è necessario impostare il database. Creerete due database DB2.
- Uno per servire come sorgente di replica e
- Uno come destinazione.
Creerete anche due tabelle (Prodotto e Inventario) e le popolerete con dati di esempio. Poi potrai testare l’integrazione tra SQL Replication e Datastage.
Proseguendo, imposterai la replica SQL creando tabelle di controllo, set di sottoscrizioni, registrazioni e membri dei set di sottoscrizioni. Impareremo di più su questo in dettaglio nella prossima sezione.
Qui prenderemo un esempio di articolo di vendita al dettaglio come nostro database e creeremo due tabelle Inventory e Product. Queste tabelle caricheranno i dati dalla fonte alla destinazione attraverso questi set. (tabelle di controllo, set di abbonamenti, registrazioni e membri del set di abbonamenti.)
Step 1) Creare un database di origine denominato SALES. Sotto questo database, create due tabelle prodotto e inventario.
Step 2) Eseguite il seguente comando per creare il database SALES.
db2 create database SALES
Step 3) Attivate la registrazione di archivio per il database SALES. Inoltre, fai il backup del database usando i seguenti comandi
db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN
db2 backup db SALES
Step 4) Nello stesso prompt dei comandi, passa alla sottodirectory setupDB nella directory sqlrepl-datastage-tutorial che hai estratto dal file compresso scaricato.
Passo 5) Utilizzare il seguente comando per creare la tabella Inventario e importare i dati nella tabella eseguendo il seguente comando.
db2 import from inventory.ixf of ixf create into inventory
Passo 6) Creare una tabella di destinazione. Nominate il database di destinazione come STAGEDB.
Siccome ora avete creato entrambi i database sorgente e destinazione, il prossimo passo vedrà come replicarlo.
Creazione degli oggetti SQL Replication
L’immagine qui sotto mostra come il flusso dei dati di modifica viene consegnato dal database sorgente a quello di destinazione. Si crea una mappatura da sorgente a destinazione tra le tabelle note come membri del set di sottoscrizioni e si raggruppano i membri in una sottoscrizione.
L’unità di replica all’interno di InfoSphere CDC (Change Data Capture) è definita abbonamento.
- Le modifiche fatte nel sorgente vengono catturate nella “tabella di controllo della cattura” che viene inviata alla tabella CD e poi alla tabella di destinazione. Mentre il programma di applicazione avrà i dettagli sulla riga da cui le modifiche devono essere fatte. Si unirà anche alla tabella CD nel set di sottoscrizioni.
- Una sottoscrizione contiene dettagli di mappatura che specificano come i dati in un archivio dati di origine vengono applicati a un archivio dati di destinazione. Nota, CDC è ora indicato come replica dei dati Infosphere.
- Quando una sottoscrizione viene eseguita, InfoSphere CDC cattura le modifiche sul database di origine. InfoSphere CDC consegna i dati delle modifiche alla destinazione e memorizza le informazioni sul punto di sincronizzazione in una tabella di segnalibro nel database di destinazione.
- InfoSphere CDC usa le informazioni del segnalibro per monitorare il progresso del lavoro di InfoSphere DataStage.
- In caso di fallimento, le informazioni del segnalibro sono usate come punto di riavvio. Nel nostro esempio, la tabella ASN.IBMSNAP_FEEDETL memorizza le informazioni di synchpoint relative a DataStage che vengono utilizzate per monitorare l’avanzamento di DataStage.