DataStage Tutorial: Szkolenie dla początkujących

Datastage jest narzędziem ETL, które ekstrahuje dane, przekształca i ładuje dane ze źródła do celu. Źródła danych mogą obejmować pliki sekwencyjne, pliki indeksowane, relacyjne bazy danych, zewnętrzne źródła danych, archiwa, aplikacje korporacyjne, itp. DataStage ułatwia analizę biznesową poprzez dostarczanie wysokiej jakości danych, które pomagają w uzyskaniu inteligencji biznesowej.

Jeśli chcesz zdobyć dogłębną wiedzę na temat DataStage, proszę przejdź przez ten link DataStage Online Training

Datastage jest używany w dużych organizacjach jako interfejs pomiędzy różnymi systemami. Zajmuje się ekstrakcją, tłumaczeniem i ładowaniem danych ze źródła do miejsca docelowego. Po raz pierwszy został wprowadzony na rynek przez firmę VMark w połowie lat 90-tych. Po przejęciu DataStage przez IBM w 2005 roku, zmieniono nazwę na IBM WebSphere DataStage, a później na IBM InfoSphere.

Różne wersje Datastage dostępne na rynku to Enterprise Edition (PX), Server Edition, MVS Edition, DataStage for PeopleSoft i tak dalej. Najnowszą edycją jest IBM InfoSphere DataStage

Serwer informacyjny IBM obejmuje następujące produkty,

IBM InfoSphere DataStage
IBM InfoSphere QualityStage
IBM InfoSphere Information Services Director
IBM InfoSphere Information Analyzer
IBM Information Server FastTrack
IBM InfoSphere Business Glossary

Przegląd DataStage

Datastage posiada następujące możliwości.

Może integrować dane z najszerszej gamy korporacyjnych i zewnętrznych źródeł danych
Wdraża reguły walidacji danych
Jest przydatny w przetwarzaniu i transformacji dużych ilości danych
Używa skalowalnego przetwarzania równoległego
Podejście do przetwarzania równoległego podejście do przetwarzania równoległego
Może obsługiwać złożone transformacje i zarządzać wieloma procesami integracyjnymi
Wykorzystuje bezpośrednie połączenie z aplikacjami przedsiębiorstwa jako źródłami lub celami
Wykorzystuje metadane do analizy i konserwacji
Działa w trybie wsadowym, czasie rzeczywistym lub jako usługa sieci Web

W kolejnych sekcjach krótko opisujemy następujące aspekty IBM InfoSphere DataStage:

Transformacja danych
Zadania
Przetwarzanie równoległe

InfoSphere DataStage i QualityStage mogą uzyskiwać dostęp do danych w aplikacjach przedsiębiorstwa i źródłach danych, takich jak:

Relacyjne bazy danych
Bazy danych mainframe
Aplikacje biznesowe i analityczne
Planowanie zasobów przedsiębiorstwa (ERP) lub zarządzanie relacjami z klientami (CRM) bazy danych
Online analytical processing (OLAP) lub bazy danych zarządzania wydajnością

Typy etapów przetwarzania

Zadanie infosferyIBM składa się z poszczególnych etapów, które są ze sobą powiązane. Opisują one przepływ danych ze źródła danych do celu. Zazwyczaj etap ma co najmniej jedno wejście danych i/lub jedno wyjście danych. Niektóre etapy mogą jednak przyjmować więcej niż jedno wejście danych i wysyłać dane do więcej niż jednego etapu.

W projekcie Job różne etapy, które możesz wykorzystać to:

Etap transformacji
Etap filtrowania
Etap agregatora
Etap usuwania duplikatów
Etap dołączania
Etap wyszukiwania

Copy stage
Sort stage
Containers

Komponenty i architektura DataStage

DataStage posiada cztery główne komponenty, mianowicie,

Administrator: Jest on używany do zadań administracyjnych. Obejmuje to ustawianie użytkowników DataStage, ustawianie kryteriów oczyszczania i tworzenie & ruchomych projektów.
Manager: Jest to główny interfejs Repozytorium w DataStage. Służy do przechowywania i zarządzania Metadanymi wielokrotnego użytku. Poprzez DataStage Manager, można przeglądać i edytować zawartość Repozytorium.
Designer: Interfejs projektowy używany do tworzenia aplikacji DataStage LUB zadań. Określa źródło danych, wymaganą transformację i miejsce docelowe danych. Zadania są kompilowane w celu utworzenia pliku wykonywalnego, który jest planowany przez Dyrektora i uruchamiany przez Serwer
Dyrektor: Służy do sprawdzania poprawności, planowania, wykonywania i monitorowania zadań serwera DataStage oraz zadań równoległych.

Schemat architektury DataStage

Powyższy obraz wyjaśnia, w jaki sposób IBM Infosphere DataStage współdziała z innymi elementami platformy IBM Information Server. DataStage jest podzielony na dwie sekcje, Shared Components i Runtime Architecture.

Wymagania wstępne dla narzędzia Datastage

Do DataStage wymagana jest następująca konfiguracja.

Infosphere
DataStage Server 9.1.2 lub nowszy
Microsoft Visual Studio .NET 2010 Express Edition C++
Klient Oracle (pełny klient, nie klient natychmiastowy), jeśli łączy się z bazą danych Oracle
Klient DB2, jeśli łączy się z bazą danych DB2

Pobieranie i instalacja InfoSphere Information Server

Aby uzyskać dostęp do DataStage, należy pobrać i zainstalować najnowszą wersję IBM InfoSphere Server. Serwer obsługuje systemy operacyjne AIX, Linux i Windows. Aby zmigrować dane ze starszej wersji systemu Infosphere do nowej wersji, należy użyć narzędzia do wymiany aktywów.

Pliki instalacyjne

Do zainstalowania i skonfigurowania Infosphere Datastage wymagane jest posiadanie następujących plików.

Dla systemu Windows,

EtlDeploymentPackage-windows-oracle.pkg
EtlDeploymentPackage-windows-db2.pkg

Dla systemu Linux,

EtlDeploymentPackage-linux-db2.pkg
EtlDeploymentPackage-linux-oracle.pkg

Proces przepływu danych zmiany w zadaniu na etapie transakcji CDC.

Usługa 'InfoSphere CDC' dla bazy danych monitoruje i przechwytuje dane z bazy danych. bazy danych monitoruje i przechwytuje zmianę ze źródłowej bazy danych
Zgodnie z definicją replikacji „InfoSphere CDC” przekazuje dane o zmianie do „InfoSphere CDC for InfoSphere DataStage.”
Serwer „InfoSphere CDC for InfoSphere DataStage” przesyła dane do „CDC Transaction stage” za pośrednictwem sesji TCP/IP. Serwer „InfoSphere CDC for InfoSphere DataStage” wysyła również wiadomość COMMIT (wraz z informacjami o zakładkach), aby oznaczyć granicę transakcji w przechwyconym dzienniku.
Dla każdej wiadomości COMMIT wysłanej przez serwer „InfoSphere CDC for InfoSphere DataStage” „stadium transakcji CDC” tworzy znaczniki końca fali (EOW). Znaczniki te są wysyłane na wszystkich linkach wyjściowych do etapu złącza docelowej bazy danych.
Gdy „etap złącza docelowej bazy danych” otrzyma znacznik końca fali na wszystkich linkach wejściowych, zapisuje informacje o zakładkach w tabeli zakładek, a następnie zatwierdza transakcję w docelowej bazie danych.
Serwer „InfoSphere CDC for InfoSphere DataStage” żąda informacji o zakładkach z tabeli zakładek w „docelowej bazie danych”.”
Serwer „InfoSphere CDC for InfoSphere DataStage” odbiera informacje o zakładkach.

Informacje te są używane do,

Określenia punktu początkowego w dzienniku transakcji, w którym zmiany są odczytywane po rozpoczęciu replikacji.
Określić, czy istniejący dziennik transakcji może zostać oczyszczony

Ustawianie replikacji SQL

Przed rozpoczęciem pracy z Datastage należy skonfigurować bazy danych. Utworzysz dwie bazy danych DB2.

Jedna jako źródło replikacji i
Jedna jako cel.

Tworzysz również dwie tabele (Product i Inventory) i wypełniasz je przykładowymi danymi. Następnie będziesz mógł przetestować integrację pomiędzy SQL Replication i Datastage.

Przechodząc dalej, skonfigurujesz replikację SQL poprzez utworzenie tabel kontrolnych, zestawów subskrypcji, rejestracji i członków zestawów subskrypcji. Dowiemy się więcej na ten temat w następnej sekcji.

W tym miejscu weźmiemy przykład sprzedaży detalicznej jako naszą bazę danych i utworzymy dwie tabele Inventory i Product. Tabele te będą ładować dane ze źródła do celu poprzez te zestawy. (tabele kontrolne, zestawy subskrypcji, rejestracje i członkowie zestawów subskrypcji.)

Krok 1) Utwórz źródłową bazę danych zwaną SALES. W ramach tej bazy danych utwórz dwie tabele product i Inventory.

Krok 2) Uruchom następujące polecenie, aby utworzyć bazę danych SALES.

db2 create database SALES

Krok 3) Włącz logowanie archiwalne dla bazy danych SALES. Wykonaj również kopię zapasową bazy danych za pomocą następujących poleceń

db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN
db2 backup db SALES

Krok 4) W tym samym wierszu poleceń, przejdź do podkatalogu setupDB w katalogu sqlrepl-datastage-tutorial, który został wyodrębniony z pobranego skompresowanego pliku.

Krok 5) Za pomocą poniższego polecenia utwórz tabelę Inventory i zaimportuj dane do tabeli wykonując poniższe polecenie.

db2 import from inventory.ixf of ixf create into inventory

Krok 6) Utwórz tabelę docelową. Nazwij docelową bazę danych jako STAGEDB.

Ponieważ teraz utworzyłeś obie bazy danych źródłową i docelową, w następnym kroku zobaczymy jak je replikować.

Tworzenie obiektów replikacji SQL

Następny obrazek pokazuje, w jaki sposób przepływ danych zmiany jest dostarczany ze źródła do bazy docelowej. Tworzysz mapowanie źródło-docel pomiędzy tabelami znanymi jako członkowie zestawu subskrypcji i grupujesz członków w subskrypcję.

Jednostka replikacji w ramach InfoSphere CDC (Change Data Capture) jest określana mianem subskrypcji.

Zmiany dokonane w źródle są przechwytywane w „tabeli kontrolnej przechwytywania”, która jest przesyłana do tabeli CDC, a następnie do tabeli docelowej. Podczas gdy program apply będzie posiadał szczegóły dotyczące wiersza, w którym należy dokonać zmian. Dołączy on również tabelę CD do zestawu subskrypcji.
Abonament zawiera szczegóły mapowania, które określają jak dane ze źródłowego magazynu danych są stosowane do docelowego magazynu danych. Uwaga, CDC jest obecnie określane jako replikacja danych Infosphere.
Gdy wykonywana jest subskrypcja, InfoSphere CDC przechwytuje zmiany w źródłowej bazie danych. InfoSphere CDC dostarcza dane o zmianach do bazy docelowej i przechowuje informacje o punkcie synchronizacji w tabeli zakładek w docelowej bazie danych.
InfoSphere CDC używa informacji o zakładkach do monitorowania postępu zadania InfoSphere DataStage.
W przypadku awarii informacje o zakładkach są używane jako punkt restartu. W naszym przykładzie, tabela ASN.IBMSNAP_FEEDETL przechowuje informacje synchpoint związane z DataStage, które są używane do śledzenia postępu DataStage.

Heading