DataStage Tutorial: Formação para principiantes

Datastage é uma ferramenta ETL que extrai dados, transforma e carrega dados da fonte para o alvo. As fontes de dados podem incluir ficheiros sequenciais, ficheiros indexados, bases de dados relacionais, fontes de dados externas, arquivos, aplicações empresariais, etc. DataStage facilita a análise empresarial, fornecendo dados de qualidade para ajudar a ganhar inteligência empresarial.

Se quiser obter conhecimentos aprofundados sobre DataStage, por favor aceda a este link DataStage Online Training

Datastage é utilizado numa grande organização como interface entre diferentes sistemas. Trata da extracção, tradução, e carregamento de dados desde a fonte até ao destino de destino. Foi lançado pela primeira vez pela VMark em meados da década de 90. Com a IBM a adquirir DataStage em 2005, foi renomeada para IBM WebSphere DataStage e mais tarde para IBM InfoSphere.

p>Variada versão de Datastage disponível no mercado até agora era Enterprise Edition (PX), Server Edition, MVS Edition, DataStage for PeopleSoft e assim por diante. A última edição é IBM InfoSphere DataStage

IBM Information server inclui os seguintes produtos,

IBM InfoSphere DataStage
IBM InfoSphere QualityStage
IBM InfoSphere Information Services Director
IBM InfoSphere InformationSphere Analisador
IBM Information Server FastTrack
IBM InfoSphere Business Glossário

DataStage Overview

Datastage has following Capabilities.

Pode integrar dados da mais vasta gama de fontes de dados empresariais e externas
Implementos de regras de validação de dados
É útil no processamento e transformação de grandes quantidades de dados
Utiliza processamento paralelo escalável abordagem
Pode lidar com transformações complexas e gerir múltiplos processos de integração
Alavancar a conectividade directa a aplicações empresariais como fontes ou alvos
Alavancar metadados para análise e manutenção
Operações em lote, em tempo real, ou como um serviço Web

Nas secções seguintes, descrevemos brevemente os seguintes aspectos do IBM InfoSphere DataStage:

Transformação de dados
Empregos
Processamento paralelo

InfoSphere DataStage e QualityStage podem aceder a dados em aplicações empresariais e fontes de dados como, por exemplo

Bases de dados relacionais
Bases de dados de quadros principais
Aplicações empresariais e analíticas
Planeamento de recursos empresariais (ERP) ou gestão de relações com clientes (CRM) bases de dados
Bases de dados de processamento analítico em linha (OLAP) ou de gestão de desempenho

Tipos de processamento de tipos de fase

O trabalho da infosfera de MIB consiste em fases individuais que estão ligadas entre si. Descreve o fluxo de dados de uma fonte de dados para um alvo de dados. Normalmente, uma fase tem no mínimo uma entrada e/ou uma saída de dados. Contudo, algumas fases podem aceitar mais de uma entrada e saída de dados para mais de uma fase.

Na concepção do trabalho várias fases podem ser utilizadas:

Transformar fase
Filtro fase
Etapa agregadora
Retirar duplicados fase
Juntar fase
Etapa de ligação
Copy stage
Sortar stage
Containers

DataStage Components and Architecture

DataStage tem quatro componentes principais, nomeadamente

Administrador: É utilizado para tarefas de administração. Isto inclui a criação de utilizadores DataStage, a definição de critérios de purga e a criação de & movendo projectos.
Gestor: É a interface principal do Repositório de DataStage. É utilizado para o armazenamento e gestão de Metadados reutilizáveis. Através do gestor DataStage, é possível visualizar e editar o conteúdo do Repositório.
Designer: Uma interface de design utilizada para criar aplicações DataStage OU trabalhos. Especifica a fonte de dados, transformação necessária, e destino dos dados. Os trabalhos são compilados para criar um executável que são agendados pelo Director e executados pelo Servidor
Director: É utilizado para validar, agendar, executar e monitorizar trabalhos do servidor DataStage e trabalhos paralelos.

Datastage Architecture Diagram

A imagem acima explica como o IBM Infosphere DataStage interage com outros elementos da plataforma IBM Information Server. DataStage está dividido em duas secções, Shared Components, e Runtime Architecture.

Pre-requisito para a ferramenta Datastage

Para DataStage, será necessária a seguinte configuração.

Infosphere
DataStage Server 9.1.2 ou superior
Microsoft Visual Studio .NET 2010 Express Edition C++

li>Oracle client (cliente completo, não um cliente instantâneo) se ligar a uma base de dados Oracleli>DB2 client se ligar a uma base de dados DB2

Download and Installation InfoSphere Information Server

Para aceder ao DataStage, descarregar e instalar a última versão do IBM InfoSphere Server. O servidor suporta os sistemas operativos AIX, Linux, e Windows. Pode escolher como por exigência.

Para migrar os seus dados de uma versão mais antiga do infosphere para uma nova versão utiliza a ferramenta de intercâmbio de activos.

Arquivos de instalação

Para instalar e configurar Infosphere Datastage, deve ter os seguintes ficheiros na sua configuração.

Para Windows,

EtlDeploymentPackage-windows-oracle.pkg
EtlDeploymentPackage-windows-db2.pkg

Para Linux,

EtlDeploymentPackage-linux-db2.pkg
EtlDeploymentPackage-linux-oracle.pkg

Processo de fluxo de dados de Mudança num Trabalho de Fase de Transacção CDC.

O serviço ‘InfoSphere CDC’ para a base de dados monitoriza e captura a alteração de uma base de dados de origem

li> De acordo com a definição de replicação “InfoSphere CDC” transfere os dados da alteração para “InfoSphere CDC for InfoSphere DataSphere DataStage”.”

O servidor “InfoSphere CDC for InfoSphere DataSphere DataStage” envia os dados para a “fase de transacção CDC” através de uma sessão TCP/IP. O servidor “InfoSphere CDC for InfoSphere DataStage” também envia uma mensagem COMMIT (juntamente com informação de favoritos) para marcar o limite da transacção no log capturado.
Para cada mensagem COMMIT enviada pelo servidor “InfoSphere CDC for InfoSphere DataStage”, o servidor “CDC Transaction stage” cria marcadores de fim de onda (EOW). Estes marcadores são enviados em todas as ligações de saída para a fase de ligação da base de dados de destino.
Quando a fase de ligação da base de dados de destino recebe um marcador de fim de onda em todas as ligações de entrada, escreve a informação dos favoritos numa tabela de favoritos e depois submete a transacção à base de dados de destino.
O servidor “InfoSphere CDC for InfoSphere DataStage” solicita a informação dos favoritos a partir de uma tabela de favoritos na “base de dados de destino”.”
O servidor “InfoSphere CDC for InfoSphere DataStage” recebe a informação dos Favoritos.

Esta informação é utilizada para,

determinar o ponto de partida no diário de transacções onde as alterações são lidas quando a replicação começa.
Para determinar se o diário de transacções existente pode ser limpo

Configurar a Replicação SQL

Antes de começar com Datastage, é necessário configurar a base de dados. Irá criar duas bases de dados DB2.

Uma para servir como fonte de replicação e
Uma como alvo.

Também irá criar duas tabelas (Produto e Inventário) e preenchê-las com dados de amostra. Depois poderá testar a sua integração entre SQL Replication e Datastage.

Movendo-se para a frente, irá configurar a replicação SQL criando tabelas de controlo, conjuntos de subscrição, registos e membros de conjuntos de subscrição. Aprenderemos mais sobre isto em detalhes na próxima secção.

Aqui vamos tomar um exemplo de item de vendas a retalho como a nossa base de dados e criar duas tabelas Inventário e Produto. Estas tabelas irão carregar dados da fonte ao alvo através destes conjuntos. (tabelas de controlo, conjuntos de subscrição, registos, e membros do conjunto de subscrição.)

P>Passo 1) Criar uma base de dados de origem referida como VENDAS. Sob esta base de dados, criar duas tabelas produto e Inventory.

P>Passo 2) Executar o seguinte comando para criar a base de dados VENDAS.

db2 create database SALES

Passo 3) Activar o registo de arquivo para a base de dados VENDAS. Além disso, faça o backup da base de dados utilizando os seguintes comandos

db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN
db2 backup db SALES

P>Passo 4) No mesmo prompt de comando, mude para a subdirectoria setupDB no directório sqlrepl-datastage-tutorial que extraiu do ficheiro comprimido descarregado.

Heading