DataStage Tutorial: Formação para principiantes

Datastage é uma ferramenta ETL que extrai dados, transforma e carrega dados da fonte para o alvo. As fontes de dados podem incluir ficheiros sequenciais, ficheiros indexados, bases de dados relacionais, fontes de dados externas, arquivos, aplicações empresariais, etc. DataStage facilita a análise empresarial, fornecendo dados de qualidade para ajudar a ganhar inteligência empresarial.

Se quiser obter conhecimentos aprofundados sobre DataStage, por favor aceda a este link DataStage Online Training

Datastage é utilizado numa grande organização como interface entre diferentes sistemas. Trata da extracção, tradução, e carregamento de dados desde a fonte até ao destino de destino. Foi lançado pela primeira vez pela VMark em meados da década de 90. Com a IBM a adquirir DataStage em 2005, foi renomeada para IBM WebSphere DataStage e mais tarde para IBM InfoSphere.

p>Variada versão de Datastage disponível no mercado até agora era Enterprise Edition (PX), Server Edition, MVS Edition, DataStage for PeopleSoft e assim por diante. A última edição é IBM InfoSphere DataStage

IBM Information server inclui os seguintes produtos,

  • IBM InfoSphere DataStage
  • IBM InfoSphere QualityStage
  • IBM InfoSphere Information Services Director
  • IBM InfoSphere InformationSphere Analisador
  • IBM Information Server FastTrack
  • IBM InfoSphere Business Glossário

DataStage Overview

Datastage has following Capabilities.

  • Pode integrar dados da mais vasta gama de fontes de dados empresariais e externas
  • Implementos de regras de validação de dados
  • É útil no processamento e transformação de grandes quantidades de dados
  • Utiliza processamento paralelo escalável abordagem
  • Pode lidar com transformações complexas e gerir múltiplos processos de integração
  • Alavancar a conectividade directa a aplicações empresariais como fontes ou alvos
  • Alavancar metadados para análise e manutenção
  • Operações em lote, em tempo real, ou como um serviço Web

Nas secções seguintes, descrevemos brevemente os seguintes aspectos do IBM InfoSphere DataStage:

  • Transformação de dados
  • Empregos
  • Processamento paralelo

InfoSphere DataStage e QualityStage podem aceder a dados em aplicações empresariais e fontes de dados como, por exemplo

  • Bases de dados relacionais
  • Bases de dados de quadros principais
  • Aplicações empresariais e analíticas
  • Planeamento de recursos empresariais (ERP) ou gestão de relações com clientes (CRM) bases de dados
  • Bases de dados de processamento analítico em linha (OLAP) ou de gestão de desempenho

Tipos de processamento de tipos de fase

O trabalho da infosfera de MIB consiste em fases individuais que estão ligadas entre si. Descreve o fluxo de dados de uma fonte de dados para um alvo de dados. Normalmente, uma fase tem no mínimo uma entrada e/ou uma saída de dados. Contudo, algumas fases podem aceitar mais de uma entrada e saída de dados para mais de uma fase.

Na concepção do trabalho várias fases podem ser utilizadas:

  • Transformar fase
  • Filtro fase
  • Etapa agregadora
  • Retirar duplicados fase
  • Juntar fase
  • Etapa de ligação
  • Copy stage
  • Sortar stage
  • Containers

DataStage Components and Architecture

DataStage tem quatro componentes principais, nomeadamente

  1. Administrador: É utilizado para tarefas de administração. Isto inclui a criação de utilizadores DataStage, a definição de critérios de purga e a criação de & movendo projectos.
  2. Gestor: É a interface principal do Repositório de DataStage. É utilizado para o armazenamento e gestão de Metadados reutilizáveis. Através do gestor DataStage, é possível visualizar e editar o conteúdo do Repositório.
  3. Designer: Uma interface de design utilizada para criar aplicações DataStage OU trabalhos. Especifica a fonte de dados, transformação necessária, e destino dos dados. Os trabalhos são compilados para criar um executável que são agendados pelo Director e executados pelo Servidor
  4. Director: É utilizado para validar, agendar, executar e monitorizar trabalhos do servidor DataStage e trabalhos paralelos.
div>>

/div>

Datastage Architecture Diagram

A imagem acima explica como o IBM Infosphere DataStage interage com outros elementos da plataforma IBM Information Server. DataStage está dividido em duas secções, Shared Components, e Runtime Architecture.

Pre-requisito para a ferramenta Datastage

Para DataStage, será necessária a seguinte configuração.

  • Infosphere
  • DataStage Server 9.1.2 ou superior
  • Microsoft Visual Studio .NET 2010 Express Edition C++
  • li>Oracle client (cliente completo, não um cliente instantâneo) se ligar a uma base de dados Oracleli>DB2 client se ligar a uma base de dados DB2

Download and Installation InfoSphere Information Server

Para aceder ao DataStage, descarregar e instalar a última versão do IBM InfoSphere Server. O servidor suporta os sistemas operativos AIX, Linux, e Windows. Pode escolher como por exigência.

Para migrar os seus dados de uma versão mais antiga do infosphere para uma nova versão utiliza a ferramenta de intercâmbio de activos.

Arquivos de instalação

Para instalar e configurar Infosphere Datastage, deve ter os seguintes ficheiros na sua configuração.

Para Windows,

  • EtlDeploymentPackage-windows-oracle.pkg
  • EtlDeploymentPackage-windows-db2.pkg

Para Linux,

  • EtlDeploymentPackage-linux-db2.pkg
  • EtlDeploymentPackage-linux-oracle.pkg

Processo de fluxo de dados de Mudança num Trabalho de Fase de Transacção CDC.

  1. O serviço ‘InfoSphere CDC’ para a base de dados monitoriza e captura a alteração de uma base de dados de origem
  2. li> De acordo com a definição de replicação “InfoSphere CDC” transfere os dados da alteração para “InfoSphere CDC for InfoSphere DataSphere DataStage”.”

  3. O servidor “InfoSphere CDC for InfoSphere DataSphere DataStage” envia os dados para a “fase de transacção CDC” através de uma sessão TCP/IP. O servidor “InfoSphere CDC for InfoSphere DataStage” também envia uma mensagem COMMIT (juntamente com informação de favoritos) para marcar o limite da transacção no log capturado.
  4. Para cada mensagem COMMIT enviada pelo servidor “InfoSphere CDC for InfoSphere DataStage”, o servidor “CDC Transaction stage” cria marcadores de fim de onda (EOW). Estes marcadores são enviados em todas as ligações de saída para a fase de ligação da base de dados de destino.
  5. Quando a fase de ligação da base de dados de destino recebe um marcador de fim de onda em todas as ligações de entrada, escreve a informação dos favoritos numa tabela de favoritos e depois submete a transacção à base de dados de destino.
  6. O servidor “InfoSphere CDC for InfoSphere DataStage” solicita a informação dos favoritos a partir de uma tabela de favoritos na “base de dados de destino”.”
  7. O servidor “InfoSphere CDC for InfoSphere DataStage” recebe a informação dos Favoritos.

Esta informação é utilizada para,

  • determinar o ponto de partida no diário de transacções onde as alterações são lidas quando a replicação começa.
  • Para determinar se o diário de transacções existente pode ser limpo

Configurar a Replicação SQL

Antes de começar com Datastage, é necessário configurar a base de dados. Irá criar duas bases de dados DB2.

  • Uma para servir como fonte de replicação e
  • Uma como alvo.

Também irá criar duas tabelas (Produto e Inventário) e preenchê-las com dados de amostra. Depois poderá testar a sua integração entre SQL Replication e Datastage.

Movendo-se para a frente, irá configurar a replicação SQL criando tabelas de controlo, conjuntos de subscrição, registos e membros de conjuntos de subscrição. Aprenderemos mais sobre isto em detalhes na próxima secção.

Aqui vamos tomar um exemplo de item de vendas a retalho como a nossa base de dados e criar duas tabelas Inventário e Produto. Estas tabelas irão carregar dados da fonte ao alvo através destes conjuntos. (tabelas de controlo, conjuntos de subscrição, registos, e membros do conjunto de subscrição.)

P>Passo 1) Criar uma base de dados de origem referida como VENDAS. Sob esta base de dados, criar duas tabelas produto e Inventory.

P>Passo 2) Executar o seguinte comando para criar a base de dados VENDAS.

db2 create database SALES

Passo 3) Activar o registo de arquivo para a base de dados VENDAS. Além disso, faça o backup da base de dados utilizando os seguintes comandos

db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN
db2 backup db SALES

P>Passo 4) No mesmo prompt de comando, mude para a subdirectoria setupDB no directório sqlrepl-datastage-tutorial que extraiu do ficheiro comprimido descarregado.

passo 5) Utilize o seguinte comando para criar a tabela de inventário e importar dados para a tabela, executando o seguinte comando.

db2 importar de inventory.ixf de ixf criar para inventory

P>Passo 6) Criar uma tabela de destino. Nomear a base de dados de destino como STAGEDB.

Desde que agora tenha criado tanto a fonte como o destino da base de dados, o próximo passo será ver como replicá-la.

Criar os objectos de replicação SQL

A imagem abaixo mostra como o fluxo de dados de alteração é entregue da fonte para a base de dados de destino. Cria-se um mapeamento da fonte para o alvo entre tabelas conhecidas como membros do conjunto de assinaturas e agrupa-se os membros numa assinatura.

A unidade de replicação dentro da InfoSphere CDC (Change Data Capture) é referida como uma assinatura.

  • As alterações feitas na fonte são capturadas na “Tabela de controlo de captura” que é enviada para a tabela de CD e depois para a tabela de destino. Enquanto o programa de aplicação terá os detalhes sobre a linha a partir da qual as alterações têm de ser feitas. Também juntará a tabela de CD no conjunto de assinaturas.
  • Uma assinatura contém detalhes de mapeamento que especificam como os dados de um armazém de dados de origem são aplicados a um armazém de dados de destino. Nota, CDC é agora referido como replicação de dados Infosphere.
  • Quando uma subscrição é executada, InfoSphere CDC captura as alterações na base de dados de origem. InfoSphere CDC entrega os dados de alteração ao alvo, e armazena informação de pontos de sincronização numa tabela de favoritos na base de dados de destino.
  • InfoSphere CDC utiliza a informação de favoritos para monitorizar o progresso do trabalho InfoSphere DataStage.
  • Em caso de falha, a informação de favoritos é utilizada como ponto de reinício. No nosso exemplo, a tabela ASN.IBMSNAP_FEEDETL armazena informação de pontos sincronizados relacionados com DataStage que é utilizada para acompanhar o progresso do DataStage.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *