Datastage é uma ferramenta ETL que extrai dados, transforma e carrega dados da fonte para o alvo. As fontes de dados podem incluir ficheiros sequenciais, ficheiros indexados, bases de dados relacionais, fontes de dados externas, arquivos, aplicações empresariais, etc. DataStage facilita a análise empresarial, fornecendo dados de qualidade para ajudar a ganhar inteligência empresarial.
Se quiser obter conhecimentos aprofundados sobre DataStage, por favor aceda a este link DataStage Online Training
Datastage é utilizado numa grande organização como interface entre diferentes sistemas. Trata da extracção, tradução, e carregamento de dados desde a fonte até ao destino de destino. Foi lançado pela primeira vez pela VMark em meados da década de 90. Com a IBM a adquirir DataStage em 2005, foi renomeada para IBM WebSphere DataStage e mais tarde para IBM InfoSphere.
p>Variada versão de Datastage disponível no mercado até agora era Enterprise Edition (PX), Server Edition, MVS Edition, DataStage for PeopleSoft e assim por diante. A última edição é IBM InfoSphere DataStage
IBM Information server inclui os seguintes produtos,
- IBM InfoSphere DataStage
- IBM InfoSphere QualityStage
- IBM InfoSphere Information Services Director
- IBM InfoSphere InformationSphere Analisador
- IBM Information Server FastTrack
- IBM InfoSphere Business Glossário
DataStage Overview
Datastage has following Capabilities.
- Pode integrar dados da mais vasta gama de fontes de dados empresariais e externas
- Implementos de regras de validação de dados
- É útil no processamento e transformação de grandes quantidades de dados
- Utiliza processamento paralelo escalável abordagem
- Pode lidar com transformações complexas e gerir múltiplos processos de integração
- Alavancar a conectividade directa a aplicações empresariais como fontes ou alvos
- Alavancar metadados para análise e manutenção
- Operações em lote, em tempo real, ou como um serviço Web
Nas secções seguintes, descrevemos brevemente os seguintes aspectos do IBM InfoSphere DataStage:
- Transformação de dados
- Empregos
- Processamento paralelo
InfoSphere DataStage e QualityStage podem aceder a dados em aplicações empresariais e fontes de dados como, por exemplo
- Bases de dados relacionais
- Bases de dados de quadros principais
- Aplicações empresariais e analíticas
- Planeamento de recursos empresariais (ERP) ou gestão de relações com clientes (CRM) bases de dados
- Bases de dados de processamento analítico em linha (OLAP) ou de gestão de desempenho
Tipos de processamento de tipos de fase
O trabalho da infosfera de MIB consiste em fases individuais que estão ligadas entre si. Descreve o fluxo de dados de uma fonte de dados para um alvo de dados. Normalmente, uma fase tem no mínimo uma entrada e/ou uma saída de dados. Contudo, algumas fases podem aceitar mais de uma entrada e saída de dados para mais de uma fase.
Na concepção do trabalho várias fases podem ser utilizadas:
- Transformar fase
- Filtro fase
- Etapa agregadora
- Retirar duplicados fase
- Juntar fase
- Etapa de ligação
- Copy stage
- Sortar stage
- Containers
DataStage Components and Architecture
DataStage tem quatro componentes principais, nomeadamente
- Administrador: É utilizado para tarefas de administração. Isto inclui a criação de utilizadores DataStage, a definição de critérios de purga e a criação de & movendo projectos.
- Gestor: É a interface principal do Repositório de DataStage. É utilizado para o armazenamento e gestão de Metadados reutilizáveis. Através do gestor DataStage, é possível visualizar e editar o conteúdo do Repositório.
- Designer: Uma interface de design utilizada para criar aplicações DataStage OU trabalhos. Especifica a fonte de dados, transformação necessária, e destino dos dados. Os trabalhos são compilados para criar um executável que são agendados pelo Director e executados pelo Servidor
- Director: É utilizado para validar, agendar, executar e monitorizar trabalhos do servidor DataStage e trabalhos paralelos.
Datastage Architecture Diagram
A imagem acima explica como o IBM Infosphere DataStage interage com outros elementos da plataforma IBM Information Server. DataStage está dividido em duas secções, Shared Components, e Runtime Architecture.
Pre-requisito para a ferramenta Datastage
Para DataStage, será necessária a seguinte configuração.
- Infosphere
- DataStage Server 9.1.2 ou superior
- Microsoft Visual Studio .NET 2010 Express Edition C++
li>Oracle client (cliente completo, não um cliente instantâneo) se ligar a uma base de dados Oracleli>DB2 client se ligar a uma base de dados DB2
Download and Installation InfoSphere Information Server
Para aceder ao DataStage, descarregar e instalar a última versão do IBM InfoSphere Server. O servidor suporta os sistemas operativos AIX, Linux, e Windows. Pode escolher como por exigência.
Para migrar os seus dados de uma versão mais antiga do infosphere para uma nova versão utiliza a ferramenta de intercâmbio de activos.
Arquivos de instalação
Para instalar e configurar Infosphere Datastage, deve ter os seguintes ficheiros na sua configuração.
Para Windows,
- EtlDeploymentPackage-windows-oracle.pkg
- EtlDeploymentPackage-windows-db2.pkg
Para Linux,
- EtlDeploymentPackage-linux-db2.pkg
- EtlDeploymentPackage-linux-oracle.pkg
Processo de fluxo de dados de Mudança num Trabalho de Fase de Transacção CDC.
- O serviço ‘InfoSphere CDC’ para a base de dados monitoriza e captura a alteração de uma base de dados de origem
- O servidor “InfoSphere CDC for InfoSphere DataSphere DataStage” envia os dados para a “fase de transacção CDC” através de uma sessão TCP/IP. O servidor “InfoSphere CDC for InfoSphere DataStage” também envia uma mensagem COMMIT (juntamente com informação de favoritos) para marcar o limite da transacção no log capturado.
- Para cada mensagem COMMIT enviada pelo servidor “InfoSphere CDC for InfoSphere DataStage”, o servidor “CDC Transaction stage” cria marcadores de fim de onda (EOW). Estes marcadores são enviados em todas as ligações de saída para a fase de ligação da base de dados de destino.
- Quando a fase de ligação da base de dados de destino recebe um marcador de fim de onda em todas as ligações de entrada, escreve a informação dos favoritos numa tabela de favoritos e depois submete a transacção à base de dados de destino.
- O servidor “InfoSphere CDC for InfoSphere DataStage” solicita a informação dos favoritos a partir de uma tabela de favoritos na “base de dados de destino”.”
- O servidor “InfoSphere CDC for InfoSphere DataStage” recebe a informação dos Favoritos.
li> De acordo com a definição de replicação “InfoSphere CDC” transfere os dados da alteração para “InfoSphere CDC for InfoSphere DataSphere DataStage”.”
Esta informação é utilizada para,
- determinar o ponto de partida no diário de transacções onde as alterações são lidas quando a replicação começa.
- Para determinar se o diário de transacções existente pode ser limpo
Configurar a Replicação SQL
Antes de começar com Datastage, é necessário configurar a base de dados. Irá criar duas bases de dados DB2.
- Uma para servir como fonte de replicação e
- Uma como alvo.
Também irá criar duas tabelas (Produto e Inventário) e preenchê-las com dados de amostra. Depois poderá testar a sua integração entre SQL Replication e Datastage.
Movendo-se para a frente, irá configurar a replicação SQL criando tabelas de controlo, conjuntos de subscrição, registos e membros de conjuntos de subscrição. Aprenderemos mais sobre isto em detalhes na próxima secção.
Aqui vamos tomar um exemplo de item de vendas a retalho como a nossa base de dados e criar duas tabelas Inventário e Produto. Estas tabelas irão carregar dados da fonte ao alvo através destes conjuntos. (tabelas de controlo, conjuntos de subscrição, registos, e membros do conjunto de subscrição.)
P>Passo 1) Criar uma base de dados de origem referida como VENDAS. Sob esta base de dados, criar duas tabelas produto e Inventory.
P>Passo 2) Executar o seguinte comando para criar a base de dados VENDAS.
db2 create database SALES
Passo 3) Activar o registo de arquivo para a base de dados VENDAS. Além disso, faça o backup da base de dados utilizando os seguintes comandos
db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN
db2 backup db SALES
P>Passo 4) No mesmo prompt de comando, mude para a subdirectoria setupDB no directório sqlrepl-datastage-tutorial que extraiu do ficheiro comprimido descarregado.