Vídeo: HOME (2009) 2024
As implementações de armazenamento de data warehouse são grandes - e ficam maiores o tempo todo. As implementações que usam centenas de gigabytes (um gigabyte igual a 1 bilhão de bytes) e até mesmo terabytes (1 trilhão de bytes) são cada vez mais comuns. Para gerenciar esse volume de dados e acesso ao usuário, você precisa de um servidor e banco de dados muito robusto.
Prepare-se para o desafio! Com um data warehouse lite, você geralmente pode manipular o movimento de dados de origem para armazém de maneira direta e de baixa tecnologia - mas com o data warehouse deluxe, você está entrando agora na Zona de dificuldade, onde muitos projetos de data warehousing atendem aos seus Waterloo.
É provável que você tenha dificuldades neste domínio por vários motivos:
-
Você está lidando com muitas fontes de dados diferentes, algumas das quais podem conter dados sobrepostos. Por exemplo, a informação dos fornecedores pode ser proveniente de dois sistemas de compras diferentes e alguns de seus fornecedores têm entradas em ambos os sistemas.
Você provavelmente entrará em diferentes conjuntos de identificadores que você deve convergir (por exemplo, seis caracteres alfanuméricos identificados como SUPPLIER_ID em um dos sistemas e um inteiro inteiro conhecido como SUP_NUM no outro).
-
Se o seu data warehouse for grande (com mais de 250 gigabytes), é provável que você tenha dificuldades em extrair, mover e carregar suas janelas em lote. Lote de janelas , os intervalos de tempo em que as atualizações são feitas no armazém, são complicados pelo número de fontes de dados que você precisa manipular.
-
As chances de ter um processo de extração, movimento, transformação e carregamento imobilizado estão exponencialmente relacionadas ao número de elementos de dados a serem carregados no data warehouse.
Se você pudesse atribuir algum fator de dificuldade (um número inteiro, por exemplo) ao processo de obtenção de dados no armazém, as seguintes medidas seriam verdadeiras: você tem n dados elementos que você deseja incluir no data warehouse com um fator de dificuldade de x. Se você tiver agora 2 n elementos de dados, seu fator de dificuldade não é 2 x; em vez disso, é x ao quadrado.
Para tornar esse fator de dificuldade mais fácil de entender, atribua alguns números a n e x. Diga que seu data warehouse tenha 100 elementos (n) eo fator de dificuldade (x) for 5. Se você duplicar o número de elementos ( n > = 200), seu fator de dificuldade é 25 (5 quadrados), não 10 (5 x 2). O processo de lidar com tantas fontes de dados, todos dirigidos para um lugar (seu data warehouse deluxe), tem todos os elementos de muitos cozinheiros na cozinha, ou o que quer dizer.
-
Para fazer o processo de extração, movimento, transformação e carregamento funcionar sem problemas, você provavelmente terá que lidar com vários proprietários de aplicativos diferentes, detentores oficiais do banco de dados e outras pessoas de várias organizações diferentes, todas as quais têm que cooperar como eles fazem parte de uma orquestra sinfônica profissional.
A realidade, no entanto, é que eles executam mais como um grupo de estudantes de jardim de infância que cada um escolhe um instrumento musical da caixa de brinquedos e é informado: "Agora jogue algo! "Embora o processo não seja necessariamente condenado a falhas, espere uma série de iterações até que você possa obter o data warehouse deluxe carregado apenas para a direita.
Um data warehouse deluxe pode ter três níveis (como um data warehouse lite), exceto com mais fontes de dados e talvez mais de um tipo de ferramenta de usuário acessando o armazém. Mas a arquitetura para um data warehouse deluxe provavelmente se parece mais com o que é mostrado nesta figura, com muitos pontos de coleta diferentes de dados.
Além de outras "estações de caminho" necessárias para o seu ambiente particular, seu ambiente pode ter esses elementos:
Data mart:
-
Recebe subconjuntos de informações do data warehouse deluxe e serve como ponto de acesso primário para Comercial. Estação de transformação provisória:
-
Uma área na qual conjuntos de dados extraídos de algumas fontes são submetidos a algum tipo de processo de transformação antes de deslocar o encanamento em direção ao banco de dados do armazém. Estação de garantia de qualidade:
-
Uma área na qual grupos de dados são submetidos a controles intensivos de garantia de qualidade antes de deixá-los entrar no data warehouse.