Lar Finanças Pessoais Juntando tabelas com colmada - dummies

Juntando tabelas com colmada - dummies

Vídeo: Quebra de Seção no Word: Como Fazer ou Remover (e suas diversas finalidades!) 2025

Vídeo: Quebra de Seção no Word: Como Fazer ou Remover (e suas diversas finalidades!) 2025
Anonim

Você provavelmente já sabe que especialistas em modelagem e design de banco de dados relacionais geralmente gastam muito tempo em design de bancos de dados normalizados ou esquemas <. O banco de dados normalização é uma técnica que protege contra perda de dados, redundância e outras anomalias à medida que os dados são atualizados e recuperados. Os especialistas seguem uma série de regras para chegar a um banco de dados normalizado, mas a Regra 1 é que você deve terminar com um

grupo de tabelas. (Uma tabela grande que armazena todos os seus dados não é normal - trocadilhos.) Existem exceções, dependendo do caso de uso, mas a lei de muitas tabelas geralmente é seguida de perto, especialmente para bancos de dados que suportam transações ou processamento analítico (business intelligence, por exemplo).

Quando você começa a consultar e analisar seus dados, as tabelas são juntas com base nas relações definidas entre elas usando o SQL - o que significa que os discos estão ocupados em seu servidor quando você começa a juntar tabelas e Os discos ocupados geralmente resultam em tempos de resposta mais lentos dos usuários. No entanto, a boa notícia é que RDBMSs e EDWs são sintonizados para fazer juntas o mais rápido possível.

O que tudo isso tem a ver com juntas na Hive? Bem, lembre-se de que o sistema operacional subjacente para o Hive é (surpresa!) Apache Hadoop: o MapReduce é o mecanismo para juntar tabelas e o Hadoop File System (HDFS) é o armazenamento subjacente. É uma boa notícia para o usuário que quer criar, gerenciar e analisar grandes tabelas com o Hive.

O potencial para desbloquear informações escondidas em estruturas de dados maciças é emocionante. No entanto, as juntas com o Hive geralmente não funcionam tão bem como no mundo RDBMS / EDW, de modo que os usuários pela primeira vez são freqüentemente surpreendidos pelo "pokiness" da resposta do sistema.

Lembre-se de que o MapReduce e o HDFS são otimizados para a produção com grandes análises de dados e que, neste mundo, latências - tempos de resposta dos usuários, em outras palavras - geralmente são altos. A Hive foi projetada para o processamento analítico em lote, não para o processamento rápido de transações on-line. Os usuários que desejam o melhor desempenho possível com SQL no Apache Hadoop possuem soluções disponíveis.

Mantenha essa dinâmica em mente quando você começar a juntar as tabelas com o Hive. Observe também que os arquitetos da Colmeia geralmente desnormalizam seus bancos de dados até certo ponto, então ter menos tabelas maiores é comum. É por isso que são fornecidos tipos de dados complexos, como STRUCTs e ARRAYs. Você pode usar esses tipos de dados complexos para empacotar muito mais dados em uma única tabela.

Como a tabela de colméia lê e escreve via HDFS geralmente envolve blocos de dados muito grandes, quanto mais dados você pode gerenciar completamente em uma tabela, melhor será o desempenho geral.

O acesso ao disco e à rede é muito mais lento do que o acesso à memória, para minimizar o HDFS lê e grava o máximo possível.

Com esta informação de fundo em mente, você pode enfrentar fazer juntas com o Hive. Felizmente, a comunidade de desenvolvimento da Colméia foi realista e entendeu que os usuários desejariam e precisariam se juntar a tabelas com o HiveQL. Este conhecimento torna-se especialmente importante com o aumento de EDW. Casos de uso como arquivos "consultivos" geralmente requerem associações para análise de dados.

Aqui está um exemplo de junção de colmeia usando tabelas de dados de vôo. A lista mostra como criar e exibir uma tabela myflightinfo2007 e uma tabela myflightinfo2008 das tabelas FlightInfo2007 e FlightInfo2008 maiores. O plano ao longo do tempo era usar o CTAS criou as tabelas myflightinfo2007 e myflightinfo2008 para ilustrar como você pode realizar juntas na Hive.

A figura mostra o resultado de uma junção interna com as tabelas myflightinfo2007 e myflightinfo2008 usando o cliente SQuirreL SQL.

Hive suporta

equi-junções, um tipo específico de junção que usa apenas comparações de igualdade no predicado de junção. (ON m8. FlightNum = m7. FlightNum é um exemplo de equi-join.) Outros comparadores como Less Than (<) não são suportados. Essa restrição é apenas devido a limitações no mecanismo MapReduce subjacente. Além disso, você não pode usar OR na cláusula ON. A figura ilustra o exemplo anterior da união interna e outros dois tipos de junção de colmeia. Observe que você pode confirmar os resultados de uma junção interna, revisando o conteúdo das tabelas myflight2007 e myflight2008.

A figura a seguir ilustra como uma junção interna funciona usando um diagrama de Venn, caso você não esteja familiarizado com a técnica. A idéia básica aqui é que uma junção interna retorna os registros que combinam entre duas tabelas. Então, uma junção interna é uma ferramenta de análise perfeita para determinar quais vôos são os mesmos de JFK (Nova York) para ORD (Chicago) em julho de 2007 e julho de 2008.

Otimizar as junções de Hive é um tópico quente na comunidade Hive. Para obter mais informações sobre as técnicas de otimização atuais, consulte a página Aderir a otimização no wiki da Colméia.

Juntando tabelas com colmada - dummies

Escolha dos editores

Escolha e direcione seu baterista no Logic Pro X Editor - dummies

Escolha e direcione seu baterista no Logic Pro X Editor - dummies

O poder real de A personalidade da inteligência artificial do baterista está no editor do baterista. Para abrir o editor, clique duas vezes em uma região de baterista ou escolha Exibir → Mostrar editor (E). O editor abre na parte inferior da área de faixas. O editor do baterista é preenchido com personalidade. O lado esquerdo do editor do baterista é onde você muda as configurações ...

Editando Parâmetros de Controle Inteligente no Logic Pro X - dummies

Editando Parâmetros de Controle Inteligente no Logic Pro X - dummies

Depois de ter mapeado um controle para os parâmetros em Logic Pro X, você pode ajustar como o controle modifica os parâmetros. Por exemplo, você pode querer que um botão de volume nunca vá até o final e até o final. Você pode querer que o controle modifique um intervalo específico. Abra a área de Mapeamento de Parâmetros ...

Como adicionar loops de áudio no Logic Pro X - dummies

Como adicionar loops de áudio no Logic Pro X - dummies

Loops de áudio são arquivos de áudio e podem ser adicionado a faixas de áudio no Logic Pro X. No navegador de loop, você pode detectar um loop de Apple de áudio por seu ícone azul contendo uma forma de onda. Você pode editar o áudio Apple loops apenas como você pode uma região de áudio gravada. Para adicionar um loop de Apple de áudio para ...

Escolha dos editores

Aplicando um preenchimento sólido a uma forma no Office 2011 para Mac - manequins

Aplicando um preenchimento sólido a uma forma no Office 2011 para Mac - manequins

No Office 2011 para aplicações Mac, você pode aplicar um preenchimento para quase qualquer forma que não seja uma linha ponto-a-ponto. Isso inclui formas da paleta Mídia e formas em gráficos, como aqueles que representam séries. A cor de preenchimento é separada da cor da linha que envolve um formato, que é formatado ...

Aplicando Filtros em Imagens no Office 2011 para Mac - dummies

Aplicando Filtros em Imagens no Office 2011 para Mac - dummies

Disponíveis como parte da guia Formatar Imagem , a paleta Filtros no Office 2011 para Mac Ribbon possui uma variedade de efeitos especiais para escolher. Os filtros podem fazer a sua imagem parecer mais como um esboço, desenho ou pintura. No Word e no PowerPoint, você deve clicar duas vezes em uma imagem ou clicar em Formatar ...

Aplicar efeitos de texto a caixas de texto no Office 2011 para Mac - dummies

Aplicar efeitos de texto a caixas de texto no Office 2011 para Mac - dummies

Você pode criar tudo tipos de efeitos de texto no Office 2011 para Mac. Quando você clica no botão Efeitos na guia Formato da Faixa de opções, você pode escolher entre os seguintes efeitos, cada um dos quais tem um submenu que exibe opções pré-configuradas. A maioria tem um atalho para a caixa de diálogo Efeitos de texto. Shadow Reflection Glow ...

Escolha dos editores

O que você deve saber sobre as obrigações de receita para o exame da série 7 - manequins

O que você deve saber sobre as obrigações de receita para o exame da série 7 - manequins

Você precisará familiarizar-se com os Títulos de Receita para o Exame da Série 7. Ao contrário de títulos com garantia de impostos, os títulos de renda são emitidos para financiar instalações municipais que gerarão renda suficiente para suportar os títulos. Esses títulos levam dinheiro para certos serviços públicos, estradas de pedágio, aeroportos, hospitais, empréstimos estudantis, e assim por diante. Um município também pode emitir produtos industriais ...

O que você deve saber sobre as parcerias para o exame da série 7 - manequins

O que você deve saber sobre as parcerias para o exame da série 7 - manequins

Certamente as parcerias podem ser formado para executar qualquer tipo de negócio que você possa imaginar, mas o exame da Série 7 se concentra nos três grandes: imobiliário, leasing de equipamentos e petróleo e gás. Você precisa ser capaz de identificar os riscos e potenciais recompensas para cada um dos seguintes tipos de parcerias. Parceria imobiliária ...

Sucesso no Teste de Numeração: Multiplicando e Divulgando por Decimais - manequins

Sucesso no Teste de Numeração: Multiplicando e Divulgando por Decimais - manequins

No mental teste aritmético, você geralmente é solicitado a multiplicar ou dividir um número por uma decimal - algo como 10. 3 x 0. 01 ou 3. 34 ÷ 0. 2. Depois de conhecer as regras, eles são fáceis! Para multiplicar por um número decimal: Contar quantos dígitos são após o ponto decimal (o ponto) em ambos os números. Em ...