Lar Finanças Pessoais Juntando tabelas com colmada - dummies

Juntando tabelas com colmada - dummies

Vídeo: Quebra de Seção no Word: Como Fazer ou Remover (e suas diversas finalidades!) 2025

Vídeo: Quebra de Seção no Word: Como Fazer ou Remover (e suas diversas finalidades!) 2025
Anonim

Você provavelmente já sabe que especialistas em modelagem e design de banco de dados relacionais geralmente gastam muito tempo em design de bancos de dados normalizados ou esquemas <. O banco de dados normalização é uma técnica que protege contra perda de dados, redundância e outras anomalias à medida que os dados são atualizados e recuperados. Os especialistas seguem uma série de regras para chegar a um banco de dados normalizado, mas a Regra 1 é que você deve terminar com um

grupo de tabelas. (Uma tabela grande que armazena todos os seus dados não é normal - trocadilhos.) Existem exceções, dependendo do caso de uso, mas a lei de muitas tabelas geralmente é seguida de perto, especialmente para bancos de dados que suportam transações ou processamento analítico (business intelligence, por exemplo).

Quando você começa a consultar e analisar seus dados, as tabelas são juntas com base nas relações definidas entre elas usando o SQL - o que significa que os discos estão ocupados em seu servidor quando você começa a juntar tabelas e Os discos ocupados geralmente resultam em tempos de resposta mais lentos dos usuários. No entanto, a boa notícia é que RDBMSs e EDWs são sintonizados para fazer juntas o mais rápido possível.

O que tudo isso tem a ver com juntas na Hive? Bem, lembre-se de que o sistema operacional subjacente para o Hive é (surpresa!) Apache Hadoop: o MapReduce é o mecanismo para juntar tabelas e o Hadoop File System (HDFS) é o armazenamento subjacente. É uma boa notícia para o usuário que quer criar, gerenciar e analisar grandes tabelas com o Hive.

O potencial para desbloquear informações escondidas em estruturas de dados maciças é emocionante. No entanto, as juntas com o Hive geralmente não funcionam tão bem como no mundo RDBMS / EDW, de modo que os usuários pela primeira vez são freqüentemente surpreendidos pelo "pokiness" da resposta do sistema.

Lembre-se de que o MapReduce e o HDFS são otimizados para a produção com grandes análises de dados e que, neste mundo, latências - tempos de resposta dos usuários, em outras palavras - geralmente são altos. A Hive foi projetada para o processamento analítico em lote, não para o processamento rápido de transações on-line. Os usuários que desejam o melhor desempenho possível com SQL no Apache Hadoop possuem soluções disponíveis.

Mantenha essa dinâmica em mente quando você começar a juntar as tabelas com o Hive. Observe também que os arquitetos da Colmeia geralmente desnormalizam seus bancos de dados até certo ponto, então ter menos tabelas maiores é comum. É por isso que são fornecidos tipos de dados complexos, como STRUCTs e ARRAYs. Você pode usar esses tipos de dados complexos para empacotar muito mais dados em uma única tabela.

Como a tabela de colméia lê e escreve via HDFS geralmente envolve blocos de dados muito grandes, quanto mais dados você pode gerenciar completamente em uma tabela, melhor será o desempenho geral.

O acesso ao disco e à rede é muito mais lento do que o acesso à memória, para minimizar o HDFS lê e grava o máximo possível.

Com esta informação de fundo em mente, você pode enfrentar fazer juntas com o Hive. Felizmente, a comunidade de desenvolvimento da Colméia foi realista e entendeu que os usuários desejariam e precisariam se juntar a tabelas com o HiveQL. Este conhecimento torna-se especialmente importante com o aumento de EDW. Casos de uso como arquivos "consultivos" geralmente requerem associações para análise de dados.

Aqui está um exemplo de junção de colmeia usando tabelas de dados de vôo. A lista mostra como criar e exibir uma tabela myflightinfo2007 e uma tabela myflightinfo2008 das tabelas FlightInfo2007 e FlightInfo2008 maiores. O plano ao longo do tempo era usar o CTAS criou as tabelas myflightinfo2007 e myflightinfo2008 para ilustrar como você pode realizar juntas na Hive.

A figura mostra o resultado de uma junção interna com as tabelas myflightinfo2007 e myflightinfo2008 usando o cliente SQuirreL SQL.

Hive suporta

equi-junções, um tipo específico de junção que usa apenas comparações de igualdade no predicado de junção. (ON m8. FlightNum = m7. FlightNum é um exemplo de equi-join.) Outros comparadores como Less Than (<) não são suportados. Essa restrição é apenas devido a limitações no mecanismo MapReduce subjacente. Além disso, você não pode usar OR na cláusula ON. A figura ilustra o exemplo anterior da união interna e outros dois tipos de junção de colmeia. Observe que você pode confirmar os resultados de uma junção interna, revisando o conteúdo das tabelas myflight2007 e myflight2008.

A figura a seguir ilustra como uma junção interna funciona usando um diagrama de Venn, caso você não esteja familiarizado com a técnica. A idéia básica aqui é que uma junção interna retorna os registros que combinam entre duas tabelas. Então, uma junção interna é uma ferramenta de análise perfeita para determinar quais vôos são os mesmos de JFK (Nova York) para ORD (Chicago) em julho de 2007 e julho de 2008.

Otimizar as junções de Hive é um tópico quente na comunidade Hive. Para obter mais informações sobre as técnicas de otimização atuais, consulte a página Aderir a otimização no wiki da Colméia.

Juntando tabelas com colmada - dummies

Escolha dos editores

Como o Colégio dos Cardeais Escolhe um Novo Papa - manequins

Como o Colégio dos Cardeais Escolhe um Novo Papa - manequins

Quando um papa morre no cargo ou renuncia , como fez o Papa Bento XVI no início de 2013, o Colégio dos Cardeais (todos os cardeais da Igreja Católica) reuniu-se para eleger um novo papa. No prazo de 15 dias e no máximo 20 dias após a morte ou renúncia do papa, todos os cardeais ...

Como o Papa João Paulo II tornou-se um filósofo-Teólogo - manequins

Como o Papa João Paulo II tornou-se um filósofo-Teólogo - manequins

Quando João Paulo II ainda era Karol Wojtyła, uma adolescente no ensino médio, ele era tão bom em falar em público que ele foi escolhido para dar o endereço de boas-vindas a um dignitário muito especial visitando a escola um dia. O Príncipe Adam Stefan Stanisław Bonfatiusz Józef Sapieha (que é um bocado), o Arcebispo de Cracóvia e um ...

Assunção de Mary no Céu - manequins

Assunção de Mary no Céu - manequins

No calendário católico, o Dia da Assunção observa o dia em que Maria morreu e subiu - corpo e alma - no paraíso. A Igreja Católica professa que quando o tempo de Maria na Terra chegou ao fim, seu corpo foi colocado em um túmulo, mas seu corpo não caiu na Terra. Em vez disso, seu filho, Jesus Cristo, assumiu o seu corpo ...

Escolha dos editores

Como excluir fotos na sua Nikon D5300 - manequins

Como excluir fotos na sua Nikon D5300 - manequins

Você tem três opções para apagar imagens de uma memória quando estiver na sua Nikon D5300. Uma nota antes de começar: nenhuma das funções Excluir apaga as imagens que você protege. Para apagar fotos protegidas, primeiro você deve remover a proteção do arquivo. Como eliminar imagens uma de cada vez Durante a reprodução da imagem, você ...

Como exibir a visualização de visualização ao vivo em uma tela HDMI - manequins

Como exibir a visualização de visualização ao vivo em uma tela HDMI - manequins

Você pode conectar seu Câmera Nikon D7100 para um dispositivo HDMI (Interface Multimídia de Alta Definição) para ver a saída Live View na tela. Esse recurso é freqüentemente usado por fotógrafos de estúdio que querem uma visão maior do assunto do que o monitor da câmera fornece. Alguns problemas surgem quando você aproveita esta opção: ...

Como ativar a rotação automática da imagem em sua Nikon D5300 - manequins

Como ativar a rotação automática da imagem em sua Nikon D5300 - manequins

Quando tirar uma foto, o seu D5300 pode gravar a orientação da imagem - seja você segurado a câmera normalmente, criando uma imagem orientada horizontalmente ou girando a câmera do lado para filmar uma foto verticalmente orientada. Durante a reprodução, a câmera pode então ler os dados de orientação e girar automaticamente a imagem para que apareça ...

Escolha dos editores

Construir confiança para vender em mídias sociais - manequins

Construir confiança para vender em mídias sociais - manequins

Se o seu objetivo online é concluir uma venda para seus amigos e fãs de redes sociais, você terá que dar a essas pessoas um olhar frio e difícil. Alguns acreditam que mais é melhor. Mas mais o que? Você precisa se concentrar em pessoas que, no final do dia, podem comprar algo de você diretamente ou ...

Criar sua própria comunidade social para comércio - manequins

Criar sua própria comunidade social para comércio - manequins

Em um site comercial bem produzido, você muitas vezes vêem um link para uma área de comunidade social, que também pode levar o site externo para sites de redes sociais. Esta área é onde as páginas de serviço ao cliente e perguntas freqüentes vivem. Você também pode encontrar uma comunidade de clientes para clientes que incentive a participação de quem visita o site comercial. Se você escolher ...