Lar Finanças Pessoais Os Atributos de HBase - dummies

Os Atributos de HBase - dummies

Índice:

Vídeo: Big Data a favor dos negócios 2024

Vídeo: Big Data a favor dos negócios 2024
Anonim

HBase (base de dados Hadoop) é uma implementação Java do BigTable do Google. O Google define o BigTable como um "mapa ordenado multidimensional disperso, distribuído e disperso. "É uma definição bastante concisa, mas você também concordará que é um pouco do lado complexo. Para quebrar a complexidade do BigTable um pouco, a seguir é uma discussão de cada atributo.

Hbase é esparso

Como você pode ter adivinhado, o sistema de armazenamento de dados distribuído BigTable foi projetado para atender às demandas de dados importantes. Agora, os grandes aplicativos de dados armazenam muitos dados, mas o conteúdo de dados grandes também é frequentemente variável. Imagine uma tabela tradicional em um banco de dados da empresa armazenando as informações de contato do cliente, como mostrado:

Tabela de informações de contato do cliente tradicional

ID do cliente Sobrenome Primeiro nome Nome do meio Endereço de e-mail Endereço
00001 Smith John Timothy 1 Hadoop Lane, NY 11111
00002 Doe Jane NULL NULL 7 HBase Ave, CA 22222

Uma empresa ou pessoa física pode exigir um registro de dados completo para cada um de seus clientes ou componentes. Um bom exemplo é o seu médico, que precisa de todas as suas informações de contato para lhe fornecer cuidados adequados. Outras empresas ou indivíduos podem exigir apenas informações parciais de contato ou talvez precisem aprender essas informações ao longo do tempo.

Por exemplo, uma empresa de atendimento ao cliente pode processar chamadas telefônicas ou mensagens de e-mail para solicitações de serviço. Os clientes podem ou não escolher fornecer às empresas de serviços todas as suas informações de contato. No entanto, com cada interação ao longo do tempo, as empresas podem aprender mais sobre seus clientes, o que lhes permitirá oferecer um melhor serviço - por meio da emissão de alertas de serviço proativos, por exemplo.

Neste contexto, esparso significa que os campos em linhas podem estar vazios ou NULL, mas que não traz HBase para uma parada brusca. HBase pode lidar com o fato de que você não (ainda) conhece o nome do meio e o endereço de e-mail de Jane Doe, por exemplo.

Aqui está outro exemplo: um banco de dados para armazenar imagens de satélite. Acontece que o Google usa a tecnologia BigTable para armazenar imagens de satélite da Terra. Em quase todos os casos, sempre que as imagens são armazenadas, os metadados também são armazenados com ele.

Os metadados podem incluir o endereço da imagem ou apenas a latitude e a longitude se a imagem for capturada na região selvagem. Os metadados são variáveis ​​no conteúdo, então alguns campos serão NULL - e está OK.

Em ambos os exemplos, os conjuntos de dados coletados podem ser extremamente grandes - especialmente no segundo exemplo.As bases de dados de imagens são quase sempre medidas em terabytes ou às vezes em petabytes.

O HBase foi projetado para armazenar dados importantes, mas também foi projetado para armazenar registros de dados escassos, sem nenhum custo. Esta preocupação é crucial quando você está usando grandes aplicativos de dados! Armazenar alguns registros NULL ao longo de um milhão de linhas é um desperdício, mas tente imaginar o desperdício em um quadrillion de linhas!

Felizmente, essa foi uma consideração fundamental para os designers do Google e a comunidade HBase. Dados esparcidos são suportados sem desperdício de espaço de armazenamento dispendioso.

E não pára por aí. Considere o poder de um armazenamento de dados sem esquemas. A tabela mostra uma tabela de contato do cliente clássica. Quando as empresas projetam essas tabelas, eles sabem em frente o que querem armazenar. Em outras palavras, o esquema é fixo ; É definido mesmo antes do primeiro byte de informação ser armazenado na tabela.

Agora, e se, ao longo do tempo, um novo campo for necessário para um cliente? Que tal um identificador do Twitter ou um novo número de celular? Você está aparentemente preso com um esquema que não funciona mais para você.

Bem, a HBase resolve esse desafio também - você não pode simplesmente pular campos sem custos quando você não possui os dados, mas também adiciona dinamicamente campos (ou colunas no HBase vernáculo) tempo sem ter que redesenhar o esquema ou interromper as operações.

Então você pode pensar no HBase como uma loja de dados sem esquemas; ou seja, é fluido - você pode adicionar, subtrair ou modificar o esquema conforme você acompanha.

HBase é distribuído e persistente

O BigTable é um armazenamento de dados distribuído e persistente. Persistente significa simplesmente que os dados que você armazena no BigTable (e HBase, para esse assunto) persistirão ou permanecerão após o término do seu programa ou sessão. Isso é bastante direto - persistente significa que ele persiste - mas você deve passar um pouco mais de tempo pensando em como os dados são persistidos.

Em seu artigo BigTable, o Google descreveu o sistema de arquivos distribuídos conhecido como Google File System ou GFS. Acontece que, assim como o HBase é uma implementação de código aberto do BigTable, o HDFS é uma implementação de fonte aberta do GFS.

Por padrão, o HBase utiliza o HDFS para persistir seus dados no armazenamento em disco. Embora outras lojas de dados distribuídos possam ser usadas com a HBase, a grande maioria das instalações da HBase alavancam o HDFS. Isso faz todo o sentido, dado que a HBase é o "banco de dados Hadoop" - ei, é incorporado ao nome, por causa de Deus.

HDFS é uma tecnologia de habilitação chave não só para Hadoop, mas também para HBase. Ao armazenar dados no HDFS, a HBase oferece confiabilidade, disponibilidade, escalabilidade contínua, alto desempenho e muito mais - tudo em servidores distribuídos com custo efetivo!

HBase tem um mapa ordenado multidimensional

A partir do básico, um mapa (também conhecido como uma matriz associativa ) é uma coleção abstrata de pares de valores-chave, onde A chave é única. Esta definição é crucial para a sua compreensão da HBase porque o modelo de dados HBase é frequentemente descrito de diferentes maneiras - muitas vezes, de forma incompleta, como uma loja orientada a colunas.

O HBase é, no fundo, um armazenamento de dados de valor-chave onde cada chave é única - o que significa que aparece no máximo uma vez na loja de dados HBase. Além disso, o mapa está classificado e multidimensional. As chaves são armazenadas no HBase e ordenadas por ordem leteográfica. Cada valor pode ter várias versões, o que torna o modelo de dados multidimensional. Por padrão, as versões de dados são implementadas com um timestamp.

Os Atributos de HBase - dummies

Escolha dos editores

ASVAB Paragraph Comprehension Practice - dummies

ASVAB Paragraph Comprehension Practice - dummies

Um dos subtestes que você verá no ASVAB é o teste de compreensão de parágrafos. Esta parte do ASVAB está voltada para ver se você entende o que você lê. Exemplo de perguntas Parágrafo Tempo de compreensão: 13 minutos para 15 perguntas Instruções: A compreensão de parágrafo é o quarto subtesto no ASVAB. As perguntas são projetadas para ...

ASVAB Preparação: Números positivos e negativos - manequins

ASVAB Preparação: Números positivos e negativos - manequins

Certifique-se de que esteja familiarizado com o trabalho positivo e negativo números para o ASVAB. Os números podem ser positivos ou negativos. Um número positivo é qualquer número maior que zero. Então, 4; 3. 2; 793; 3/4; 1/2; e 430, 932, 843, 784 são todos números positivos. Números inferiores a zero são números negativos. Cada número positivo tem um negativo ...

ASVAB Dicas de compreensão de leitura - manequins

ASVAB Dicas de compreensão de leitura - manequins

As abordagens de compreensão de parágrafo no ASVAB geralmente são bastante curtas. Essas dicas podem ajudá-lo a compreender melhor as passagens de leitura ASVAB e as perguntas que as seguem: Compreenda o que a questão quer de você. Solicita o ponto principal, informações específicas ou uma conclusão baseada na informação apresentada? Releia o parágrafo ...

Escolha dos editores

A diferença entre análises analógicas e digitais - manequins

A diferença entre análises analógicas e digitais - manequins

Toda a eletrônica pode ser dividida em duas grandes categorias: analógico e digital. Um dos exemplos mais comuns da diferença entre dispositivos analógicos e digitais é um relógio. No relógio analógico, o tempo é representado por mãos que giram ao redor de um disco e apontam para uma localização no mostrador que representa ...

O papel dos átomos na eletrônica - dummies

O papel dos átomos na eletrônica - dummies

Os átomos são os blocos de construção básicos de tudo no universo, seja natural ou manmade. Eles são tão pequenos que você encontraria milhões deles em uma única partícula de poeira. A corrente elétrica, às vezes conhecida como eletricidade, é o movimento na mesma direção de partículas microscópicamente pequenas e eletricamente carregadas, chamadas elétrons. Cada átomo contém o ...

Roles de prótons e elétrons - dummies

Roles de prótons e elétrons - dummies

É Uma propriedade de certas partículas, como elétrons, prótons , e quarks (sim, quarks) que descreve como eles interagem uns com os outros. Existem dois tipos diferentes de carga elétrica, um pouco arbitrariamente chamada positiva e negativa (bem como as quatro direções cardinais são chamadas norte, sul, leste e oeste). Em geral, partículas que carregam ...

Escolha dos editores

Acesso 2007 All-In-One For Dummies Cheat Sheet - dummies

Acesso 2007 All-In-One For Dummies Cheat Sheet - dummies

Trabalhando no Access 2007 é mais fácil uma vez que você entenda executar a janela do Access 2007 e usar ferramentas para ajudar a gerenciar seus dados e responder suas perguntas.

Arrumando suas mensagens com o Lotus Notes 6 - manequins

Arrumando suas mensagens com o Lotus Notes 6 - manequins

Antes de enviar uma mensagem de e-mail no Lotus Notes 6, você pode definir Opções de entrega, Opções de segurança e Selos de humor. Use essas dicas de notas para informar o destinatário sobre o quão quente é sua mensagem ou qual é o seu humor; ou solicitar confirmação de entrega, definir o tempo de entrega e muito mais. Depois de terminar de compor o corpo ...

10 Ofícios de teclado do Office 2016 - dummies

10 Ofícios de teclado do Office 2016 - dummies

Um tema comum do Office 2016 é que todos os programas se parecem e funcionam. Depois de aprender a usar o Word, você achará que não é muito mais difícil aprender o Excel ou o PowerPoint porque as guias do Ribbon funcionam de maneiras semelhantes. Ainda melhor, os mesmos comandos de teclas funcionam de forma semelhante em todos os programas do Office 2016. Por ...