Os Atributos de HBase - dummies
HBase (base de dados Hadoop) é uma implementação Java do BigTable do Google. O Google define o BigTable como um "mapa ordenado multidimensional disperso, distribuído e disperso. "É uma definição bastante concisa, mas você também concordará que é um pouco do lado complexo. Para quebrar a complexidade do BigTable um pouco, a seguir é uma discussão de cada atributo. Hbase é esparso ...
Origem e Design de Hadoop - dummies
Então, o que é exatamente isso com o nome engraçado - Hadoop? No seu núcleo, o Hadoop é uma estrutura para armazenar dados em grandes clusters de hardware de commodities - hardware de computador todos os dias acessível e facilmente disponível - e executando aplicativos contra esses dados. Um cluster é um grupo de computadores interligados (conhecido como ...
A arquitetura do porco em Hadoop - dummies
"Simples" geralmente significa "elegante" quando se trata de desenhos arquitetônicos para Essa nova mansão do Vale do Silício que você planejou quando o dinheiro começa a rolar depois de implementar o Hadoop. O mesmo princípio se aplica à arquitetura de software. O porco é composto por dois componentes (count 'em, two): O próprio idioma: como prova de que os programadores ...
MapReduce Application Flow em Hadoop - dummies
No seu núcleo, MapReduce é um modelo de programação para o processamento de conjuntos de dados que são armazenados de forma distribuída nos nós de escravo de um cluster Hadoop. O conceito-chave aqui é dividir e conquistar. Especificamente, você deseja quebrar um grande conjunto de dados em muitas peças menores e processá-las em paralelo com o mesmo algoritmo. ...
O Pig Latin Application Flow em Hadoop - dummies
No seu núcleo, Pig Latin é uma linguagem de fluxo de dados, onde você define um fluxo de dados e uma série de transformações que são aplicadas aos dados à medida que ele flui através de sua aplicação. Isso contrasta com um idioma de fluxo de controle (como C ou Java), onde você escreve uma série de instruções. No fluxo de controle ...
Os Princípios de Design Sqoop - dummies
Quando se trata de Sqoop, uma imagem geralmente vale mais do que mil palavras, então Confira a figura, o que lhe dá uma visão panorâmica da arquitetura Sqoop. A idéia por trás do Sqoop é que ele alavanca as tarefas do mapa - tarefas que executam a importação e exportação paralela de tabelas de banco de dados relacionais - diretamente de dentro ...
A Fase de Redução do Fluxo de Aplicação MapReduce do Hadoop - dummies
A fase Reduzir processa as chaves e suas listas individuais de valores para que o que normalmente é retornado ao aplicativo cliente é um conjunto de pares de chave / valor. Aqui está o golpe de explosão até agora: um grande conjunto de dados foi dividido em partes menores, chamadas de divisões de entrada, e instâncias individuais de tarefas de mapeador processaram cada ...
O Navegador da Web como Cliente de Arroz - dummies
Usando a CLI da Colmeia requer apenas um comando para iniciar o shell da Arroz, mas quando você deseja acessar a Hive usando um navegador da Web, primeiro você precisa iniciar o Servidor HWI e depois apontar seu navegador para a porta na qual o servidor está escutando. A figura a seguir ilustra o modo como esse tipo de cliente da invasão ...
Da Fase do mapa do MapReduce Application Flow do Hadoop - dummies
Um aplicativo MapReduce processa os dados em divisões de entrada em um recorde por registro e que cada registro é entendido pelo MapReduce para ser um par de chave / valor. Depois que as divisões de entrada foram calculadas, as tarefas do mapeador podem começar a processá-las - ou seja, logo após a instalação de agendamento do Gerenciador de Recursos atribuir-lhes os recursos de processamento. ...
A arquitetura YARN em Hadoop - dummies
YARN, para aqueles que acabam de chegar a esse partido em particular, significa Yet Another Resource Negociador, uma ferramenta que permite que outras estruturas de processamento de dados sejam executadas no Hadoop. A glória da YARN é que ela apresenta Hadoop com uma solução elegante para uma série de desafios de longa data. O YARN destina-se a proporcionar uma eficiência e ...
O que o SQL Access realmente significa - dummies
Várias empresas estão investindo pesadamente para gerar projetos de código aberto e soluções proprietárias para Acesso SQL aos dados Hadoop. Quando você ouve o termo acesso SQL, você deve saber que está confiando em alguns pressupostos básicos: padrões de idioma: o padrão mais importante, é claro, implica o próprio idioma. Existem muitas soluções "semelhantes a SQL" ...
Mestre de aplicativos do yARN em Hadoop - dummies
Ao contrário de outros componentes do YARN (Yet Another Resource Negotiator), nenhum componente no Hadoop 1 mapeia diretamente para o Application Master. Em essência, este é o trabalho que o JobTracker fez para cada aplicativo, mas a implementação é radicalmente diferente. Cada aplicação executada no cluster Hadoop tem sua própria instância dedicada do Application Master, que realmente é executada em ...
A fase aleatória do fluxo de aplicativos MapReduce do Hadoop - manequins
Após a fase do Mapa e antes do início do período A fase de redução é um processo de transferência, conhecido como shuffle e classificar. Aqui, os dados das tarefas do mapeador são preparados e movidos para os nós onde as tarefas redutoras serão executadas. Quando a tarefa do mapeador está concluída, os resultados são classificados por chave, particionados se ...
Quando HBase faz sentido para você? - dummies
Então, quando você deve considerar usar o HBase? Embora a resposta a esta questão não seja necessariamente direta para todos, para começar você deve claramente ter um grande requisito de dados e recursos de hardware suficientes. Um grande requisito de dados: Terabytes para petabytes - caso contrário, você terá muitos servidores ociosos em seus racks. Recursos de hardware suficientes: cinco servidores ...
O Gerenciador de Nó do yARN em Hadoop - dummies
Cada nó escravo em Yet Another Resource Negotiator (YARN) possui um daemon Node Manager , que atua como um escravo para o Resource Manager. Tal como acontece com o TaskTracker, cada nó escravo possui um serviço que o vincula ao serviço de processamento (Node Manager) e ao serviço de armazenamento (DataNode) que permitem que o Hadoop seja um sistema distribuído. ...
O Gerenciador de recursos do yARN - manequins
O componente principal do YARN (Yet Another Resource Negotiator) é o Resource Manager, que regula todos os recursos de processamento de dados no cluster Hadoop. Simplificando, o Resource Manager é um programador dedicado que atribui recursos aos pedidos de aplicativos. Suas únicas tarefas são manter uma visão global de todos os recursos no cluster, gerenciando ...
Rastreamento JobTracker e TaskTracker no Hadoop 1 - dummies
MapReduce processamento no Hadoop 1 é tratado pelo JobTracker e TaskTracker daemons. O JobTracker mantém uma visão de todos os recursos de processamento disponíveis no cluster Hadoop e, à medida que os pedidos de aplicativos entram, ele agende e os implanta nos nós TaskTracker para execução. À medida que os aplicativos estão em execução, o JobTracker recebe atualizações de status do ...
Caching de dados de alta velocidade com NoSQL - dummies
Com NoSQL, você possui cache de dados de alta velocidade. Imagine que você é caixeiro de banco com três colegas trabalhando. Cada um de vocês tem uma linha de pessoas a serem servidas. Um dos clientes, no entanto, continua a entrar na fila para perguntar se o seu cheque foi encaminhado ainda e o valor creditado em sua conta. Quando você ...
Como comunicar informações de Big Data - dummies
Grandes dados podem ajudá-lo a obter informações. As empresas ganham vantagem competitiva quando a informação certa é entregue às pessoas certas no momento certo. Isso significa extrair informações e informações dos dados e comunicá-los aos tomadores de decisão de uma maneira que eles entenderão facilmente. Afinal, as pessoas são menos propensas a agir se ...
Zookeeper e HBase Confiabilidade - dummies
Zookeeper é um cluster distribuído de servidores que, coletivamente, fornece serviços confiáveis de coordenação e sincronização para aplicativos em cluster . É certo que o nome "Zookeeper" pode parecer primeiramente uma escolha estranha, mas quando você entende o que faz para um cluster HBase, você pode ver a lógica por trás disso. Quando você está construindo e depurando distribuído ...
De um modelo RDBMS para HBase - dummies
Se você estiver enfrentando a fase de projeto para sua aplicação e você acredita que o HBase seria um bom ajuste, então, projetar suas chaves e esquema de linha para se adequar ao modelo de dados HBase e a arquitetura é a abordagem certa. No entanto, às vezes faz sentido mover um banco de dados originalmente projetado para um RDBMS para o HBase. A ...
Janelas no HiveQL - dummies
O conceito de janelas, introduzido no padrão SQL: 2003, permite que o programador SQL crie um quadro dos dados contra o qual as funções agregadas e outras janelas podem funcionar. O HiveQL agora suporta janelas por padrão SQL. Os exemplos são bastante úteis ao explicar as funções de janelas e agregados. Os atrasos de saída vêm com o território ao voar ...
Acesso de chave de alta velocidade com NoSQL - dummies
Lojas de valores-chave no NoSQL são tudo sobre velocidade. Você pode usar várias técnicas para maximizar essa velocidade, desde o armazenamento em cache de dados, até múltiplas cópias de dados ou usando as estruturas de armazenamento mais apropriadas. Cache de dados na memória Como os dados são acessados facilmente quando armazenados em memória de acesso aleatório (RAM), escolhendo uma loja de valor-chave que ...
Como desenvolver um ambiente de dados grande bem governado e seguro - dummies
Um pensamento pensativo e uma abordagem bem governada para a segurança pode conseguir mitigação contra muitos riscos de segurança. Você precisa desenvolver um ambiente de dados seguro e seguro. Uma coisa que você pode fazer é avaliar o seu estado atual. Em um grande ambiente de dados, a segurança começa com a avaliação do seu estado atual. Um ótimo lugar para começar é ...
Como controlar a ordem variável em um conjunto de dados - manequins
A ordem das variáveis (colunas) em um conjunto de dados geralmente é apenas uma questão de como eles foram organizados no arquivo de origem ou a consulta do banco de dados que foi usada para importá-los. Esse acordo pode não ser conveniente para você. Se você tem muitas variáveis, pode ser difícil detectar as que você deseja ...
Como obter dados de KNIME - dummies
Sua primeira etapa prática com dados está obtendo de onde quer que seja é para o lugar onde você precisa. Os formatos de texto são comuns, e é provável que você os encontre com freqüência. Um dos mais comuns é o texto com valores separados por vírgula (. Csv). KNIME. com AG é uma pequena empresa de software e serviços focada em dados ...
Como obter dados da Orange - dummies
O Laboratório de Bioinformática da Faculdade de Ciência da Informática e da Informação, Universidade de Ljubljana, na Eslovênia, desenvolve a Orange em cooperação com uma comunidade de código aberto. Para abrir os dados da amostra em Orange, siga estas etapas:
Como obter dados de RapidMiner - dummies
RapidMiner é uma pequena empresa de software e serviços focada na mineração de dados. Oferece um produto de mineração de dados com uma interface de programação visual. Para abrir os dados da amostra no RapidMiner, siga estas etapas:
Como obter dados de Weka - dummies
Membros da faculdade de Waikato da universidade desenvolvem ferramentas como parte de seu trabalho para o avanço do campo da aprendizagem mecânica. Essas ferramentas são usadas no ensino, pelos cientistas e na indústria. A Weka é a ferramenta de mineração de dados de propósito geral que oferece uma interface de programação visual e uma ampla gama de recursos analíticos. MOA é para mineração em tempo real ...
Manipulando Partições no NoSQL - dummies
A palavra partição é usada para dois conceitos diferentes no campo NoSQL. Uma partição de dados é um mecanismo para garantir que os dados sejam distribuídos uniformemente em um cluster. Por outro lado, uma partição de rede ocorre quando duas partes do mesmo cluster de banco de dados não podem se comunicar. Em sistemas de cluster muito grandes, é cada vez mais provável que ...
Como criar negócios - dummies
Como um mineiro de dados, você deseja ferramentas de mineração de dados, tempo para se dedicar um projeto de mineração de dados que vale a pena, ou talvez apenas a oportunidade de fazer algo novo e diferente da rotina usual. No seu caso de negócios, você não está se preparando para fazer com que ninguém e todos desejem a mineração de dados. Você está tentando convencer um grupo específico ...
Como relacionar uma variável a outra com Scatterplots - dummies
O primeiro passo para a modelagem preditiva é relacionar variáveis entre si. Uma ferramenta simples e notável para isso é o diagrama de dispersão. É usado para relacionar uma medida contínua com outra. Os mineradores de dados às vezes esticam as regras e usam-na com variáveis categóricas também. O eixo horizontal (x) do gráfico representa valores de um ...
Como incorporar grandes dados no diagnóstico de doenças - dummies
Em todo o mundo, dados importantes As fontes de cuidados de saúde estão sendo criadas e disponibilizadas para integração nos processos existentes. Os dados de ensaios clínicos, dados genéticos e de mutação genética, dados de terapêutica protéica e muitas outras novas fontes de informação podem ser colhidos para melhorar os processos diários de saúde. A mídia social pode e será usada para aumentar ...
Bancos de dados híbridos NoSQL - dummies
Dado o intervalo de tipos de dados gerenciados por bancos de dados NoSQL, você está perdoado se você o pensa precisa de três bancos de dados diferentes para gerenciar todos os seus dados. No entanto, embora cada banco de dados NoSQL tenha seu público principal, vários podem ser usados para gerenciar duas ou mais estruturas de dados. Alguns até fornecem pesquisa no topo deste núcleo ...
Instalando o Python no Linux para trabalhar com Algoritmos - manequins
Você usa a linha de comando para instalar o Anaconda no Linux - você não possui nenhuma opção de instalação gráfica. Antes de poder executar a instalação, você deve baixar uma cópia do software Linux no site Continuum Analytics. O seguinte procedimento deve funcionar bem em qualquer sistema Linux, se você usa a versão de 32 bits ou 64 bits ...
Como priorizar a grande qualidade de dados - manequins
Obter a perspectiva correta sobre a qualidade dos dados pode ser muito desafiador no mundo de grandes dados. Com a maioria das grandes fontes de dados, você deve assumir que você está trabalhando com dados que não estão limpos. Na verdade, a abundância esmagadora de dados aparentemente aleatórios e desconectados em fluxos de dados de redes sociais ...
Instalando o Python no MacOS para trabalhar com algoritmos - dummies
A instalação do Mac OS X vem apenas em um formulário : 64 bits. Antes de poder executar a instalação, você deve baixar uma cópia do software Mac no site Continuum Analytics. Os arquivos de instalação vêm em duas formas. O primeiro depende de um instalador gráfico; O segundo depende da linha de comando. A versão de linha de comando ...
Integre grandes dados com o armazenamento de dados tradicional - manequins
Enquanto os mundos dos grandes dados e os dados tradicionais O armazém se cruzará, é improvável que eles se fundam em breve. Pense em um data warehouse como um sistema de registro para business intelligence, bem como um gerenciamento de relacionamento com clientes (CRM) ou sistema de contabilidade. Estes sistemas são altamente estruturados e otimizados para fins específicos. Além disso, ...
Como usar levantamentos para pesquisas Data Mine - dummies
São úteis para coletar dados sobre quase todos os aspectos do ser humano vida. Você só pode ignorar pesquisas se sua profissão não tem nada a ver com pessoas, como dizer, astrofísica. Então, novamente, os astrofísicos precisam de pessoas para financiar suas pesquisas e querem que as pessoas visitem os planetários, para que eles também precisem de pesquisas! Aqui estão exemplos de ...
Instalando o Python no Windows para trabalhar com Algoritmos - dummies
Anaconda vem com um aplicativo de instalação gráfica para o Windows, então, obter uma boa instalação significa usar um assistente, como faria para qualquer outra instalação. Claro, você precisa de uma cópia do arquivo de instalação antes de começar. O seguinte procedimento deve funcionar bem em qualquer sistema Windows, seja você usar o ...