Gráficos Como estruturas de dados algorítmicas - dummies
Os gráficos são uma forma de estrutura de dados comum usada em algoritmos. Você vê gráficos usados em lugares como mapas para GPS e todos os tipos de outros locais onde a abordagem de cima para baixo de uma estrutura de árvore não funcionará. Um gráfico é uma espécie de extensão de árvore. Tal como acontece com as árvores, você tem nós que se conectam ...
3 Configurações de cluster hadoop - dummies
Muitas das decisões que você precisa fazer em termos de composição de racks e rede são dependente da escala do seu cluster Hadoop. Possui três permutações principais.
Obtendo Algoritmos no Negócio - manequins
A raça humana está agora em uma interseção incrível de volumes de dados sem precedentes, gerados por cada vez mais hardware pequeno e poderoso, e analisado por algoritmos que este mesmo processo ajudou a desenvolver. Não é simplesmente uma questão de volume, o que por si só é um desafio difícil. Como formalizada pela empresa de pesquisa Gartner em 2001 e ...
Gordon Moore transforma o poder em dados grandes - dummies
Em 1965, Gordon Moore, co-fundador da Intel e Fairchild Semiconductor (duas empresas gigantes que produzem componentes eletrônicos para eletrônicos e computadores), declarou em um artigo de revista eletrônica intitulado "Cramming More Components Onto Integrated Circuits" que a quantidade de componentes encontrados em circuitos integrados dobraria todos os anos para a próxima década. Na época, os transistores ...
Apache Drill - dummies
Apache Drill é um projeto candidato na incubadora Apache. Apache Drill também não é especialmente doente. As tecnologias candidatas da Fundação Apache Software Foundation (ASF) começam como projetos de incubadoras antes de se tornarem tecnologias oficiais da ASF. Você pode ler sobre a Incubadora Apache. Você pode ler sobre Broca. Inspirado pela tecnologia Dremel do Google, o objetivo de desempenho estabelecido para ...
Apache Bigtop e Hadoop - dummies
Para ajudá-lo a começar com Hadoop, aqui estão instruções sobre como baixar e configurar rapidamente Hadoop em seu próprio laptop. Seu cluster será executado em modo pseudo-distribuído em uma máquina virtual, portanto, você não precisará de hardware especial. Uma máquina virtual (VM) é um computador simulado que você pode executar em ...
Cloudera Impala e Hadoop - dummies
Cloudera é um dos principais fornecedores de software e serviços Apache Hadoop no grande mercado de dados. Como o Apache Drill, a tecnologia Impala da Cloudera procura melhorar o tempo de resposta interativa das consultas para usuários Hadoop. O Apache Hive forneceu um mecanismo de consulta familiar e poderoso para os usuários do Hadoop, mas os tempos de resposta das consultas são muitas vezes inaceitáveis devido à dependência da Hive ...
Fatores de forma de implantação alternativos para Hadoop - dummies
, Porém o Hadoop funciona melhor quando ele está instalado em um computador físico, onde o O processamento tem acesso direto a armazenamento e rede dedicados, o Hadoop possui implantações alternativas. E embora eles sejam menos eficientes do que o hardware dedicado, em certos casos, alternativas são opções valiosas. Servidores virtualizados Uma tendência importante nos centros de TI na última década ...
ACID versus BASE Data Stores - dummies
Uma marca registrada de sistemas de banco de dados relacionais é algo conhecido como conformidade ACID. Como você pode ter adivinhado, o ACID é um acrônimo - as letras individuais, destinadas a descrever uma característica das transações de banco de dados individuais, podem ser expandidas conforme descrito nesta lista: Atomicidade: a transação do banco de dados deve ter sucesso ou falhar completamente. O sucesso parcial é ...
Configurando fluxos de trabalho Oozie - manequins
Como um mecanismo de fluxo de trabalho, o Oozie permite que você execute um conjunto de aplicativos Hadoop em uma seqüência específica conhecida como um fluxo de trabalho. Você pode configurar os fluxos de trabalho da Oozie de uma das três maneiras, dependendo das circunstâncias particulares. Você pode usar o padrão de configuração. Arquivo xml: define parâmetros que não mudam para o fluxo de trabalho. O emprego. arquivo de propriedades: Define ...
10 Recursos hadoop Digno de um marcador - dummies
Seguintes são dez fantásticos recursos Hadoop que merecem criar um marcador no seu navegador. Esses recursos ajudam você a criar um plano de aprendizagem ao longo da vida para o Hadoop. Sistema nervoso central: Apache. org O Apache Software Foundation (ASF) é a comunidade central para projetos de software de código aberto. Não apenas qualquer projeto pode ser um projeto Apache - ...
Transformação de dados em Hadoop - dummies
A idéia de motores ETL inspirados em Hadoop ganhou muita tração nos últimos anos. Afinal, o Hadoop é uma plataforma flexível de armazenamento e processamento de dados que pode suportar enormes quantidades de dados e operações nesses dados. Ao mesmo tempo, é tolerante a falhas, e oferece a oportunidade de custo de capital e software ...
Blocos de dados no sistema de arquivos distribuídos Hadoop (HDFS) - manequins
Quando você armazena um arquivo no HDFS, o sistema o destrói em um conjunto de blocos individuais e armazena esses blocos em vários nós escravos no cluster Hadoop. Esta é uma coisa completamente normal, já que todos os sistemas de arquivos quebram arquivos em blocos antes de armazená-los no disco. HDFS não tem ...
Data Warehouse Modernização com Hadoop - dummies
Armazéns de dados estão agora sob estresse, tentando lidar com o aumento das demandas em seus finitos Recursos. Hadoop pode fornecer alívio significativo nesta situação do depósito de dados. O aumento rápido da quantidade de dados gerados no mundo também afetou os data warehouses porque os volumes de dados que eles gerenciam estão aumentando - em parte porque ...
Desenvolvendo fluxos de trabalho Oozie em Hadoop - dummies
Os fluxos de trabalho oozie são, no núcleo, gráficos direcionados, onde você pode definir ações (Aplicativos Hadoop) e fluxo de dados, mas sem loop - o que significa que você não pode definir uma estrutura onde você executaria uma operação específica uma e outra vez até que alguma condição seja atendida (um para loop, por exemplo). Os fluxos de trabalho da Oozie são bastante flexíveis em que ...
Comparando Hadoop Distributions - dummies
Você verá que o ecossistema Hadoop possui muitas partes componentes, que existem como suas próprias Projetos Apache. Como o Hadoop cresceu consideravelmente e enfrenta mudanças significativas, diferentes versões desses componentes da comunidade de código aberto podem não ser totalmente compatíveis com outros componentes. Isso representa dificuldades consideráveis para as pessoas que procuram ...
Fatores que aumentam a escala de análise estatística em Hadoop - dummies
A razão pela qual as pessoas amostram seus dados Antes de executar análises estatísticas no Hadoop, esse tipo de análise geralmente requer recursos de computação significativos. Não se trata apenas de volumes de dados: existem cinco fatores principais que influenciam a escala da análise estatística: este é fácil, mas devemos mencioná-lo: o volume de dados em ...
Comprimindo dados em Hadoop - dummies
Os enormes volumes de dados que são realidades em uma implantação Hadoop típica tornam a compressão uma necessidade. A compressão de dados definitivamente lhe poupa uma grande quantidade de espaço de armazenamento e é certo acelerar o movimento desses dados em todo o cluster. Não surpreendentemente, vários esquemas de compressão disponíveis, chamados de codecs, estão disponíveis para ...
Hadapt e Hadoop - dummies
No final de 2010, a Hadapt foi formada como um start-up por dois estudantes da Universidade de Yale e um professor assistente de informática. O professor Daniel Abadi e Kamil Bajda-Pawlikowski, um estudante de doutorado do departamento de informática de Yale, estiveram trabalhando no projeto de pesquisa HadoopDB. Depois que este artigo foi publicado, Justin Borgman, um estudante de ...
Google Dremel e Hadoop - dummies
Para a maioria das pessoas, o termo Dremel traz à mente uma solução acessível de alta velocidade, ferramenta de torque que funciona bem para uma variedade de empregos ao redor da casa. Mas você sabia que o Google criou um Dremel? Ao invés de produzir outra ferramenta mecânica de mão, o Google escolheu uma ferramenta de software rápida destinada a análise interativa de dados importantes. ...
Hadoop e Hive - dummies
Para fazer uma longa história curta, a Hive fornece Hadoop com uma ponte para o mundo RDBMS e fornece uma Dialecto SQL conhecido como Hive Query Language (HiveQL), que pode ser usado para executar tarefas semelhantes a SQL. Essa é a grande notícia, mas há mais para a Hive do que atende o olho, como dizem, ou mais aplicações de ...
Nós de borda em Hadoop Clusters - dummies
Os nós de borda são a interface entre o cluster Hadoop e a rede externa. Por esse motivo, eles às vezes são chamados de nós de gateway. Mais comumente, os nós de borda são usados para executar aplicativos de cliente e ferramentas de administração de cluster. Eles também são freqüentemente usados como áreas de teste para dados que são transferidos para o cluster Hadoop. Como tal, Oozie, ...
Detecção de fraude com Hadoop - dummies
O grande volume de transações torna mais difícil detectar fraude devido ao volume de dados, ironicamente, esse mesmo desafio pode ajudar a criar melhores modelos preditivos de fraude - uma área onde Hadoop brilha. No mundo interconectado de hoje, o volume e a complexidade das transações tornam mais difícil do que nunca encontrar fraude. O que usou ...
Federação do sistema de arquivos distribuídos (HDFS) - dummies
A solução para expandir os clusters Hadoop indefinidamente é federar o NameNode. Antes de Hadoop 2 entrar na cena, os aglomerados de Hadoop tiveram que viver com o fato de que o NomeNode colocava limites no grau em que podiam escalar. Poucos grupos conseguiram escalar além de 3, 000 ou 4 000 nós. A necessidade do NameNode de manter registros para ...
Sistema de arquivos distribuídos hadoop (HDFS) Alta disponibilidade - manequins
Freqüentemente na infância de Hadoop, uma grande quantidade A discussão foi centrada na representação do NomeNode de um único ponto de falha. Hadoop, em geral, sempre teve uma arquitetura robusta e tolerante a falhas, com exceção desta área chave. Sem o NameNode, não existe um cluster Hadoop. Usando o Hadoop 2, você pode configurar o HDFS para que haja ...
Hadoop como um mecanismo de pré-processamento de dados - manequins
Um dos primeiros casos de uso para Hadoop na empresa era como um mecanismo de transformação programática usado para pré-processar dados vinculados para um data warehouse. Essencialmente, este caso de uso aproveita o poder do ecossistema Hadoop para manipular e aplicar transformações em dados antes de ser carregado em um data warehouse. Embora a transformação real ...
Hadoop como um arquivo consultivo de dados do armazenamento a frio - manequins
Uma infinidade de estudos mostram que a maioria dos dados Em um depósito de dados da empresa raramente é consultado. Os fornecedores de banco de dados responderam a essas observações implementando seus próprios métodos para classificar os dados que são colocados onde. Um método ordena o universo de dados em designações de calor, calor ou frio, onde dados quentes (às vezes chamados ativos ...
Hadoop como Destino de Dados de Arquivamento - dummies
O custo de armazenamento barato para Hadoop mais a capacidade de consultar dados Hadoop Com o SQL, o Hadoop é o principal destino para dados arquivísticos. Este caso de uso tem um impacto baixo na sua organização porque você pode começar a criar sua habilidade Hadoop definida em dados que não estão armazenados em sistemas críticos de desempenho. Além disso, você não ...
Comandos de administração do hadoop - dummies
Qualquer administrador do Hadoop que valha o seu sal deve dominar um conjunto abrangente de comandos para a administração de cluster. A lista a seguir resume os comandos mais importantes, indicando o que o comando faz, bem como a sintaxe e exemplos. Conheça-os, e você avançará um longo caminho pelo caminho da sabedoria Hadoop. balanceador: executa o utilitário de balanceamento de cluster. ...
Sistema de arquivos distribuídos hadoop (HDFS) para grandes projetos de dados - dummies
O arquivo distribuído Hadoop O sistema é uma abordagem versátil, resiliente e agrupada para gerenciar arquivos em um grande ambiente de dados. O HDFS não é o destino final dos arquivos. Em vez disso, é um serviço de dados que oferece um conjunto único de recursos necessários quando os volumes de dados e a velocidade são altos. Como os dados são escritos uma vez e ...
Hadoop MapReduce for Big Data - dummies
Para entender completamente as capacidades do Hadoop MapReduce, é importante diferenciar entre MapReduce ( o algoritmo) e uma implementação do MapReduce. Hadoop MapReduce é uma implementação do algoritmo desenvolvido e mantido pelo projeto Apache Hadoop. É útil pensar sobre esta implementação como um motor MapReduce, porque é exatamente isso que ...
Hadoop Rack Considerações - dummies
Um princípio básico do Hadoop está se expandindo com nodos escravos adicionais para atender o crescente armazenamento de dados e - demandas de processamento. Em um modelo de escala, você deve considerar cuidadosamente o design do cluster, porque dezenas, e até centenas, de nós escravos, em última instância, precisam ser armazenadas, alimentadas, conectadas em rede e resfriadas. Factores do formulário do servidor Uma das primeiras escolhas ...
Hadoop Integração com R - dummies
No início, grandes dados e R não eram amigos naturais. A programação R exige que todos os objetos sejam carregados na memória principal de uma única máquina. As limitações desta arquitetura são rapidamente percebidas quando grandes dados se tornam parte da equação. Em contraste, os sistemas de arquivos distribuídos, como o Hadoop, faltam fortes ...
Como obter o Apache Oozie configurado em Hadoop - dummies
O Oozie apache está incluído em todos os grandes Hadoop distribuição, incluindo Apache Bigtop. No seu cluster Hadoop, instale o servidor Oozie em um nó de borda, onde você também executará outras aplicações cliente contra os dados do cluster, como mostrado. Os nós de borda são projetados para ser um gateway para a rede externa para o cluster Hadoop. Este ...
Importando dados com Sqoop-dummies
Pronto para mergulhar na importação de dados com o Sqoop? Comece por dar uma olhada na figura, que ilustra os passos em uma operação de importação típica Sqoop a partir de um RDBMS ou um sistema de data warehouse. Nada muito complicado aqui - apenas uma tabela de dados de produtos típicos de uma empresa de ficção (típica) importada para uma ...
Imagem Classificação com Hadoop - dummies
Classificação de imagem requer uma quantidade significativa de recursos de processamento de dados, no entanto, que limitou a escala de implantações. A classificação da imagem é um tópico quente no mundo Hadoop, porque nenhuma tecnologia convencional era capaz - até Hadoop surgir - de portas abertas para esse tipo de processamento caro em tão grande e eficiente ...
Modos distribuídos e distribuídos de scripts de porco correntes em Hadoop - dummies
Antes de poder executar o seu primeiro Script de porco em Hadoop, você precisa ter um controle sobre como os programas Pig podem ser empacotados com o servidor Pig. O porco tem dois modos para executar scripts: Modo local: todos os scripts são executados em uma única máquina, sem requerer Hadoop MapReduce e HDFS. Isso pode ser útil para ...
Gerenciar grandes recursos de dados e aplicativos com Hadoop YARN - dummies
Agendamento de tarefas e rastreamento de dados grandes são partes integrantes do Hadoop MapReduce e podem ser usadas para gerenciar recursos e aplicativos. As primeiras versões do Hadoop suportaram um sistema rudimentar de trabalho e rastreamento de tarefas, mas como a combinação de trabalho suportado pelo Hadoop mudou, o planejador não conseguiu acompanhar. Em particular, o antigo ...
Juntando tabelas com colmada - dummies
Você provavelmente já sabe que especialistas em modelagem e design de banco de dados relacionais geralmente gastam muitos deles tempo de criação de bases de dados normalizadas ou esquemas. A normalização de banco de dados é uma técnica que protege contra perda de dados, redundância e outras anomalias à medida que os dados são atualizados e recuperados. Os especialistas seguem uma série de regras para chegar a um ...
Gerenciando Big Data com Hadoop: HDFS e MapReduce - dummies
Hadoop, uma estrutura de software de fonte aberta , usa HDFS (o sistema de arquivos distribuídos Hadoop) e MapReduce para analisar grandes dados em clusters de hardware de commodities, isto é, em um ambiente de computação distribuída. O sistema de arquivos distribuídos Hadoop (HDFS) foi desenvolvido para permitir que as empresas gerenciem mais facilmente grandes volumes de dados de forma simples e pragmática. Hadoop ...