Rede e Hadoop Clusters - dummies
Como com qualquer sistema distribuído, a rede pode criar ou quebrar um cluster Hadoop: Não faça "Vá barato". "Uma grande conversa ocorre entre os nós mestres e os nós escravos em um cluster Hadoop que é essencial para manter o cluster em execução, portanto, switches de classe empresarial são definitivamente recomendados. Para cada rack em seu cluster, você ...
Análise de dados de registro com Hadoop - dummies
Análise de log é um caso de uso comum para um projeto inaugural Hadoop. Na verdade, os primeiros usos de Hadoop foram para a análise em grande escala de registros de cliques - registros que registram dados sobre as páginas da web que as pessoas visitam e na qual ordem as visitam. Todos os logs de dados gerados pela sua infra-estrutura de TI ...
Dados de log com Flume em HDFS - dummies
Alguns dos dados que terminam no sistema de arquivos distribuídos Hadoop ( HDFS) pode aterrar lá através de operações de carregamento de banco de dados ou outros tipos de processos em lote, mas e se você quiser capturar os dados que estão fluindo em fluxos de dados de alto débito, como dados de registro de aplicativos? O Apache Flume é o modo padrão atual para ...
Mantenha o controle dos blocos de dados com NameNode em HDFS - dummies
O NameNode atua como o catálogo de endereços para Hadoop Distributed File System (HDFS), porque sabe não só quais blocos compõem arquivos individuais, mas também onde cada um desses blocos e suas réplicas são armazenados. Quando um usuário armazena um arquivo em HDFS, o arquivo é dividido em blocos de dados e três cópias de ...
Latim de suínos em Hadoop's Pig Programs - dummies
Pig Latin é o idioma para programas de porco. Porco traduz o script Pig Latin em trabalhos MapReduce que pode ser executado no cluster Hadoop. Ao chegar com Pig Latin, a equipe de desenvolvimento seguiu três princípios principais de design: Mantenha-o simples. Pig Latin fornece um método simplificado para interagir com Java MapReduce. É um ...
NoSQL Data Stores versus Hadoop - dummies
Armazenamento de dados noSQL originalmente inscrito na noção "Just Say No to SQL" ( parafraseando de uma campanha de publicidade antidrogas na década de 1980), e eles foram uma reação às limitações percebidas de bancos de dados relacionais (baseados em SQL). Não é que essas pessoas odiassem o SQL, mas eles estavam cansados de forçar as estacas quadradas em furos redondos por ...
Gerenciando arquivos com os comandos do sistema de arquivos Hadoop - manequins
O hDFS é um dos dois componentes principais do Estrutura Hadoop; o outro é o paradigma computacional conhecido como MapReduce. Um sistema de arquivos distribuídos é um sistema de arquivos que administra armazenamento em um cluster de máquinas em rede. O HDFS armazena dados em blocos, unidades cujo tamanho padrão é de 64 MB. Os arquivos que você deseja armazenar em ...
R em Hadoop e R Language - dummies
A disciplina de aprendizagem de máquinas possui um extenso e extenso catálogo de técnicas . O Mahout traz uma variedade de ferramentas estatísticas e algoritmos para a tabela, mas apenas captura uma fração dessas técnicas e algoritmos, pois a tarefa de converter esses modelos em um quadro MapReduce é desafiadora. Ao longo do tempo, Mahout tem certeza ...
Regiões em HBase - dummies
Região Os servidores são uma coisa, mas você também tem que dar uma olhada em como as regiões individuais funcionam. No HBase, uma tabela é espalhada por uma série de RegionServers, além de ser constituída por regiões individuais. À medida que as tabelas são divididas, as divisões se tornam regiões. As regiões armazenam uma gama de pares de valores-chave e cada ...
Máquina Aprendendo com Mahout em Hadoop - dummies
Aprendizagem de máquina refere-se a um ramo de técnicas de inteligência artificial que fornece ferramentas que permitem computadores para melhorar sua análise com base em eventos anteriores. Estes sistemas informáticos aproveitam os dados históricos das tentativas anteriores de resolver uma tarefa, a fim de melhorar o desempenho das futuras tentativas em tarefas semelhantes. Em termos de resultados esperados, aprendizado de máquina ...
Executando aplicativos antes do Hadoop 2 - dummies
Porque muitas implantações existentes do Hadoop ainda não estão usando Yet Another Resource Negotiator ( YARN), veja rapidamente como o Hadoop gerenciou o processamento de dados antes dos dias do Hadoop 2. Concentre-se no papel que o desempregador do JobTracker e os daemons do TaskTracker desempenham no processamento MapReduce. O ponto inteiro de empregar sistemas distribuídos ...
Modelagem de risco com Hadoop - dummies
A modelagem de risco é outro caso de uso importante que é ativado por Hadoop. Você achará que ele combina com o caso de detecção de fraude em que é uma disciplina baseada em modelos. Quanto mais dados você tiver e quanto mais você pode "conectar os pontos", mais frequentemente seus resultados renderão melhores modelos de previsão de risco. A palavra abrangente ...
Mestre Nodes em Hadoop Clusters - dummies
Os nós mestres em clusters Hadoop distribuídos hospedam os vários serviços de gerenciamento de armazenamento e processamento, descrito nesta lista, para todo o cluster Hadoop. A redundância é fundamental para evitar pontos únicos de falha, então você vê dois switches e três nós mestres. NameNode: gerencia o armazenamento HDFS. Para garantir alta disponibilidade, você tem um ...
Executando modelos estatísticos no mapa de HadoopReduce - dummies
Converter modelos estatísticos para executar em paralelo é uma tarefa desafiadora. No paradigma tradicional para a programação paralela, o acesso à memória é regulado através do uso de threads - subprocessos criados pelo sistema operacional para distribuir uma única memória compartilhada em vários processadores. Fatores como condições de corrida entre threads concorrentes - quando dois ou ...
Agendamento e coordenação dos fluxos de trabalho Oozie em Hadoop - dummies
Depois de ter criado um conjunto de fluxos de trabalho, você pode use uma série de trabalhos do coordenador Oozie para agendar quando eles são executados. Você tem duas opções de agendamento para execução: um tempo específico e a disponibilidade de dados em conjunto com um determinado horário. Programação baseada no tempo para trabalhos do coordenador Oozie Os trabalhos do coordenador Oozie podem ser agendados para ...
Scripting com Pig Latin em Hadoop - dummies
Hadoop é um ecossistema rico e em rápida evolução com um conjunto crescente de novos aplicações. Ao invés de tentar manter-se com todos os requisitos para novas capacidades, o Pig foi projetado para ser extensível através de funções definidas pelo usuário, também conhecidas como UDFs. UDFs podem ser escritos em uma série de linguagens de programação, incluindo Java, Python e ...
Nó de escravo e falhas de disco em HDFS - dummies
Como morte e impostos, falhas de disco (e tempo suficiente , falhas de nó ou rack), são inevitáveis no sistema de arquivos distribuídos Hadoop (HDFS). No exemplo mostrado, mesmo que um rack falisse, o cluster poderia continuar funcionando. O desempenho sofreria porque você perdeu metade dos seus recursos de processamento, mas o sistema ainda está online ...
Dimensionando seu Hadoop Cluster - dummies
Dimensionando qualquer sistema de processamento de dados é tanto uma ciência quanto uma arte. Com o Hadoop, você considera a mesma informação que você faria com um banco de dados relacional, por exemplo. Mais importante, você precisa saber quanto de dados você possui, estimar suas taxas de crescimento esperadas e estabelecer uma política de retenção (por quanto tempo ...
Configure o ambiente Hadoop com o Apache Bigtop - dummies
Se estiver confortável trabalhando com máquinas virtuais e Linux , sinta-se à vontade para instalar o Bigtop em uma VM diferente da recomendada. Se você é realmente ousado e possui o hardware, vá em frente e tente instalar o Bigtop em um conjunto de máquinas no modo totalmente distribuído! Passo 1: Carregando uma VM Hadoop é executado em todos os Linux populares ...
SQL Access e Apache Hive - dummies
A colméia apache é indiscutivelmente a interface de consulta de dados mais difundida na comunidade Hadoop. Originalmente, as metas de design para o Hive não eram para compatibilidade SQL completa e alto desempenho, mas forneceram uma interface fácil e bastante familiar para desenvolvedores que precisassem fazer consultas em lote contra o Hadoop. Esta abordagem bastante fragmentada não funciona mais, então ...
Nós escravos em Hadoop Clusters - dummies
Em um universo Hadoop, os nodos escravos são onde os dados Hadoop são armazenados e onde os dados o processamento ocorre. Os seguintes serviços permitem que os nodos escravos armazenem e processem dados: NodeManager: Coordena os recursos de um nó escravo individual e reporta ao Resource Manager. ApplicationMaster: acompanha o progresso de todas as tarefas em execução em ...
Nós escravos no sistema de arquivos distribuídos Hadoop (HDFS) - manequins
Em um cluster Hadoop , cada nó de dados (também conhecido como um nó escravo) executa um processo em segundo plano chamado DataNode. Este processo em segundo plano (também conhecido como daemon) faz o controle das fatias de dados que o sistema armazena em seu computador. Ele fala regularmente para o servidor mestre para HDFS (conhecido como NameNode) para ...
A Importância do SQL para Hadoop - dummies
Existem razões convincentes para que o SQL tenha provado ser resiliente. A indústria de TI teve 40 anos de experiência com SQL, uma vez que foi desenvolvida pela IBM no início da década de 1970. Com o aumento na adoção de bancos de dados relacionais na década de 1980, o SQL tornou-se uma habilidade padrão para a maioria das TI ...
Sqoop 2. 0 Preview - dummies
Com todo o sucesso em torno do Sqoop 1. x após a graduação da incubadora Apache Sqoop tem impulso! Então, como você poderia esperar, o Sqoop 2. 0 está em andamento com novos recursos interessantes no caminho. Você pode ver que o Sqoop 1. 99. 3 pode ser baixado, completo com documentação. Você provavelmente está se perguntando quantos 1. 99. x releases serão ...
Sqoop Conectores e Drivers - dummies
Conectores sqoop geralmente acompanham um driver JDBC. O Sqoop não agrupa os drivers JDBC porque geralmente são proprietários e licenciados pelo RDBMS ou pelo fornecedor de DW. Portanto, existem três cenários possíveis para o Sqoop, dependendo do tipo de sistema de gerenciamento de dados (RDBMS, DW ou NoSQL) que você está tentando ...
Exportações de sqoop Usando a Atualização e a Atualização de Inserção de Inserção - manequins
Com modo de inserção, registros exportados por Sqoop são anexados ao final da tabela de destino. O Sqoop também fornece um modo de atualização que você pode usar fornecendo o argumento de linha de comando -update-key . Essa ação faz Sqoop gerar uma instrução SQL UPDATE para ser executada no RDBMS ou data warehouse. Suponha que você ...
SQuirreL como Cliente de Arroz com o Driver JDBC - manequins
SQuirreL SQL é uma ferramenta de código aberto que atua como um cliente da Colméia. Você pode baixar este cliente SQL universal do site SourceForge. Ele fornece uma interface de usuário para o Hive e simplifica as tarefas de consulta de grandes tabelas e análise de dados com Apache Hive. A figura ilustra como a arquitetura Hive funcionaria quando ...
Análise de Sentimento Social com Hadoop - dummies
Análise de sentimento social é facilmente o mais exagerado dos usos de Hadoop, o que deve ser nenhuma surpresa, dado que o mundo está constantemente conectado e a atual população expressiva. Este caso de uso alavanca o conteúdo de fóruns, blogs e outros recursos de redes sociais para desenvolver uma sensação do que as pessoas estão fazendo (por exemplo, eventos da vida) ...
O ecossistema Apache Hadoop - manequins
Hadoop é mais do que MapReduce e HDFS (Hadoop Distributed File System): também é uma família de projetos relacionados (um ecossistema, realmente) para computação distribuída e processamento de dados em grande escala. A maioria (mas não todos) desses projetos são hospedados pela Apache Software Foundation. A tabela lista alguns desses projetos. Projetos Hadoop relacionados Nome do projeto Descrição ...
As opções de comando
As ferramentas dfsadmin são um conjunto específico de ferramentas projetadas para ajudá-lo a eliminar informações sobre o seu sistema Hadoop Distributed File (HDFS). Como um bônus adicional, você pode usá-los para executar algumas operações de administração no HDFS também. Opção do que faz - relatório Relata informações básicas do sistema de arquivos e estatísticas. -safemode digite | ...
Leve HBase para uma corrida de teste - dummies
Aqui, você descobre como baixar e implantar o HBase no modo autônomo . É incrivelmente simples instalar o HBase e começar a usar a tecnologia. Basta ter em mente que o HBase normalmente é implantado em um cluster de servidores de commodities, embora você também possa implantar facilmente o HBase em uma configuração autônoma, para aprender ou demonstrar ...
A opção de pré-processamento de dados híbridos em Hadoop-dummies
Além de ter que armazenar volumes maiores de dados frios, uma pressão que você vê nos armazéns de dados tradicionais é que quantidades crescentes de recursos de processamento estão sendo usadas para carga de trabalho de transformação (ELT). A idéia por trás de usar o Hadoop como um mecanismo de pré-processamento para lidar com a transformação de dados significa que os ciclos de processamento preciosos são liberados, permitindo ...
A Arquitetura de Apache Hive - dummies
Ao examinar os elementos do Apache Hive, você pode ver na parte inferior Esse colmão fica no topo do sistema de arquivos distribuídos Hadoop (HDFS) e MapReduce. No caso do MapReduce, as informações mostram os componentes Hadoop 1 e Hadoop 2. Com o Hadoop 1, as consultas de Hive são convertidas para o código MapReduce ...
A Zona de desembarque baseada em Hadoop - dummies
Quando você tenta quebrar o que um ambiente analítico pode parecer O futuro, você tropeça repetidamente o padrão da zona de pouso baseada em Hadoop. Na verdade, não é mais uma discussão orientada para o futuro, porque a zona de pouso tornou-se a forma como as empresas voltadas para o futuro tentam agora economizar ...
As Limitações de Amostragem em Hadoop - dummies
A análise estatística está longe de ser um novo filho no bloco, e certamente é uma notícia antiga que depende do processamento de grandes quantidades de dados para obter uma nova visão. No entanto, a quantidade de dados tradicionalmente processada por esses sistemas estava entre 10 e 100 (ou centenas de gigabytes) - ...
O HBase MasterServer - dummies
Iniciando uma discussão da arquitetura HBase (base de dados Hadoop) ao descrever RegionServers em vez do MasterServer pode surpreendê-lo . O termo RegionServer parece implicar que depende de (e é secundário para) o MasterServer e que, portanto, você deve discutir o MasterServer primeiro. Como a velha canção diz, "não é necessariamente assim. "O ...
As chaves para adotar com sucesso Hadoop - dummies
Em qualquer projeto Hadoop sério, você deve começar juntando TI com negócios líderes de VPs para baixo para ajudar a resolver os pontos de dor de sua empresa - esses problemas (reais ou percebidos) que se destacam na mente de todos. As empresas querem ver o valor de seus investimentos em TI e, com o Hadoop, pode vir em uma variedade ...
O Cliente CLI do Hive - dummies
O primeiro cliente da Argumento é a interface da linha de comando Hive (CLI). Para dominar os pontos mais finos do cliente CLI do Hive, isso pode ajudar a rever a arquitetura de colméia (um pouco ocupada). Na segunda figura, a arquitetura é simplificada para se concentrar apenas nos componentes que são necessários ao executar a CLI. Estes são os componentes ...
O HBase Client Ecosystem - dummies
HBase está escrito em Java, um idioma elegante para a construção de tecnologias distribuídas como HBase, mas enfrenta - nem todo mundo que quer aproveitar as inovações da HBase é um desenvolvedor Java. É por isso que existe um rico ecossistema de cliente HBase por aí, cujo único propósito é fazer o levantamento pesado de Java para você e ...
A Importância do MapReduce em Hadoop - dummies
Para a maior parte da história da Hadoop, MapReduce foi o único jogo na cidade quando se trata de processamento de dados. A disponibilidade do MapReduce tem sido o motivo do sucesso do Hadoop e, ao mesmo tempo, um fator importante para limitar a adoção. MapReduce permite que programadores qualificados escrevam aplicativos distribuídos sem ter que se preocupar com ...