Fatores que aumentam a escala de análise estatística em Hadoop - dummies

Vídeo: Google Forms (Aula 2) - Configurações Avançadas 2025

O motivo As pessoas amostram seus dados antes de executar análises estatísticas em Hadoop é que esse tipo de análise muitas vezes requer recursos de computação significativos. Não se trata apenas de volumes de dados: existem cinco fatores principais que influenciam a escala da análise estatística:

Este é fácil, mas devemos mencioná-lo: o volume de dados sobre o qual você realizará a análise determinará definitivamente a escala da análise.
O número de transformações necessárias no conjunto de dados antes de aplicar modelos estatísticos é definitivamente um fator.
O número de correlações emparelhadas que você precisa calcular joga uma função.
O grau de complexidade dos cálculos estatísticos a serem aplicados é um fator.
O número de modelos estatísticos a serem aplicados ao seu conjunto de dados desempenha um papel importante.

O Hadoop oferece uma saída para este dilema fornecendo uma plataforma para executar cálculos de processamento em massa massivamente em dados no Hadoop.

Ao fazê-lo, é capaz de virar o fluxo de dados analítico; em vez de mover os dados de seu repositório para o servidor de análise, o Hadoop fornece análises diretamente aos dados. Mais especificamente, o HDFS permite que você armazene suas montanhas de dados e, em seguida, traga a computação (na forma de tarefas MapReduce) para os nós escravos.

O desafio comum posicionado ao passar dos sistemas estatísticos tradicionais de processamento múltiplo simétrico (SMP) para a arquitetura Hadoop é a localidade dos dados. Nas plataformas SMP tradicionais, vários processadores compartilham o acesso a um único recurso de memória principal.

No Hadoop, o HDFS replica partições de dados em vários nós e máquinas. Além disso, os algoritmos estatísticos que foram projetados para o processamento de dados na memória agora devem se adaptar a conjuntos de dados que abrangem múltiplos nós / racks e não poderiam esperar em um único bloco de memória.