Vídeo: Google Forms (Aula 2) - Configurações Avançadas 2024
O motivo As pessoas amostram seus dados antes de executar análises estatísticas em Hadoop é que esse tipo de análise muitas vezes requer recursos de computação significativos. Não se trata apenas de volumes de dados: existem cinco fatores principais que influenciam a escala da análise estatística:
-
Este é fácil, mas devemos mencioná-lo: o volume de dados sobre o qual você realizará a análise determinará definitivamente a escala da análise.
-
O número de transformações necessárias no conjunto de dados antes de aplicar modelos estatísticos é definitivamente um fator.
-
O número de correlações emparelhadas que você precisa calcular joga uma função.
-
O grau de complexidade dos cálculos estatísticos a serem aplicados é um fator.
-
O número de modelos estatísticos a serem aplicados ao seu conjunto de dados desempenha um papel importante.
O Hadoop oferece uma saída para este dilema fornecendo uma plataforma para executar cálculos de processamento em massa massivamente em dados no Hadoop.
Ao fazê-lo, é capaz de virar o fluxo de dados analítico; em vez de mover os dados de seu repositório para o servidor de análise, o Hadoop fornece análises diretamente aos dados. Mais especificamente, o HDFS permite que você armazene suas montanhas de dados e, em seguida, traga a computação (na forma de tarefas MapReduce) para os nós escravos.
O desafio comum posicionado ao passar dos sistemas estatísticos tradicionais de processamento múltiplo simétrico (SMP) para a arquitetura Hadoop é a localidade dos dados. Nas plataformas SMP tradicionais, vários processadores compartilham o acesso a um único recurso de memória principal.
No Hadoop, o HDFS replica partições de dados em vários nós e máquinas. Além disso, os algoritmos estatísticos que foram projetados para o processamento de dados na memória agora devem se adaptar a conjuntos de dados que abrangem múltiplos nós / racks e não poderiam esperar em um único bloco de memória.