Vídeo: Technology Stacks - Computer Science for Business Leaders 2016 2024
Converter modelos estatísticos para executar em paralelo é uma tarefa desafiadora. No paradigma tradicional para a programação paralela, o acesso à memória é regulado através da utilização de threads - subprocessos criados pelo sistema operacional para distribuir uma única memória compartilhada em vários processadores.
Fatores como condições de corrida entre threads concorrentes - quando dois ou mais tópicos tentam trocar dados compartilhados ao mesmo tempo - podem influenciar o desempenho do seu algoritmo, bem como afetar a precisão dos resultados estatísticos que seu programa produz - particularmente para longas análises de grandes conjuntos de amostras.
Uma abordagem pragmática para este problema é assumir que nem muitos estatísticos conhecerão os prós e contras do MapReduce (e vice-versa), nem você pode esperar que eles estejam cientes de todas as armadilhas que implica a programação paralela. Os colaboradores do projeto Hadoop têm (e continuam desenvolvendo) ferramentas estatísticas com essas realidades em mente.
O resultado: o Hadoop oferece muitas soluções para implementar os algoritmos necessários para a modelagem e análise estatística, sem sobrecarregar o estatístico com considerações de programação paralela matizada.