Vídeo: Autismo & Trabalho 41: AMOSTRAGEM 2024
A análise estatística está longe de ser um novo filho no bloco, e certamente é uma notícia antiga que depende do processamento de grandes quantidades de dados para obter uma nova visão. No entanto, a quantidade de dados que tradicionalmente são processados por esses sistemas estava entre 10 e 100 (ou centenas) de gigabytes - e não os intervalos de terabyte ou petabyte vistos hoje, em outras palavras.
E muitas vezes exigiu uma máquina de processamento (SMP) simétrica cara com a maior quantidade de memória possível para armazenar os dados em análise. Isso porque muitos dos algoritmos utilizados pelas abordagens analíticas eram bastante "intensivos em computação" e foram projetados para serem executados na memória - pois exigem múltiplas, e muitas vezes freqüentes, passam pelos dados.
Diante de hardware caro e um compromisso muito alto em termos de tempo e RAM, as pessoas tentaram tornar a carga de trabalho analítica um pouco mais razoável ao analisar apenas uma amostragem dos dados. A idéia era manter as montanhas em cima de montanhas de dados armazenadas de forma segura em armazéns de dados, movendo apenas uma amostragem estatisticamente significante dos dados de seus repositórios para um mecanismo estatístico.
Embora a amostragem seja uma boa idéia em teoria, na prática esta é muitas vezes uma tática não confiável. Encontrar uma amostragem estatisticamente significativa pode ser desafiador para conjuntos de dados esparsos e / ou desviados, que são bastante comuns. Isso leva a amostragens mal avaliadas, que podem apresentar valores aberrantes e anômalos, e podem, por sua vez, influenciar os resultados de sua análise.