Vídeo: Power BI (serviço) - Streaming Dataset (Flow + OneDrive + Excel) 2024
Quando os dados fluem em grande quantidade quantidades, armazenar tudo pode ser difícil ou mesmo impossível. De fato, armazenar tudo pode não ser útil. Aqui estão alguns números de alguns dos que você pode esperar acontecer dentro de um único minuto na Internet:
- 150 milhões de e-mails enviados
- 350 000 novos tweets enviados no Twitter
- 2. 4 milhões de consultas solicitadas no Google
- 700 000 pessoas conectadas na sua conta no Facebook
Dado esses volumes, a acumulação de dados durante todo o dia para análises incrementais pode não parecer eficiente. Você simplesmente o armazena em algum lugar e analisa-o no seguinte ou em um dia posterior (que é a estratégia de arquivamento generalizada, típica de bancos de dados e armazéns de dados). No entanto, as consultas de dados úteis tendem a perguntar sobre os dados mais recentes no fluxo e os dados tornam-se menos úteis quando envelhecem (em alguns setores, como financeiros, um dia pode ser muito tempo).
Além disso, você pode esperar que ainda mais dados cheguem amanhã (a quantidade de dados aumenta diariamente) e isso dificulta, se não impossível, extrair dados dos repositórios à medida que você introduz novos dados. Tirar dados antigos dos repositórios à medida que os dados frescos derramam é semelhante ao castigo de Sísifo. Sísifo, como um mito grego narra, recebeu um castigo terrível do deus Zeus: Ser forçado a rolar eternamente uma imensa rocha no topo de uma colina, apenas para vê-la voltar a cair cada vez.
Às vezes, tornando as coisas ainda mais impossíveis de manusear, os dados podem chegar tão rápido e em quantidades tão grandes que a gravação no disco é impossível: novas informações chegam mais rápido do que o tempo necessário para gravá-lo no disco rígido. Este é um problema típico de experiências de partículas com aceleradores de partículas, como o Large Hadron Collider, que exige que os cientistas decidam quais os dados a manter. Claro, você pode filmar dados por algum tempo, mas não por muito tempo, porque a fila crescerá rapidamente e se tornará impossível de manter. Por exemplo, se mantido na memória, os dados da fila em breve levarão a um erro fora da memória.
Como os novos fluxos de dados podem tornar o processamento anterior em dados anteriores obsoletos e a procrastinação não é uma solução, as pessoas desenvolveram estratégias múltiplas para lidar instantaneamente com valores de dados maciços e mutáveis. As pessoas usam três maneiras de lidar com grandes quantidades de dados:
- Armazenado: Alguns dados são armazenados porque podem ajudar a responder perguntas pouco claras depois. Este método baseia-se em técnicas para armazená-lo imediatamente e analisá-lo mais tarde, muito rápido, por mais maciço que seja.
- Resumido: Alguns dados são resumidos porque manter tudo como não faz sentido; apenas os dados importantes são mantidos.
- Consumido: Os dados restantes são consumidos porque seu uso é predeterminado. Algoritmos podem ler, digerir e ativar instantaneamente os dados em informações. Depois disso, o sistema esquece os dados para sempre.
Ao falar de dados maciços que chegam a um sistema de computador, você geralmente o ouvirá em comparação com a água: dados de transmissão, fluxos de dados, mangueira de dados.
Você descobre como os fluxos de dados são como o consumo de água da torneira: abrir a torneira permite armazenar a água em copos ou garrafas, ou pode usá-lo para cozinhar, esfregar alimentos, limpar pratos ou lavar as mãos. Em todo caso, a maioria ou a totalidade da água desapareceu, mas prova muito útil e, de fato, vital.