Vídeo: The Future of Farming 2024
O data warehouse, a camada 4 da grande pilha de dados e o companheiro do data mart, têm sido as principais técnicas que as organizações usam para otimizar dados para ajudar os tomadores de decisão. Normalmente, data warehouses e marts contêm dados normalizados coletados de uma variedade de fontes e montados para facilitar a análise do negócio.
Os data warehouses e marts simplificam a criação de relatórios e a visualização de itens de dados diferentes. Eles geralmente são criados a partir de bancos de dados relacionais, bases de dados multidimensionais, arquivos planos e bancos de dados de objetos - essencialmente qualquer arquitetura de armazenamento. Em um ambiente tradicional, onde o desempenho pode não ser a mais alta prioridade, a escolha da tecnologia subjacente é orientada pelos requisitos para análise, relatórios e visualização dos dados da empresa.
Como a organização dos dados e sua prontidão para análise são fundamentais, a maioria das implementações do data warehouse são mantidas atualizadas através do processamento em lote. O problema é que os data warehouses e data marts carregados em lote podem ser insuficientes para muitos grandes aplicativos de dados. O estresse imposto por fluxos de dados de alta velocidade provavelmente exigirá uma abordagem mais real em tempo real para grandes armazéns de dados.
Isso não significa que você não estará criando e alimentando um data ware analítico ou um data mart com processos em lote. Em vez disso, você pode acabar tendo vários data warehouses ou data marts, e o desempenho e a escala refletirão os requisitos de tempo dos analistas e tomadores de decisão.
Como muitos data warehouses e data marts são compostos por dados coletados de várias fontes dentro de uma empresa, os custos associados à limpeza e normalização dos dados também devem ser abordados. Com grandes dados, você encontra algumas diferenças principais:
-
Os fluxos de dados tradicionais (de transações, aplicativos, etc.) podem produzir muitos dados diferentes.
-
Existem também dezenas de novas fontes de dados, cada uma delas que necessita de algum tipo de manipulação antes que possa ser oportuna e útil para o negócio.
-
As fontes de conteúdo também precisam ser limpas, e estas podem exigir diferentes técnicas do que você pode usar com dados estruturados.
Historicamente, o conteúdo dos data warehouses e data marts foi organizado e entregue aos líderes empresariais responsáveis pela estratégia e planejamento. Com grandes dados, um novo conjunto de equipes está alavancando dados para a tomada de decisões.
Muitas implementações de dados grandes fornecem recursos em tempo real, portanto, as empresas devem ser capazes de fornecer conteúdo para permitir que pessoas com funções operacionais abordem questões como suporte ao cliente, oportunidades de vendas e interrupções de serviço em tempo quase real.Desta forma, grandes dados ajudam a mover a ação do back office para o front office.
As ferramentas e técnicas de análise existentes serão muito úteis para dar sentido aos grandes dados. No entanto, há um porém. Os algoritmos que fazem parte dessas ferramentas devem ser capazes de trabalhar com grandes quantidades de dados potencialmente em tempo real e dispares. A infraestrutura precisará estar no lugar para suportar isso.
E, fornecedores que fornecem ferramentas de análise também precisam garantir que seus algoritmos funcionem em implementações distribuídas. Devido a essas complexidades, espera uma nova classe de ferramentas para ajudar a entender os grandes dados.
Existem três classes de ferramentas nesta camada da arquitetura de referência. Eles podem ser usados de forma independente ou coletiva por decisores para ajudar a orientar o negócio. As três classes de ferramentas são as seguintes:
-
Relatórios e painéis: Essas ferramentas fornecem um & ldquo; user-friendly & rdquo; Representação das informações de várias fontes. Embora seja um pilar no mundo dos dados tradicionais, esta área ainda está evoluindo para grandes dados. Algumas das ferramentas que estão sendo usadas são tradicionais que agora podem acessar os novos tipos de bancos de dados coletivamente chamados NoSQL (Não apenas SQL).
-
Visualização: Estas ferramentas são o próximo passo na evolução do relatório. O resultado tende a ser altamente interativo e de natureza dinâmica. Outra distinção importante entre relatórios e resultados visualizados é a animação. Os usuários empresariais podem assistir as mudanças nos dados utilizando uma variedade de diferentes técnicas de visualização, incluindo mapas mentais, mapas de calor, infografia e diagramas de conexão. Os relatórios e a visualização ocorrem no final da atividade comercial.
-
Análises e análises avançadas: Estas ferramentas alcançam o data warehouse e processam os dados para consumo humano. As análises avançadas devem explicar tendências ou eventos que sejam transformadores, únicos ou revolucionários para práticas comerciais existentes. A análise preditiva e a análise do sentimento são bons exemplos dessa ciência.