Identifique os dados que você precisa para seus grandes dados - manequins

Faça um balanço do tipo de dados que você está lidando no seu grande projeto de dados. Muitas organizações estão reconhecendo que muitos dados internamente gerados não foram usados para todo seu potencial no passado.

Ao aproveitar novas ferramentas, as organizações estão obtendo novos conhecimentos de fontes anteriormente não exploradas de dados não estruturados em e-mails, registros de serviço ao cliente, dados de sensores e logs de segurança. Além disso, existe muito interesse na busca de uma nova visão baseada na análise de dados que são principalmente externos à organização, como mídia social, localização do telefone celular, tráfego e clima.

O estágio exploratório para grandes dados

Nos estágios iniciais da sua análise, você deseja pesquisar padrões nos dados. É somente ao examinar volumes de dados muito grandes que relacionamentos novos e inesperados e correlações entre elementos podem se tornar evidentes. Esses padrões podem fornecer informações sobre as preferências do cliente para um novo produto, por exemplo. Você precisará de uma plataforma para organizar seus grandes dados para procurar esses padrões.

Hadoop é amplamente utilizado como um bloco de construção subjacente para capturar e processar grandes dados. O Hadoop foi projetado com recursos que aceleram o processamento de dados grandes e permitem identificar padrões em enormes quantidades de dados em um tempo relativamente curto. Os dois principais componentes do Hadoop - Hadoop Distributed File System (HDFS) e MapReduce - são usados para gerenciar e processar seus grandes dados.

FlumeNG para grande integração de dados

Muitas vezes, é necessário coletar, agregar e mover quantidades extremamente elevadas de dados de transmissão para procurar padrões ocultos em dados grandes. As ferramentas tradicionais de integração, como ETL, não seriam rápidas o suficiente para mover os grandes fluxos de dados a tempo de entregar resultados para análise, como a detecção de fraude em tempo real. O FlumeNG carrega dados em tempo real, transmitindo seus dados para o Hadoop.

Normalmente, Flume é usado para coletar grandes quantidades de dados de log de servidores distribuídos. Ele faz o controle de todos os nós físicos e lógicos em uma instalação do Flume. Os nós do agente são instalados nos servidores e são responsáveis por gerenciar a maneira como um único fluxo de dados é transferido e processado desde o ponto de início até o ponto de destino.

Além disso, os coletores são usados para agrupar os fluxos de dados em fluxos maiores que podem ser gravados em um sistema de arquivos Hadoop ou em outro grande recipiente de armazenamento de dados. O Flume é projetado para escalabilidade e pode adicionar continuamente mais recursos a um sistema para lidar com quantidades extremamente grandes de dados de forma eficiente.A saída da Flume pode ser integrada com Hadoop e Hive para análise dos dados.

Flume também possui elementos de transformação para usar nos dados e pode transformar sua infra-estrutura Hadoop em uma fonte de transmissão de dados não estruturados.

Padrões em dados grandes

Você encontra muitos exemplos de empresas que começam a perceber vantagens competitivas da grande análise de dados. Para muitas empresas, os fluxos de dados das mídias sociais estão se tornando cada vez mais um componente integral de uma estratégia de marketing digital. No estágio exploratório, esta tecnologia pode ser usada para pesquisar rapidamente por uma enorme quantidade de dados de transmissão e retirar os padrões de tendências que se relacionam com produtos ou clientes específicos.

O estágio de codificação para grandes dados

Com centenas de lojas e muitos milhares de clientes, você precisa de um processo repetível para fazer o salto da identificação do padrão para a implementação de uma nova seleção de produtos e um marketing mais direcionado. Depois de encontrar algo interessante em sua grande análise de dados, codifique-o e faça parte de seu processo de negócios.

Para codificar a relação entre sua grande análise de dados e seus dados operacionais, você precisa integrar os dados.

Grande estágio de integração e incorporação de dados

Os grandes dados estão tendo um grande impacto em muitos aspectos do gerenciamento de dados, incluindo a integração de dados. Tradicionalmente, a integração de dados se concentrou no movimento de dados através do middleware, incluindo especificações sobre passagem de mensagens e requisitos para interfaces de programação de aplicativos (APIs). Esses conceitos de integração de dados são mais apropriados para gerenciar dados em repouso em vez de dados em movimento.

A mudança para o novo mundo de dados não estruturados e dados de transmissão de dados altera a noção convencional de integração de dados. Se você quiser incorporar sua análise de dados de transmissão em seu processo de negócios, você precisa de tecnologia avançada que seja rápida o suficiente para permitir que você tome decisões em tempo real.

Após a conclusão da sua grande análise de dados, você precisa de uma abordagem que permita integrar ou incorporar os resultados da sua grande análise de dados em seu processo de negócios e ações de negócios em tempo real.

As empresas têm grandes expectativas para obter o valor comercial real a partir de grandes análises de dados. De fato, muitas empresas gostariam de iniciar uma análise mais aprofundada de dados grandes gerados internamente, como dados de log de segurança, que não eram anteriormente possíveis devido a limitações de tecnologia.

As tecnologias para o transporte de alta velocidade de dados muito grandes e rápidos são um requisito para a integração entre fontes de dados grandes distribuídas e entre grandes dados e dados operacionais. Fontes de dados não estruturados geralmente precisam ser movidas rapidamente em grandes distâncias geográficas para compartilhamento e colaboração.

Vincular fontes tradicionais com dados importantes é um processo multistaged após ter examinado todos os dados de transmissão de grandes fontes de dados e identificado os padrões relevantes. Depois de reduzir a quantidade de dados que você precisa gerenciar e analisar, agora você precisa pensar sobre a integração.