Vídeo: Data Warehouse (O que é, caracteristicas, exemplo) 2024
A análise de log é um caso de uso comum para um projeto inaugural Hadoop. Na verdade, os primeiros usos de Hadoop foram para a análise em larga escala de clickstream logs - registros que registram dados sobre as páginas da web que as pessoas visitam e em que ordem as visitam.
Todos os logs de dados gerados por sua infra-estrutura de TI geralmente são chamados de escape de dados . Um registro é um subproduto de um servidor em funcionamento, bem como a fumaça proveniente do tubo de escape do motor de trabalho. O escape de dados tem a conotação de poluição ou desperdício, e muitas empresas, sem dúvida, abordam este tipo de dados com esse pensamento em mente.
Os dados do registro geralmente crescem rapidamente, e devido aos altos volumes produzidos, pode ser tedioso analisar. E, o valor potencial desses dados geralmente não é claro. Portanto, a tentação nos departamentos de TI é armazenar esses dados de log por tão pouco tempo quanto razoavelmente possível. (Afinal, custa dinheiro para reter dados e se não há valor comercial percebido, por que armazená-lo?)
Mas o Hadoop altera a matemática: o custo do armazenamento de dados é comparativamente barato e o Hadoop foi originalmente desenvolvido especialmente para o Processamento em lote em grande escala de dados de log.
O caso de uso de análise de dados de registro é um lugar útil para iniciar sua jornada Hadoop, porque as chances são boas de que os dados com os quais você trabalha sejam excluídos ou "caíram no chão". "Algumas empresas que gravam consistentemente um terabyte (TB) ou mais da atividade da web do cliente por semana descartam os dados sem análise (o que faz você se perguntar por que eles se preocuparam em coletá-lo).
Para começar rapidamente, os dados neste caso de uso provavelmente serão fáceis de obter e geralmente não abrangerão os mesmos problemas que você encontrará se você iniciar sua viagem Hadoop com outros dados (governados).
Quando os analistas do setor discutem os volumes de dados que aumentam rapidamente (4. 1 exabytes a partir de 2014 - mais de 4 milhões de discos rígidos de 1TB), o registro de dados explica grande parte desse crescimento. E não admira: quase todos os aspectos da vida agora resultam na geração de dados. Um smartphone pode gerar centenas de entradas de log por dia para um usuário ativo, rastreando não só voz, texto e transferência de dados, mas também dados de geolocalização.
A maioria das famílias agora possui medidores inteligentes que logam o uso de eletricidade. Os carros mais recentes têm milhares de sensores que registram aspectos de sua condição e uso. Cada clique e movimento do mouse que você faz enquanto navega na Internet faz com que uma cascata de entradas de registro seja gerada.
Toda vez que você compra algo - mesmo sem usar um cartão de crédito ou cartão de débito - os sistemas registram a atividade em bancos de dados - e em logs.Você pode ver algumas das fontes mais comuns de dados de log: servidores de TI, web clickstreams, sensores e sistemas de transação.
Todas as indústrias (bem como todos os tipos de registro que acabamos de descrever) têm o enorme potencial de análise valiosa - especialmente quando você pode inserir um tipo específico de atividade e, em seguida, correlacionar suas descobertas com outro conjunto de dados para fornecer contexto.
Como exemplo, considere essa experiência típica de navegação e compra baseada na web:
-
Você navega no site, procurando itens para comprar.
-
Você clica para ler as descrições de um produto que chega à sua atenção.
-
Eventualmente, você adiciona um item ao seu carrinho de compras e passa à compra (a ação de compra).
Depois de ver o custo do envio, no entanto, você decide que o item não vale o preço e você fecha a janela do navegador. Cada clique que você fez - e depois parou de fazer - tem o potencial de oferecer informações valiosas para a empresa que está por trás desse site de comércio eletrônico.
Neste exemplo, suponha que este negócio colete dados do clique (dados sobre cada clique do mouse e visualização de página que um visitante "toca") com o objetivo de entender como servir melhor seus clientes. Um desafio comum entre os negócios de comércio eletrônico é reconhecer os fatores-chave por trás dos carros de compras abandonados. Quando você executa uma análise mais profunda nos dados do fluxo de cliques e examina o comportamento do usuário no site, os padrões devem surgir.
Sua empresa conhece a resposta à pergunta aparentemente simples: "São certos produtos abandonados mais do que outros? "Ou a resposta à pergunta:" Quanta receita pode ser recapturada se você reduzir o abandono do carrinho em 10%? "O seguinte dá um exemplo do tipo de relatórios que você pode mostrar aos seus líderes empresariais para buscar seu investimento em sua causa Hadoop.
Para chegar ao ponto em que você pode gerar os dados para criar os gráficos mostrados, você isola as sessões de navegação na web de usuários individuais (um processo conhecido como sessionization) , identifique o conteúdo de seus carros de compras, e então estabeleça o estado da transação no final da sessão - tudo examinando os dados do fluxo de cliques.
A seguir, um exemplo de como montar as sessões de navegação na web dos usuários agrupando todos os cliques e endereços de URL por endereço IP.
Em um contexto Hadoop, você sempre trabalha com chaves e valores - cada fase de entradas e saídas MapReduce em conjuntos de chaves e valores. A chave é o endereço IP e o valor consiste no timestamp e no URL. Durante a fase do mapa, as sessões dos usuários são montadas em paralelo para todos os blocos de arquivos do conjunto de dados de cliques armazenados em seu cluster Hadoop.
A fase do mapa retorna esses elementos:
-
A página final que visitou
-
Uma lista de itens no carrinho de compras
-
O estado da transação para cada sessão de usuário (indexada pela chave de endereço IP) < O redutor pega esses registros e executa agregações para totalizar o número e valor dos carros abandonados por mês e para fornecer os totais das páginas finais mais comuns que alguém viu antes de finalizar a sessão do usuário.