Vídeo: TABELAS E GRÁFICOS - Estatística Descritiva - Vamos analisar as vendas 2024
A grande análise de dados obteve muito hype recentemente, e por uma boa razão. Você precisará conhecer as características da grande análise de dados se desejar fazer parte desse movimento. As empresas sabem que algo está por aí, mas, até recentemente, não conseguiram miná-lo. Isso empurrando o envelope na análise é um aspecto emocionante do grande movimento de análise de dados.
As empresas estão ansiosas para poder acessar e analisar os dados que eles coletaram ou querem obter informações, mas não conseguiram gerenciar ou analisar de forma eficaz. Pode envolver a visualização de enormes quantidades de dados diferentes, ou pode envolver a transmissão avançada avançada em tempo real. É evolutivo em alguns aspectos e revolucionário em outros.
Então, o que é diferente quando sua empresa está empurrando o envelope com grande análise de dados? A infraestrutura que suporta grande análise de dados é diferente e os algoritmos foram alterados para serem conscientes da infraestrutura.
A grande análise de dados deve ser vista de duas perspectivas:
-
Orientado a decisões
-
Orientado a ação
A análise orientada a decisões é mais semelhante à inteligência comercial tradicional. Olhe para subconjuntos seletivos e representações de fontes de dados maiores e tente aplicar os resultados ao processo de tomada de decisões comerciais. Certamente, essas decisões podem resultar em algum tipo de ação ou mudança de processo, mas o objetivo da análise é aumentar a tomada de decisões.
A análise orientada a ação é usada para resposta rápida, quando um padrão emerge ou tipos específicos de dados são detectados e ação é necessária. Aproveitar os grandes dados através da análise e causar mudanças de comportamento pró-ativas ou reativas oferecem um grande potencial para os adotadores iniciais.
Encontrar e utilizar dados importantes criando aplicativos de análise pode conter a chave para extrair valor mais cedo ou mais tarde. Para realizar esta tarefa, é mais eficaz criar essas aplicações personalizadas a partir do zero ou alavancar plataformas e / ou componentes.
Primeiro, veja algumas das características adicionais da análise de dados importantes que o tornam diferente dos tipos de análise tradicionais além dos três Vs de volume, velocidade e variedade:
-
Pode ser programática. Uma das maiores mudanças na análise é que no passado você estava lidando com conjuntos de dados que você poderia carregar manualmente em um aplicativo e explorar. Com a grande análise de dados, você pode enfrentar uma situação em que você pode começar com dados brutos que muitas vezes precisam ser manipulados programmaticamente para fazer qualquer tipo de exploração devido à escala dos dados.
-
Pode ser dados orientados. Embora muitos cientistas de dados usem uma abordagem orientada para hipóteses para a análise de dados (desenvolva uma premissa e colete dados para ver se essa premissa está correta), você também pode usar os dados para gerar a análise - especialmente se você coletou enormes montantes disso. Por exemplo, você pode usar um algoritmo de aprendizagem em máquina para fazer esse tipo de análise sem hipótese.
-
Pode usar muitos atributos . No passado, você pode estar lidando com centenas de atributos ou características dessa fonte de dados. Agora você pode estar lidando com centenas de gigabytes de dados que consistem em milhares de atributos e milhões de observações. Tudo está acontecendo agora em uma escala maior.
-
Pode ser iterativo. Mais poder de cálculo significa que você pode iterar em seus modelos até que você os consiga como você os quer. Aqui está um exemplo. Suponha que você esteja construindo um modelo que está tentando encontrar os preditores de certos comportamentos de clientes associados. Você pode começar a extrair uma amostra razoável de dados ou se conectar a onde os dados reside. Você pode construir um modelo para testar uma hipótese.
Considerando que, no passado, você talvez não tenha tido tanta memória para fazer com que seu modelo funcione de forma eficaz, você precisará de uma enorme quantidade de memória física para passar pelas iterações necessárias necessárias para treinar o algoritmo. Também pode ser necessário usar técnicas de computação avançadas como o processamento de linguagem natural ou redes neurais que evoluem automaticamente o modelo com base na aprendizagem, à medida que mais dados são adicionados.
-
Pode ser rápido para obter os ciclos de computação que você precisa ao alavancar uma infra-estrutura baseada em nuvem como um serviço. Com as plataformas de Infraestrutura como Serviço (IaaS), como o Amazon Cloud Services (ACS), você pode fornecer rapidamente um cluster de máquinas para ingerir grandes conjuntos de dados e analisá-los rapidamente.