Dados importantes para manequins Cheat Sheet - dummies

Por Judith Hurwitz, Alan Nugent, Fern Halper, Marcia Kaufman

As empresas devem encontrar uma maneira prática de lidar com grandes dados para se manterem competitivos - para aprender novas formas de capturar e analisar quantidades crescentes de informações sobre clientes, produtos e serviços. Os dados estão se tornando cada vez mais complexos em formas estruturadas e não estruturadas. Novas fontes de dados provêm de máquinas, como sensores; sites de negócios sociais; e interação do site, como dados de fluxo de clique. Conhecer esses requisitos comerciais em mudança exige que a informação certa esteja disponível no momento certo.

Definição de grandes dados: volume, velocidade e variedade

Os dados grandes permitem às organizações armazenar, gerenciar e manipular grandes quantidades de dados diferentes à velocidade certa e no momento certo. Para obter as informações corretas, os dados grandes geralmente são divididos por três características:

Volume: Quanto dados
Velocidade: Dados rápidos são processados
Variedade: Os vários tipos de dados

Embora seja conveniente simplificar grandes dados nos três Vs, pode ser enganosa e excessivamente simplista. Por exemplo, você pode estar gerenciando uma quantidade relativamente pequena de dados complexos e muito diferentes, ou você pode estar processando um enorme volume de dados muito simples. Que os dados simples podem ser todos estruturados ou todos não estruturados.

Ainda mais importante é a quarta V, veracidade. Quão precisas são esses dados na previsão de valor comercial? Os resultados de uma grande análise de dados realmente fazem sentido? Os dados devem poder ser verificados com base na precisão e no contexto. Um negócio inovador pode querer poder analisar enormes quantidades de dados em tempo real para avaliar rapidamente o valor desse cliente e o potencial de oferecer ofertas adicionais para esse cliente. É necessário identificar a quantidade certa e os tipos de dados que podem ser analisados em tempo real para impactar os resultados do negócio.

Os grandes dados incorporam todas as variedades de dados, incluindo dados estruturados e dados não estruturados de e-mails, mídias sociais, fluxos de texto e assim por diante. Esse tipo de gerenciamento de dados exige que as empresas aproveitem seus dados estruturados e desestruturados.

Compreendendo dados não estruturados

Os dados não estruturados são diferentes dos dados estruturados na medida em que sua estrutura é imprevisível. Exemplos de dados não estruturados incluem documentos, e-mails, blogs, imagens digitais, vídeos e imagens de satélite. Também inclui alguns dados gerados por máquinas ou sensores. Na verdade, os dados não estruturados representam a maioria dos dados que estão nas instalações da sua empresa, bem como externos à sua empresa em fontes públicas privadas e públicas, como Twitter e Facebook.

No passado, a maioria das empresas não conseguiu capturar ou armazenar essa grande quantidade de dados. Era simplesmente muito caro ou muito esmagador. Mesmo que as empresas pudessem capturar os dados, eles não tinham as ferramentas para analisar facilmente os dados e usar os resultados para tomar decisões. Muito poucas ferramentas podem ter sentido essas vastas quantidades de dados. As ferramentas que existiam eram complexas de usar e não produziram resultados em um prazo razoável.

No final, aqueles que realmente queriam ir ao enorme esforço de analisar esses dados foram forçados a trabalhar com instantâneos de dados. Isso tem o efeito indesejável de perder eventos importantes porque eles não estavam em um instantâneo particular.

Uma abordagem que está sendo cada vez mais valorizada como forma de obter valor comercial a partir de dados não estruturados é análise de texto, o processo de análise de texto não estruturado, extraindo informações relevantes e transformando-a em informações estruturadas que podem então ser alavancado de várias maneiras. Os processos de análise e extração aproveitam as técnicas que se originaram em linguística computacional, estatística e outras disciplinas de ciência da computação.

O papel dos dados operacionais tradicionais no grande ambiente de dados

Saber quais os dados armazenados e onde é armazenado são blocos de construção críticos na sua grande implementação de dados. É improvável que você use RDBMSs para o núcleo da implementação, mas é muito provável que você precise confiar nos dados armazenados em RDBMSs para criar o mais alto nível de valor para o negócio com grandes dados.

A maioria das grandes e pequenas empresas provavelmente armazenam a maioria de suas informações operacionais importantes em sistemas de gerenciamento de banco de dados relacionais (RDBMSs), que são construídos em uma ou mais relações e representados por tabelas. Essas tabelas são definidas pela forma como os dados são armazenados. Os dados são armazenados em objetos de banco de dados chamados tabelas - organizadas em linhas e colunas. Os RDBMSs seguem uma abordagem consistente na forma como os dados são armazenados e recuperados.

Para obter o maior valor comercial da sua análise em tempo real de dados não estruturados, você precisa entender esses dados em contexto com seus dados históricos sobre clientes, produtos, transações e operações. Em outras palavras, você precisará integrar seus dados não estruturados com seus dados operacionais tradicionais.

Fundamentos da grande infra-estrutura de dados

Os dados importantes são tudo sobre alta velocidade, grandes volumes e ampla variedade de dados, de modo que a infra-estrutura física literalmente "criará ou interromperá" a implementação. A maioria das grandes implementações de dados precisam estar altamente disponíveis, portanto, as redes, servidores e armazenamento físico devem ser resilientes e redundantes.

A resiliência e a redundância estão inter-relacionadas. Uma infra-estrutura, ou um sistema, é resiliente ao falhanço ou mudanças quando recursos redundantes suficientes estão prontos para entrar em ação. A resiliência ajuda a eliminar pontos únicos de falha em sua infraestrutura. Por exemplo, se apenas existe uma conexão de rede entre sua empresa e a Internet, você não possui redundância de rede e a infra-estrutura não é resiliente em relação a uma interrupção da rede.

Em grandes centros de dados com requisitos de continuidade de negócios, a maior parte da redundância está em vigor e pode ser alavancada para criar um grande ambiente de dados. Em novas implementações, os designers têm a responsabilidade de mapear a implantação para as necessidades do negócio com base em custos e desempenho.

Gerenciando grandes dados com Hadoop: HDFS e MapReduce

O Hadoop, uma estrutura de software de fonte aberta, usa HDFS (o Hadoop Distributed File System) e MapReduce para analisar grandes dados em clusters de hardware de commodities, isto é, em um ambiente de computação distribuída.

O sistema de arquivos distribuídos Hadoop (HDFS) foi desenvolvido para permitir que as empresas gerenciem mais facilmente grandes volumes de dados de forma simples e pragmática. Hadoop permite que grandes problemas sejam decompostos em elementos menores para que a análise possa ser feita de forma rápida e econômica. O HDFS é uma abordagem versátil, resiliente e agrupada para gerenciar arquivos em um grande ambiente de dados.

HDFS não é o destino final para arquivos. Em vez disso, é um "serviço" de dados que oferece um conjunto único de recursos necessários quando os volumes de dados e a velocidade são altos.

MapReduce é uma estrutura de software que permite aos desenvolvedores escrever programas que podem processar enormes quantidades de dados não estruturados em paralelo em um grupo distribuído de processadores. MapReduce foi projetado pelo Google como uma maneira de executar de forma eficiente um conjunto de funções contra uma grande quantidade de dados no modo em lote.

O componente "mapa" distribui o problema ou tarefas de programação em um grande número de sistemas e lida com o posicionamento das tarefas de forma a equilibrar a carga e gerencia a recuperação de falhas. Após a conclusão da computação distribuída, outra função chamada "reduzir" agrega todos os elementos de volta para fornecer um resultado. Um exemplo do uso do MapReduce seria determinar quantas páginas de um livro estão escritas em cada uma das 50 línguas diferentes.

Colocando a base para sua grande estratégia de dados

As empresas estão nadando em dados importantes. O problema é que muitas vezes não sabem como usar pragmaticamente esses dados para poder prever o futuro, executar processos comerciais importantes ou simplesmente obter novos conhecimentos. O objetivo de sua grande estratégia e plano de dados deve ser encontrar uma maneira pragmática de aproveitar os dados para resultados comerciais mais previsíveis.

Comece sua grande estratégia de dados, iniciando um processo de descoberta. Você precisa se encaixar sobre os dados que você já possui, onde é, quem é o proprietário e controlado, e como é usado atualmente. Por exemplo, quais são as fontes de dados de terceiros em que sua empresa se baseia? Esse processo pode dar-lhe muitos pontos de vista:

Você pode determinar quantas fontes de dados você possui e quanto de sobreposição existe.
Você pode identificar lacunas existentes no conhecimento sobre essas fontes de dados.
Você pode descobrir que você tem muitos dados duplicados em uma área do negócio e quase nenhum dado em outra área.
Você pode verificar se você é dependente de dados de terceiros que não são tão precisos como deveria ser.

Passe o tempo que você precisa para fazer esse processo de descoberta porque será a base para seu planejamento e execução da sua grande estratégia de dados.