Lar Finanças Pessoais Alternativas Big Data Solutions - dummies

Alternativas Big Data Solutions - dummies

Índice:

Vídeo: Industrial Ecology and Sustainable Engineering | Let’s Talk Symposium | SKF 2024

Vídeo: Industrial Ecology and Sustainable Engineering | Let’s Talk Symposium | SKF 2024
Anonim

Ao passado, Hadoop, você pode ver soluções alternativas de dados grandes em o horizonte. Essas soluções possibilitam trabalhar com grandes dados em tempo real ou usar tecnologias alternativas de banco de dados para lidar e processá-lo. Aqui, você é apresentado para as estruturas de processamento em tempo real, as plataformas Massive Parallel Processing (MPP) e, finalmente, os bancos de dados NoSQL que permitem que você trabalhe com grandes dados fora do ambiente Hadoop.

Você deve estar ciente de algo conhecido como conformidade ACID, curto para A tomicity, C onsistency, I solation, e D conformidade de urabilidade. A conformidade ACID é um padrão pelo qual as transações de banco de dados precisas e confiáveis ​​são garantidas.

Em grandes soluções de dados, a maioria dos sistemas de banco de dados não são compatíveis com ACID, mas isso não representa necessariamente um grande problema. Isso ocorre porque a maioria dos grandes sistemas de dados usam Decision Support Systems (DSS) que lote processam os dados antes que esses dados sejam lidos. DSS são sistemas de informação que são usados ​​para suporte de decisão organizacional. O DSS não transacional demonstra que não há requisitos de conformidade ACID reais.

estruturas de processamento em tempo real

Às vezes você pode precisar consultar grandes fluxos de dados em tempo real … e você simplesmente não pode fazer esse tipo de coisa usando o Hadoop. Nesses casos, use uma estrutura de processamento em tempo real em vez disso. A estrutura de processamento em tempo real é - como o próprio nome indica - uma estrutura capaz de processar dados em tempo real (ou quase em tempo real) como fluxos de dados e fluxos no sistema. Essencialmente, as estruturas de processamento em tempo real são a antítese das estruturas de processamento em lote que você vê implantadas no Hadoop.

As estruturas de processamento em tempo real podem ser classificadas nas seguintes duas categorias:

  • Estruturas que reduzem a sobrecarga das tarefas MapReduce para aumentar a eficiência geral do tempo do sistema: Soluções em Esta categoria inclui Apache Storm e Apache Spark para o processamento de fluxo em tempo real.

  • Estruturas que implementam métodos de consulta inovadores para facilitar a consulta em tempo real de dados importantes: Algumas soluções nesta categoria incluem o Dremel da Google, a Broca Apache, o Tubarão para Apache Hive e o Impala de Cloudera.

As estruturas de processamento de fluxo em tempo real são bastante úteis em uma infinidade de indústrias - desde análises de estoque e de mercado financeiro até otimizações de comércio eletrônico e de detecção de fraude em tempo real para logística de pedidos otimizada. Independentemente do setor em que você trabalha, se seu negócio é afetado por fluxos de dados em tempo real gerados por humanos, máquinas ou sensores, então uma estrutura de processamento em tempo real seria útil para otimizar e gerar valor para sua organização.

Plataformas MPP (Massively Parallel Processing)

Plataformas MPP (Massively Parallel Processing) podem ser usadas em vez de MapReduce como uma abordagem alternativa para o processamento de dados distribuídos. Se o seu objetivo é implantar o processamento paralelo em um data warehouse tradicional, um MPP pode ser a solução perfeita.

Para entender como o MPP se compara a uma estrutura de processamento padrão do MapReduce, considere o seguinte. O MPP executa tarefas de computação paralela em hardware costoso e personalizado, enquanto o MapReduce os executa em servidores de commodities baratos. Conseqüentemente, as capacidades de processamento MPP são restritivas de custos. Dito isto, o MPP é mais rápido e fácil de usar do que os trabalhos padrão do MapReduce. Isso ocorre porque o MPP pode ser consultado usando o Structured Query Language (SQL), mas os trabalhos MapReduce nativos são controlados pela linguagem de programação Java mais complicada.

Vendedores e produtos MPP bem conhecidos incluem a plataforma Teradata da velha escola, além de novas soluções, como o Greenplum DCA da EMC 2 , a Vertica da HP, a Netezza da IBM e a Exadata da Oracle.

Introduzindo os bancos de dados NoSQL

Tradicionais sistemas de gerenciamento de banco de dados relacionais (RDBMS) não estão equipados para lidar com grandes demandas de dados. Isso ocorre porque os bancos de dados relacionais tradicionais são projetados para lidar somente com conjuntos de dados relacionais que são construídos com dados que são armazenados em linhas e colunas limpas e, portanto, podem ser consultados através do SQL (Structured Query Language).

Os sistemas RDBM não são capazes de lidar com dados não estruturados e semi-estruturados. Além disso, os sistemas RDBM simplesmente não possuem as capacidades de processamento e manuseio necessárias para atender aos grandes requisitos de volume e velocidade.

É aqui que entra o NoSQL. Os bancos de dados NoSQL, como o MongoDB, são sistemas de banco de dados distribuídos e não relacionais que foram projetados para aumentar o grande desafio de dados. Os bancos de dados NoSQL passam para além da arquitetura tradicional do banco de dados relacional e oferecem uma solução muito mais escalável e eficiente.

Os sistemas NoSQL facilitam a consulta de dados não-SQL de dados não-relacionais ou isentos de esquemas, semi-estruturados e não estruturados. Desta forma, os bancos de dados NoSQL são capazes de lidar com fontes de dados estruturadas, semi-estruturadas e não estruturadas que são comuns em grandes sistemas de dados.

O NoSQL oferece quatro categorias de bancos de dados não-relacionais: bancos de dados de gráficos, bancos de dados de documentos, lojas de valores-chave e lojas de família de colunas. Uma vez que o NoSQL oferece funcionalidades nativas para cada um desses tipos de estruturas de dados, ele oferece funcionalidades de armazenamento e recuperação muito eficientes para a maioria dos tipos de dados não relacionais. Essa adaptabilidade e eficiência fazem do NoSQL uma escolha cada vez mais popular para lidar com grandes dados e para superar os desafios de processamento que acompanham.

Há um pouco de debate sobre o significado do nome NoSQL. Alguns argumentam que o NoSQL representa Not Only SQL , enquanto outros argumentam que o acrônimo representa bancos de dados não-SQL . O argumento é bastante complexo e não há uma resposta real cortada e seca.Para manter as coisas simples, basta pensar no NoSQL como uma classe de sistemas de gerenciamento de banco de dados não-relacionais que não se enquadram no espectro dos sistemas RDBM que são consultados usando o SQL.

Alternativas Big Data Solutions - dummies

Escolha dos editores

Origem e Design de Hadoop - dummies

Origem e Design de Hadoop - dummies

Então, o que é exatamente isso com o nome engraçado - Hadoop? No seu núcleo, o Hadoop é uma estrutura para armazenar dados em grandes clusters de hardware de commodities - hardware de computador todos os dias acessível e facilmente disponível - e executando aplicativos contra esses dados. Um cluster é um grupo de computadores interligados (conhecido como ...

A arquitetura do porco em Hadoop - dummies

A arquitetura do porco em Hadoop - dummies

"Simples" geralmente significa "elegante" quando se trata de desenhos arquitetônicos para Essa nova mansão do Vale do Silício que você planejou quando o dinheiro começa a rolar depois de implementar o Hadoop. O mesmo princípio se aplica à arquitetura de software. O porco é composto por dois componentes (count 'em, two): O próprio idioma: como prova de que os programadores ...

MapReduce Application Flow em Hadoop - dummies

MapReduce Application Flow em Hadoop - dummies

No seu núcleo, MapReduce é um modelo de programação para o processamento de conjuntos de dados que são armazenados de forma distribuída nos nós de escravo de um cluster Hadoop. O conceito-chave aqui é dividir e conquistar. Especificamente, você deseja quebrar um grande conjunto de dados em muitas peças menores e processá-las em paralelo com o mesmo algoritmo. ...

Escolha dos editores

Apoiando a sua campanha PPC com análise de palavras-chave - manequins

Apoiando a sua campanha PPC com análise de palavras-chave - manequins

A base de todo o trabalho do mecanismo de pesquisa é uma análise de palavras-chave. Fazer uma análise de palavras-chave realmente não é tão complicado e pode significar a diferença entre sucesso e falha em sua campanha PPC. Comece digitando as palavras-chave óbvias em um editor de texto ou processador de texto - aqueles que você já pensou ou, se você ...

Envie seu site para Yahoo! Search Directory - dummies

Envie seu site para Yahoo! Search Directory - dummies

Envios para o Yahoo! O diretório costumava ser muito difícil. Pesquisas mostraram que as pessoas que conseguiram obter seus sites listados no diretório tiveram que tentar várias vezes em questão de meses. Era grátis, mas era um aborrecimento. A boa notícia: você pode obter seu site listado em Yahoo! Diretório ...

Dicas para criar e otimizar conteúdo para objetos e indústrias difíceis - manequins

Dicas para criar e otimizar conteúdo para objetos e indústrias difíceis - manequins

Em A superfície, a criação de conteúdo não soa tão difícil até você se sentar e tentar escrever. Sua estratégia de SEO depende desse conteúdo. É ainda pior se você estiver escrevendo conteúdo para o que muitas pessoas podem considerar uma indústria chata. A boa notícia é que é possível transformar indivíduos potencialmente chatos em bons ...

Escolha dos editores

Componentes eletrônicos: transistores como um potenciômetro mágico - manequins

Componentes eletrônicos: transistores como um potenciômetro mágico - manequins

Um transistor dentro de um O circuito eletrônico funciona como uma combinação de um diodo e um resistor variável, também chamado de potenciômetro ou pote. Mas isso não é apenas um pote comum; é um pote mágico cujo botão é misteriosamente conectado ao diodo por raios invisíveis, tipo desse tipo: quando a tensão direta é aplicada em ...

Componentes eletrônicos: Resistores - manequins

Componentes eletrônicos: Resistores - manequins

Um resistor é um pequeno componente projetado para fornecer um específico quantidade de resistência em um circuito eletrônico. Como a resistência é um elemento essencial de quase todos os circuitos eletrônicos, você usará resistores em quase todos os circuitos que você constrói. Embora os resistores venham em uma variedade de tamanhos e formas, o tipo mais comum ...