Lar Finanças Pessoais Alternativas Big Data Solutions - dummies

Alternativas Big Data Solutions - dummies

Índice:

Vídeo: Industrial Ecology and Sustainable Engineering | Let’s Talk Symposium | SKF 2025

Vídeo: Industrial Ecology and Sustainable Engineering | Let’s Talk Symposium | SKF 2025
Anonim

Ao passado, Hadoop, você pode ver soluções alternativas de dados grandes em o horizonte. Essas soluções possibilitam trabalhar com grandes dados em tempo real ou usar tecnologias alternativas de banco de dados para lidar e processá-lo. Aqui, você é apresentado para as estruturas de processamento em tempo real, as plataformas Massive Parallel Processing (MPP) e, finalmente, os bancos de dados NoSQL que permitem que você trabalhe com grandes dados fora do ambiente Hadoop.

Você deve estar ciente de algo conhecido como conformidade ACID, curto para A tomicity, C onsistency, I solation, e D conformidade de urabilidade. A conformidade ACID é um padrão pelo qual as transações de banco de dados precisas e confiáveis ​​são garantidas.

Em grandes soluções de dados, a maioria dos sistemas de banco de dados não são compatíveis com ACID, mas isso não representa necessariamente um grande problema. Isso ocorre porque a maioria dos grandes sistemas de dados usam Decision Support Systems (DSS) que lote processam os dados antes que esses dados sejam lidos. DSS são sistemas de informação que são usados ​​para suporte de decisão organizacional. O DSS não transacional demonstra que não há requisitos de conformidade ACID reais.

estruturas de processamento em tempo real

Às vezes você pode precisar consultar grandes fluxos de dados em tempo real … e você simplesmente não pode fazer esse tipo de coisa usando o Hadoop. Nesses casos, use uma estrutura de processamento em tempo real em vez disso. A estrutura de processamento em tempo real é - como o próprio nome indica - uma estrutura capaz de processar dados em tempo real (ou quase em tempo real) como fluxos de dados e fluxos no sistema. Essencialmente, as estruturas de processamento em tempo real são a antítese das estruturas de processamento em lote que você vê implantadas no Hadoop.

As estruturas de processamento em tempo real podem ser classificadas nas seguintes duas categorias:

  • Estruturas que reduzem a sobrecarga das tarefas MapReduce para aumentar a eficiência geral do tempo do sistema: Soluções em Esta categoria inclui Apache Storm e Apache Spark para o processamento de fluxo em tempo real.

  • Estruturas que implementam métodos de consulta inovadores para facilitar a consulta em tempo real de dados importantes: Algumas soluções nesta categoria incluem o Dremel da Google, a Broca Apache, o Tubarão para Apache Hive e o Impala de Cloudera.

As estruturas de processamento de fluxo em tempo real são bastante úteis em uma infinidade de indústrias - desde análises de estoque e de mercado financeiro até otimizações de comércio eletrônico e de detecção de fraude em tempo real para logística de pedidos otimizada. Independentemente do setor em que você trabalha, se seu negócio é afetado por fluxos de dados em tempo real gerados por humanos, máquinas ou sensores, então uma estrutura de processamento em tempo real seria útil para otimizar e gerar valor para sua organização.

Plataformas MPP (Massively Parallel Processing)

Plataformas MPP (Massively Parallel Processing) podem ser usadas em vez de MapReduce como uma abordagem alternativa para o processamento de dados distribuídos. Se o seu objetivo é implantar o processamento paralelo em um data warehouse tradicional, um MPP pode ser a solução perfeita.

Para entender como o MPP se compara a uma estrutura de processamento padrão do MapReduce, considere o seguinte. O MPP executa tarefas de computação paralela em hardware costoso e personalizado, enquanto o MapReduce os executa em servidores de commodities baratos. Conseqüentemente, as capacidades de processamento MPP são restritivas de custos. Dito isto, o MPP é mais rápido e fácil de usar do que os trabalhos padrão do MapReduce. Isso ocorre porque o MPP pode ser consultado usando o Structured Query Language (SQL), mas os trabalhos MapReduce nativos são controlados pela linguagem de programação Java mais complicada.

Vendedores e produtos MPP bem conhecidos incluem a plataforma Teradata da velha escola, além de novas soluções, como o Greenplum DCA da EMC 2 , a Vertica da HP, a Netezza da IBM e a Exadata da Oracle.

Introduzindo os bancos de dados NoSQL

Tradicionais sistemas de gerenciamento de banco de dados relacionais (RDBMS) não estão equipados para lidar com grandes demandas de dados. Isso ocorre porque os bancos de dados relacionais tradicionais são projetados para lidar somente com conjuntos de dados relacionais que são construídos com dados que são armazenados em linhas e colunas limpas e, portanto, podem ser consultados através do SQL (Structured Query Language).

Os sistemas RDBM não são capazes de lidar com dados não estruturados e semi-estruturados. Além disso, os sistemas RDBM simplesmente não possuem as capacidades de processamento e manuseio necessárias para atender aos grandes requisitos de volume e velocidade.

É aqui que entra o NoSQL. Os bancos de dados NoSQL, como o MongoDB, são sistemas de banco de dados distribuídos e não relacionais que foram projetados para aumentar o grande desafio de dados. Os bancos de dados NoSQL passam para além da arquitetura tradicional do banco de dados relacional e oferecem uma solução muito mais escalável e eficiente.

Os sistemas NoSQL facilitam a consulta de dados não-SQL de dados não-relacionais ou isentos de esquemas, semi-estruturados e não estruturados. Desta forma, os bancos de dados NoSQL são capazes de lidar com fontes de dados estruturadas, semi-estruturadas e não estruturadas que são comuns em grandes sistemas de dados.

O NoSQL oferece quatro categorias de bancos de dados não-relacionais: bancos de dados de gráficos, bancos de dados de documentos, lojas de valores-chave e lojas de família de colunas. Uma vez que o NoSQL oferece funcionalidades nativas para cada um desses tipos de estruturas de dados, ele oferece funcionalidades de armazenamento e recuperação muito eficientes para a maioria dos tipos de dados não relacionais. Essa adaptabilidade e eficiência fazem do NoSQL uma escolha cada vez mais popular para lidar com grandes dados e para superar os desafios de processamento que acompanham.

Há um pouco de debate sobre o significado do nome NoSQL. Alguns argumentam que o NoSQL representa Not Only SQL , enquanto outros argumentam que o acrônimo representa bancos de dados não-SQL . O argumento é bastante complexo e não há uma resposta real cortada e seca.Para manter as coisas simples, basta pensar no NoSQL como uma classe de sistemas de gerenciamento de banco de dados não-relacionais que não se enquadram no espectro dos sistemas RDBM que são consultados usando o SQL.

Alternativas Big Data Solutions - dummies

Escolha dos editores

A Igreja Católica nos séculos XIV e XV - manequins

A Igreja Católica nos séculos XIV e XV - manequins

Enquanto o Papa Inocêncio III (1198-1216) ) sintetizou o zênite do poder e influência papal, o Papa Bonifácio VIII (1294-1303) personificou um dos pontificados mais complicados, misteriosos e às vezes contraditórios da Igreja. O rei Filipe IV da França e Bonifácio tornaram-se inimigos amargos no começo. Seu relacionamento piorou ao longo do tempo, e em 1303, Philip enviou mercenários ...

Catolicismo All-In-One For Dummies Cheat Sheet - dummies

Catolicismo All-In-One For Dummies Cheat Sheet - dummies

Enquanto diz as orações do Rosário, os católicos meditam sobre os chamados Mistérios Alegres, luminosos, dolorosos e gloriosos do Rosário. Mas dizer que os mistérios não são realmente mistérios, porque cada chamado mistério se refere a uma passagem diferente na vida de Cristo ou Maria, sua mãe. Cada década (um Nosso ...

10 Católicos famosos - manequins

10 Católicos famosos - manequins

Aqui está uma lista de dez dos católicos mais famosos, começando com os mais famosos. Mas tome cuidado: apenas ser batizado católico não significa que uma pessoa seja uma boa católica. A Igreja Católica acredita que um bom católico é aquele que regularmente e fielmente pratica sua fé todos os dias de sua vida. Uma pessoa ...

Escolha dos editores

Como girar objetos de desenho no PowerPoint 2007 - dummies

Como girar objetos de desenho no PowerPoint 2007 - dummies

O PowerPoint rotate handle permite que você dê os desenhos seus slides são inclinados. Com a alça de rotação do PowerPoint, você pode girar um objeto para qualquer ângulo arbitrário apenas arrastando-o com o mouse. O identificador de rotação é o identificador verde que aparece quando você seleciona um objeto que pode ser girado. A rotação ...

Como executar um programa através de uma hiperligação no PowerPoint 2013 - dummies

Como executar um programa através de uma hiperligação no PowerPoint 2013 - dummies

Uma hiperligação do PowerPoint pode também executar qualquer programa dentro de uma apresentação. Por exemplo, você pode criar uma apresentação que explica como comercializar um novo programa de computador e, em seguida, criar um hiperlink para o mesmo programa para que você possa demonstrar como esse programa realmente funciona. Quando você sair desse programa, você retorna para o seu ...

Como reorganizar slides na exibição do classificador de slides do PowerPoint 2016 - dummies

Como reorganizar slides na exibição do classificador de slides do PowerPoint 2016 - dummies

Exibição normal no PowerPoint 2016 is a visão em que você normalmente trabalha para editar seus slides, mover as coisas, adicionar texto ou gráficos, e assim por diante. No entanto, a Visão Normal tem uma limitação séria: não dá uma imagem muito importante da sua apresentação. Você pode ver os detalhes de apenas um slide em um ...

Escolha dos editores

Gerentes de comunidade on-line são multitarefas - manequins

Gerentes de comunidade on-line são multitarefas - manequins

Não só você tem que usar muitos chapéus como uma comunidade on-line gerente, mas às vezes você também sente que está vestindo todos eles ao mesmo tempo. Em qualquer dia, você pode esperar ter pelo menos meia dúzia de janelas do computador abertas ao mesmo tempo. Você pode ter ...

Community Manager: como representar a marca - dummies

Community Manager: como representar a marca - dummies

Como a representação mais pública do seu A marca, você, o gerente da comunidade online, é a pessoa a quem todos estarão buscando comentários, perguntas, sugestões e até propostas de negócios. Ao atuar como porta-voz da marca, você tem muitos itens a considerar: políticas sobre divulgação, transparência e o que divulgar ao público: Às vezes ...

Gerentes de comunidade on-line devem encontrar humor em situações difíceis - manequins

Gerentes de comunidade on-line devem encontrar humor em situações difíceis - manequins

Não todas as crises que enfrenta como on-line O gerente da comunidade tem que ser silencioso ou super sério. Você encontrará que as pessoas apreciam marcas que mostram um lado humano. Se você pode tratar a negatividade com humor e não insultar a inteligência de sua comunidade, você não só controlará os danos, mas também poderá atrair uma série de novos ...