Gerenciando Tecnologias Big Data em uma Nuvem Híbrida - dummies

Vídeo: GOOGLE CLOUD PLATFORM COMO USAR O QUE É WINDOWS SERVER LINUX UBUNTU DEBIAN COMPUTADOR VIRTUAL 2025

O termo dados grandes é usado frequentemente no mundo da tecnologia de nuvem híbrida devido à necessidade contínua de processar quantidades crescentes de dados. O fato-chave sobre os grandes dados é que ele existe no ponto de inflexão das soluções alternativas que as organizações historicamente implementaram para gerenciar grandes volumes de dados complexos. As grandes tecnologias de dados permitem às pessoas realmente analisar e utilizar esses dados de forma eficaz.

Características de dados grandes

Dados grandes geralmente têm três características: volume, variedade e velocidade:

Volume: Dados grandes são grandes em volume. Ele geralmente se refere a pelo menos terabytes de dados múltiplos. Muitas grandes implementações de dados estão buscando analisar petabytes de informações.

Nome	Valor
Byte	10 ⁰
Gigabyte	10 ⁹ bytes
Terabyte	10 ^{12 > bytes} Petabyte
10	15 ^bytes Exabyte
10	18 ^bytes

Variedade:

Os dados grandes vêm em diferentes formas e tamanhos. Ele inclui esses tipos de dados: Dados estruturados
- é o tipo típico de dados que os analistas usam para lidar. Inclui receita e número de vendas - o tipo de dados que você pensa incluir em um banco de dados. Os dados estruturados também estão sendo produzidos de novas maneiras em produtos como sensores e tags RFID.
  
  Dados semi-estruturados
- tem alguma estrutura, mas não da maneira como você pensa em tabelas em um banco de dados. Inclui formatos EDI e XML. Dados não estruturados
- inclui texto, imagem e áudio, incluindo qualquer documento, mensagem de e-mail, tweet ou blog interno para uma empresa ou na Internet. Dados não estruturados representam cerca de 80% de todos os dados. Velocidade:
Esta é a velocidade na qual os dados se movem. Pense em sensores que capturam dados a cada milissegundo ou fluxos de dados produzidos a partir de equipamentos médicos. Os dados importantes geralmente vêm para você em um fluxo, então ele tem uma natureza em tempo real associada a ele. A nuvem é um lugar ideal para grandes dados devido ao seu armazenamento escalável, energia computacional e recursos elásticos. O modelo da nuvem é de grande escala; A computação distribuída e uma série de estruturas e tecnologias surgiram para suportar este modelo, incluindo

Apache Hadoop:

Uma plataforma de computação distribuída de código aberto escrita em Java. É uma biblioteca de software que permite o processamento distribuído entre clusters de computadores. É realmente um sistema de arquivos distribuídos. Ele cria um pool de computadores, cada um com um sistema de arquivos Hadoop. Hadoop foi projetado para lidar com grandes quantidades de dados complexos.Os dados podem ser estruturados, não estruturados ou semi-estruturados. O Hadoop pode executar vários servidores que não compartilham memória ou disco. Veja Hadoop para obter mais informações. MapReduce:
Uma estrutura de software introduzida pelo Google para suportar computação distribuída em grandes conjuntos de dados. É o cerne do que o Hadoop está fazendo com grandes dados e grandes análises de dados. Ele é projetado para aproveitar os recursos da nuvem. Esta computação é feita em vários computadores, chamado clusters , e cada cluster é referido como um nó . MapReduce pode lidar com dados estruturados e não estruturados. Os usuários especificam uma função de mapa que processa um par de chave / valor para gerar um conjunto de pares intermediários e uma função de redução que combina esses pares. Bancos de dados grandes

Um recurso importante do Hadoop é que ele pode lidar com diferentes tipos de dados. Os sistemas paralelos de gerenciamento de banco de dados estão no mercado há décadas. Eles podem suportar a execução paralela porque a maioria das tabelas são particionadas através dos nós em um cluster, e eles podem traduzir comandos SQL em um plano que está dividido entre os nós do cluster. No entanto, eles lidam principalmente com dados estruturados porque é difícil encaixar dados não estruturados e de forma livre nas colunas e linhas em um modelo relacional.

Hadoop iniciou um movimento no que foi chamado

NoSQL, significando não apenas SQL. O termo se refere a um conjunto de tecnologias que é diferente dos sistemas de banco de dados relacionais. Uma grande diferença é que eles não usam SQL. Eles também são projetados para lojas de dados distribuídos. O NoSQL não significa que as pessoas não deveriam usar o SQL. Em vez disso, a idéia é que, dependendo do seu problema, os bancos de dados relacionais e os bancos de dados NoSQL podem coexistir em uma organização. Existem vários exemplos desses tipos de bancos de dados, incluindo o seguinte:

Apache Cassandra:

Um sistema de gerenciamento de dados distribuído de código aberto originalmente desenvolvido pelo Facebook. Não possui requisitos de estrutura restrita, portanto pode lidar com todos os diferentes tipos de dados. Os especialistas afirmam que se destaca no processamento de transações em tempo real em tempo real. Outros bancos de dados de código aberto incluem MongoDB, Apache CouchDB e Apache HBase. Amazon Simple DB:
A Amazon compara esse banco de dados a uma planilha em que possui colunas e linhas com atributos e itens armazenados em cada um. Ao contrário de uma planilha, no entanto, cada célula pode ter vários valores, e cada item pode ter seu próprio conjunto de atributos associados. A Amazon então indexa automaticamente os dados. Recentemente, a Amazon anunciou o Amazon Dynamo DB como uma maneira de trazer dados grandes NoSQL para a nuvem. Google BigTable:
Este híbrido é como uma grande mesa. Como as tabelas podem ser grandes, elas são divididas nos limites das linhas em tabelas, que podem ser centenas de megabytes ou mais. MapReduce geralmente é usado para gerar e modificar dados armazenados no BigTable.