Lar Finanças Pessoais Gerenciando Tecnologias Big Data em uma Nuvem Híbrida - dummies

Gerenciando Tecnologias Big Data em uma Nuvem Híbrida - dummies

Índice:

Vídeo: GOOGLE CLOUD PLATFORM COMO USAR O QUE É WINDOWS SERVER LINUX UBUNTU DEBIAN COMPUTADOR VIRTUAL 2025

Vídeo: GOOGLE CLOUD PLATFORM COMO USAR O QUE É WINDOWS SERVER LINUX UBUNTU DEBIAN COMPUTADOR VIRTUAL 2025
Anonim

O termo dados grandes é usado frequentemente no mundo da tecnologia de nuvem híbrida devido à necessidade contínua de processar quantidades crescentes de dados. O fato-chave sobre os grandes dados é que ele existe no ponto de inflexão das soluções alternativas que as organizações historicamente implementaram para gerenciar grandes volumes de dados complexos. As grandes tecnologias de dados permitem às pessoas realmente analisar e utilizar esses dados de forma eficaz.

Características de dados grandes

Dados grandes geralmente têm três características: volume, variedade e velocidade:

  • Volume: Dados grandes são grandes em volume. Ele geralmente se refere a pelo menos terabytes de dados múltiplos. Muitas grandes implementações de dados estão buscando analisar petabytes de informações.

    Nome Valor
    Byte 10 0
    Gigabyte 10 9 bytes
    Terabyte 10 12 > bytes Petabyte
    10 15 bytes Exabyte
    10 18 bytes
    Variedade:
  • Os dados grandes vêm em diferentes formas e tamanhos. Ele inclui esses tipos de dados: Dados estruturados

    • é o tipo típico de dados que os analistas usam para lidar. Inclui receita e número de vendas - o tipo de dados que você pensa incluir em um banco de dados. Os dados estruturados também estão sendo produzidos de novas maneiras em produtos como sensores e tags RFID.

      Dados semi-estruturados
    • tem alguma estrutura, mas não da maneira como você pensa em tabelas em um banco de dados. Inclui formatos EDI e XML. Dados não estruturados

    • inclui texto, imagem e áudio, incluindo qualquer documento, mensagem de e-mail, tweet ou blog interno para uma empresa ou na Internet. Dados não estruturados representam cerca de 80% de todos os dados. Velocidade:

  • Esta é a velocidade na qual os dados se movem. Pense em sensores que capturam dados a cada milissegundo ou fluxos de dados produzidos a partir de equipamentos médicos. Os dados importantes geralmente vêm para você em um fluxo, então ele tem uma natureza em tempo real associada a ele. A nuvem é um lugar ideal para grandes dados devido ao seu armazenamento escalável, energia computacional e recursos elásticos. O modelo da nuvem é de grande escala; A computação distribuída e uma série de estruturas e tecnologias surgiram para suportar este modelo, incluindo

Apache Hadoop:

  • Uma plataforma de computação distribuída de código aberto escrita em Java. É uma biblioteca de software que permite o processamento distribuído entre clusters de computadores. É realmente um sistema de arquivos distribuídos. Ele cria um pool de computadores, cada um com um sistema de arquivos Hadoop. Hadoop foi projetado para lidar com grandes quantidades de dados complexos.Os dados podem ser estruturados, não estruturados ou semi-estruturados. O Hadoop pode executar vários servidores que não compartilham memória ou disco. Veja Hadoop para obter mais informações. MapReduce:

  • Uma estrutura de software introduzida pelo Google para suportar computação distribuída em grandes conjuntos de dados. É o cerne do que o Hadoop está fazendo com grandes dados e grandes análises de dados. Ele é projetado para aproveitar os recursos da nuvem. Esta computação é feita em vários computadores, chamado clusters , e cada cluster é referido como um nó . MapReduce pode lidar com dados estruturados e não estruturados. Os usuários especificam uma função de mapa que processa um par de chave / valor para gerar um conjunto de pares intermediários e uma função de redução que combina esses pares. Bancos de dados grandes

Um recurso importante do Hadoop é que ele pode lidar com diferentes tipos de dados. Os sistemas paralelos de gerenciamento de banco de dados estão no mercado há décadas. Eles podem suportar a execução paralela porque a maioria das tabelas são particionadas através dos nós em um cluster, e eles podem traduzir comandos SQL em um plano que está dividido entre os nós do cluster. No entanto, eles lidam principalmente com dados estruturados porque é difícil encaixar dados não estruturados e de forma livre nas colunas e linhas em um modelo relacional.

Hadoop iniciou um movimento no que foi chamado

NoSQL, significando não apenas SQL. O termo se refere a um conjunto de tecnologias que é diferente dos sistemas de banco de dados relacionais. Uma grande diferença é que eles não usam SQL. Eles também são projetados para lojas de dados distribuídos. O NoSQL não significa que as pessoas não deveriam usar o SQL. Em vez disso, a idéia é que, dependendo do seu problema, os bancos de dados relacionais e os bancos de dados NoSQL podem coexistir em uma organização. Existem vários exemplos desses tipos de bancos de dados, incluindo o seguinte:

Apache Cassandra:

  • Um sistema de gerenciamento de dados distribuído de código aberto originalmente desenvolvido pelo Facebook. Não possui requisitos de estrutura restrita, portanto pode lidar com todos os diferentes tipos de dados. Os especialistas afirmam que se destaca no processamento de transações em tempo real em tempo real. Outros bancos de dados de código aberto incluem MongoDB, Apache CouchDB e Apache HBase. Amazon Simple DB:

  • A Amazon compara esse banco de dados a uma planilha em que possui colunas e linhas com atributos e itens armazenados em cada um. Ao contrário de uma planilha, no entanto, cada célula pode ter vários valores, e cada item pode ter seu próprio conjunto de atributos associados. A Amazon então indexa automaticamente os dados. Recentemente, a Amazon anunciou o Amazon Dynamo DB como uma maneira de trazer dados grandes NoSQL para a nuvem. Google BigTable:

  • Este híbrido é como uma grande mesa. Como as tabelas podem ser grandes, elas são divididas nos limites das linhas em tabelas, que podem ser centenas de megabytes ou mais. MapReduce geralmente é usado para gerar e modificar dados armazenados no BigTable.

Gerenciando Tecnologias Big Data em uma Nuvem Híbrida - dummies

Escolha dos editores

Fontes de dados dos governos estaduais e locais dos EUA - manequins

Fontes de dados dos governos estaduais e locais dos EUA - manequins

Encontrando os dados que você precisa dos governos estaduais e locais pode ser muito desafiador. Alguns estados estão mais interessados ​​em compartilhar dados do que outros. Você não pode contar com todos os governos estaduais ou locais para ter um portal de dados aberto ou para encontrar alguém no governo local para ajudá-lo a encontrar o que você precisa ou ...

Elementos adicionados aos Filtros Bloom - dummies

Elementos adicionados aos Filtros Bloom - dummies

Geralmente, você cria filtros Bloom para algoritmos de tamanho fixo (versões desenvolvidas recentemente Permite-lhe redimensionar o filtro). Você os opera adicionando novos elementos ao filtro e procurando-os quando já estiver presente. Não é possível remover um elemento do filtro depois de adicioná-lo (o filtro tem um indelével ...

Abordagens diferentes para grande análise de dados - manequins

Abordagens diferentes para grande análise de dados - manequins

Em muitos casos, a grande análise de dados será representada para o usuário final através de relatórios e visualizações. Como os dados brutos podem ser incompreensivamente variados, você terá que contar com ferramentas e técnicas de análise para ajudar a apresentar os dados de maneiras significativas. Novas aplicações estão disponíveis e serão abrangidas em duas categorias: ...

Escolha dos editores

Como a pesquisa local funciona? - Dummies

Como a pesquisa local funciona? - Dummies

A pesquisa local baseia-se em várias metodologias diferentes, incluindo a ciência conhecida como geolocalização, a ciência de tentar descobrir onde é que o computador é, geograficamente falando. Como o motor de busca descobre se um computador está no Colorado ou na Flórida? Bem, a pesquisa local geralmente funciona de algumas maneiras básicas. Diferente ...

Como adicionar sua empresa a um mecanismo de busca - manequins

Como adicionar sua empresa a um mecanismo de busca - manequins

Para obter o seu negócios em uma pesquisa local, você deve começar no mecanismo de pesquisa em si. O mecanismo de pesquisa mostra onde você já está nos resultados locais e, a partir daí, você pode pegar o controle de sua lista atual ou adicionar um novo.

Escolha dos editores

Como montar um controlador de PC ShowTime para displays de iluminação - manequins

Como montar um controlador de PC ShowTime para displays de iluminação - manequins

Quando você está configurando uma exibição de luz de férias, você pode comprar um controlador de PC ShowTime da Light-O-Rama como um kit de bricolage, mas você terá que montá-lo sozinho. Isso significa que você terá que soldar todos os componentes na placa de circuito principal, instalar a placa no recipiente à prova de intempéries e conectar todos os vários cabos ...

Eclipse Para Dummies Cheat Sheet - dummies

Eclipse Para Dummies Cheat Sheet - dummies

O eclipse é um ambiente de desenvolvimento de código aberto e integrado e um ótimo all-in - uma ferramenta para desenvolver e executar programas de computador. Ele pode ajudá-lo com uma infinidade de projetos, especialmente em Java.

Componentes eletrônicos básicos e o que eles fazem - manequins

Componentes eletrônicos básicos e o que eles fazem - manequins

Você trabalhará com uma série de componentes eletrônicos básicos ao construir circuitos eletrônicos, incluindo resistências, capacitores, diodos, transistores e circuitos integrados. Aqui está uma breve visão geral das funções de cada um desses componentes eletrônicos básicos. Resistores Um resistor é um componente que resiste ao fluxo de corrente. É um dos mais básicos ...