Índice:
- O Public Elastic Compute Cloud da Amazon para grandes dados
- Google grandes serviços de dados
- Microsoft Azure para dados grandes
- OpenStack para dados grandes
Vídeo: CLOUDCAL Software de calibração online (Dados em nuvem). 2024
Os provedores de nuvem vêm em todas as formas e tamanhos e oferecem muitos produtos diferentes para grandes dados. Alguns são nomes familiares, enquanto outros estão emergindo recentemente. Alguns dos fornecedores da nuvem que oferecem serviços IaaS que podem ser usados para grandes dados incluem o Amazon. com, AT & T, GoGrid, Joyent, Rackspace, IBM e Verizon / Terremark.
O Public Elastic Compute Cloud da Amazon para grandes dados
Atualmente, um dos provedores de serviços IaaS de maior perfil é o Amazon Web Services com o Elastic Compute Cloud (Amazon EC2). A Amazon não começou com uma visão para construir um grande negócio de serviços de infraestrutura.
Em vez disso, a empresa construiu uma enorme infra-estrutura para apoiar seu próprio negócio de varejo e descobriu que seus recursos estavam subutilizados. Em vez de permitir que esse recurso permaneça ocioso, ele decidiu alavancar esse recurso enquanto adicionava a linha de fundo. O serviço EC2 da Amazon foi lançado em 2006 e continua a evoluir.
O Amazon EC2 oferece escalabilidade sob o controle do usuário, com o usuário pagando recursos por hora. O uso do termo elástico na nomeação do EC2 da Amazon é significativo. Aqui, a elasticidade refere-se à capacidade de os usuários da CE2 aumentar ou diminuir os recursos de infraestrutura designados para atender às suas necessidades.
A Amazon também oferece outros grandes serviços de dados aos clientes do portfólio de serviços da Web da Amazon. Estes incluem o seguinte:
-
Amazon Elastic MapReduce: Destinado ao processamento de enormes volumes de dados. O MapReduce elástico utiliza uma estrutura Hadoop hospedada rodando em EC2 e Amazon Simple Storage Service (Amazon S3). Os usuários agora podem executar o HBase.
-
Amazon DynamoDB: Um serviço de banco de dados não SQL completo (NoSQL) totalmente gerenciado. DynamoDB é um serviço de armazenamento de dados altamente tolerável a falhas que oferece auto-provisionamento, escalabilidade transparente e administração simples. É implementado em SSDs (discos de estado sólido) para maior confiabilidade e alto desempenho.
-
Amazon Simple Storage Service (S3): Um serviço de escala web projetado para armazenar qualquer quantidade de dados. A força do seu centro de design é o desempenho e a escalabilidade, de modo que não é tão útil como outras lojas de dados. Os dados são armazenados em "baldes" e você pode selecionar uma ou mais regiões globais para armazenamento físico para atender às necessidades de latência ou regulamentares.
-
Computação de alto desempenho da Amazon: Ajustado para tarefas especializadas, este serviço fornece clusters de computação de alto desempenho ajustados de baixa latência. O mais frequentemente usado por cientistas e acadêmicos, a HPC está entrando no mainstream por causa da oferta da Amazon e de outros provedores de HPC.Os clusters Amazon HPC são construídos para cargas de trabalho específicas e podem ser reconfigurados facilmente para novas tarefas.
-
Amazon RedShift: Disponível em visualização limitada, o RedShift é um serviço de armazenamento de dados de escala petabyte, construído em uma arquitetura MPP escalável. Administrado pela Amazon, oferece uma alternativa segura e confiável aos armazéns de dados internos e é compatível com várias ferramentas populares de inteligência de negócios.
Google grandes serviços de dados
Google, o gigante da busca na Internet, também oferece uma série de serviços em nuvem direcionados para grandes dados. Estes incluem o seguinte:
-
Google Compute Engine: Uma capacidade baseada em nuvem para computação de máquinas virtuais, o Google Compute Engine oferece um ambiente de computação seguro e flexível a partir de centros de dados eficientes em energia. O Google também oferece soluções de gerenciamento de carga de trabalho de vários parceiros de tecnologia que otimizaram seus produtos para o Google Compute Engine.
-
Google Big Query: Permite-lhe executar consultas semelhantes a SQL a uma velocidade elevada contra grandes conjuntos de dados de potencialmente bilhões de linhas. Embora seja bom para a consulta de dados, os dados não podem ser modificados depois dele. Considere o Google Big Query como uma espécie de sistema OLAP (Online Analytical Processing) para grandes dados. É bom para relatórios ad hoc ou análise exploratória.
-
Google Prediction API: Uma ferramenta de aprendizado de computador baseada em nuvem para grandes quantidades de dados, a Previsão é capaz de identificar padrões em dados e, em seguida, lembrá-los. Pode aprender mais sobre um padrão cada vez que é usado. Os padrões podem ser analisados para uma variedade de propósitos, incluindo detecção de fraude, análise de churn e sentimento do cliente.
Microsoft Azure para dados grandes
Com base em abstrações do Windows e SQL, a Microsoft produziu um conjunto de ferramentas de desenvolvimento, suporte de máquina virtual, gerenciamento e serviços de mídia e serviços de dispositivos móveis em uma oferta PaaS. Para clientes com experiência profunda em. Net, SQLServer e Windows, a adoção do PaaS baseado em Azure é direta.
Para atender aos requisitos emergentes para integrar grandes dados nas soluções Windows Azure, a Microsoft também adicionou o Windows Azure HDInsight. Construído em Hortonworks Data Platform (HDP), que de acordo com a Microsoft, oferece 100% de compatibilidade com o Apache Hadoop, o HDInsight oferece suporte à conexão com o Microsoft Excel e outras ferramentas de business intelligence (BI). Além do Azure HDInsight também pode ser implantado no Windows Server.
OpenStack para dados grandes
Iniciado pelo Rackspace e pela NASA, o OpenStack está implementando uma plataforma de nuvem aberta que visa nuvens públicas ou privadas. Embora a organização seja bem gerenciada pelo Rackspace, ela se mudou para uma base separada do OpenStack. Embora as empresas possam aproveitar o OpenStack para criar implementações proprietárias, a designação OpenStack requer conformidade com uma implementação padrão de serviços.
O objetivo da OpenStack é fornecer uma especificação de nuvem multidimensionalmente dimensionada, que pode ser executada em qualquer hardware. O OpenStack está criando um grande ecossistema de parceiros interessados em adotar sua plataforma em nuvem, incluindo Dell, HP, Intel, Cisco, Red Hat e IBM, além de pelo menos 100 outros que utilizam o OpenStack como base para suas ofertas na nuvem.
Em essência, o OpenStack é uma iniciativa IaaS de código aberto criada no Ubuntu, um sistema operacional baseado na distribuição Debian Linux. Também pode ser executado na versão do Linux da Red Hat.
O OpenStack oferece uma gama de serviços, incluindo computação, armazenamento de objetos, catálogo e repositório, painel, identidade e rede. Em termos de dados importantes, o Rackspace e o Hortonworks (um provedor de uma plataforma de gerenciamento de dados de código aberto baseado em Apache Hadoop) anunciaram que o Rackspace lançará um serviço Hadoop baseado em nuvem público OpenStack, que será validado e suportado pelo Hortonworks e permitirá que os clientes para criar rapidamente um grande ambiente de dados.