Vídeo: ?Roteador Wifi de Longa Distância Tenda AC10 2,4 e 5Ghz ⚙️ Review + Teste Sinal Wireless 2024
Apenas ter um computador mais rápido não é suficiente para garantir o nível correto de desempenho para lidar com grandes dados. Você precisa distribuir componentes de seu grande serviço de dados em uma série de nós. Na computação distribuída, um nó é um elemento contido em um conjunto de sistemas ou dentro de um rack.
Um nó geralmente inclui CPU, memória e algum tipo de disco. No entanto, um nó também pode ser uma CPU blade e memória que dependem de armazenamento próximo dentro de um rack.
Dentro de um grande ambiente de dados, esses nós normalmente são agrupados para fornecer escala. Por exemplo, você pode começar com uma grande análise de dados e continuar a adicionar mais fontes de dados. Para acomodar o crescimento, uma organização simplesmente adiciona mais nós a um cluster para que ele possa dimensionar para acomodar os requisitos crescentes.
No entanto, não é suficiente simplesmente expandir o número de nós no cluster. Em vez disso, é importante poder enviar uma parte da grande análise de dados para diferentes ambientes físicos. Onde você envia essas tarefas e como você as gerencia, faz a diferença entre sucesso e falha.
Em algumas situações complexas, você pode querer executar muitos algoritmos diferentes em paralelo, mesmo dentro do mesmo cluster, para alcançar a velocidade de análise necessária. Por que você executaria diferentes algoritmos de dados grandes em paralelo no mesmo rack? Quanto mais próximas as distribuições de funções são, mais rápido elas podem ser executadas.
Embora seja possível distribuir grandes análises de dados em redes para aproveitar a capacidade disponível, você deve fazer esse tipo de distribuição com base em requisitos de desempenho. Em algumas situações, a velocidade de processamento toma um assento traseiro. No entanto, em outras situações, obter resultados rapidamente é o requisito. Nessa situação, você quer ter certeza de que as funções de rede estão próximas umas das outras.
Em geral, o grande ambiente de dados tem que ser otimizado para o tipo de tarefa de análise. Portanto, a escalabilidade é o lince de fazer com que os grandes dados funcionem com sucesso. Embora seja teoricamente possível operar um grande ambiente de dados dentro de um único ambiente grande, não é prático.
Para entender as necessidades de escalabilidade em grandes dados, basta observar a escalabilidade da nuvem e entender os requisitos e a abordagem. Como a computação em nuvem, grandes dados requerem a inclusão de redes rápidas e clusters de hardware baratos que podem ser combinados em racks para aumentar o desempenho. Esses clusters são suportados pela automação de software que permite escalonamento dinâmico e balanceamento de carga.
O design e as implementações do MapReduce são excelentes exemplos de como a computação distribuída pode tornar os grandes dados visíveis e acessíveis a nível operacional. Em essência, as empresas estão em um dos momentos decisivos na computação onde os conceitos de tecnologia se unem no momento certo para resolver os problemas certos. Combinando computação distribuída, sistemas de hardware aprimorados e soluções práticas como MapReduce e Hadoop estão mudando o gerenciamento de dados de forma profunda.