Vídeo: How to Setup Multinode Hadoop 2 on CentOS/RHEL Using VirtualBox 2024
Como em qualquer sistema distribuído, a rede pode fazer ou quebrar um cluster Hadoop: Não "seja barato". "Uma grande conversa ocorre entre os nós mestres e os nós escravos em um cluster Hadoop que é essencial para manter o cluster em execução, portanto, switches de classe empresarial são definitivamente recomendados.
Para cada rack em seu cluster, você precisa de dois switches Top-of-Rack (ToR), tanto para redundância quanto para desempenho. Use 10GbE para switches ToR.
Os switches ToR são switches de rede que conectam todos os computadores em um rack juntos. Você normalmente vê-los no topo de um rack, e é por isso que as pessoas dizem "top-of-rack". "Uma abordagem de rede alternativa é usar switches de fim de linha (EoR), mas você não vê isso com muita frequência.
A abordagem TdR é mais simples a partir de uma perspectiva de rede para crescer clusters. Por exemplo, a adição de nós escravos e racks adicionais é muito mais fácil com switches ToR do que EoR.
Quando você tem mais de três racks, você precisa de pelo menos dois switches principais (novamente, principalmente para redundância, mas também para desempenho). Esses switches principais manipulam enormes quantidades de tráfego, portanto 40GbE é uma necessidade.
Se você está construindo ou expandindo um cluster para abarcar vários racks, envolva especialistas em rede que conheçam o Hadoop, seus planos de crescimento futuro e sua carga de trabalho. A rede incorreta dificulta o desempenho, mas também pode tornar o crescimento futuro doloroso e caro.