Arquitetura corporativa para dados grandes - manequins

Em perspectiva, o objetivo de projetar uma arquitetura para análise de dados se resume a construir uma estrutura para capturar, classificar e analisar dados importantes para o propósito de descobrir resultados acionáveis.

Pensando na arquitetura que transformará grandes dados em resultados acionáveis.

Não há nenhuma maneira correta de projetar o ambiente arquitetônico para grandes análises de dados. No entanto, a maioria dos projetos precisa atender aos seguintes requisitos para suportar os desafios que grandes dados podem trazer. Esses critérios podem ser distribuídos principalmente em seis camadas e podem ser resumidos da seguinte forma:

Sua arquitetura deve incluir uma grande plataforma de dados para armazenamento e computação, como Hadoop ou Spark, que é capaz de expandir.
Sua arquitetura deve incluir software de grande escala e ferramentas de dados grandes capazes de analisar, armazenar e recuperar dados importantes. Estes podem consistir nos componentes da faísca ou nos componentes do ecossistema Hadoop (como Mahout e Apache Storm). Você também pode querer adotar uma grande ferramenta de grande escala de dados que será usada por cientistas de dados em sua empresa. Estes incluem Radoop de RapidMiner, IBM Watson e muitos outros.
Sua arquitetura deve suportar a virtualização. A virtualização é um elemento essencial da computação em nuvem porque permite que múltiplos sistemas operacionais e aplicativos sejam executados ao mesmo tempo no mesmo servidor. Devido a essa capacidade, a virtualização e a computação em nuvem costumam ser acompanhadas. Você também pode adotar uma nuvem privada em sua arquitetura. Uma nuvem privada oferece a mesma arquitetura que uma nuvem pública, exceto que os serviços em uma nuvem privada são restritos a um certo número de usuários através de um firewall. O Amazon Elastic Computer Cloud é um dos principais fornecedores de soluções de nuvem privada e espaço de armazenamento para empresas e pode escalar à medida que crescem.
Sua arquitetura pode ter que oferecer análises em tempo real se sua empresa estiver trabalhando com dados rápidos (dados que estão fluindo em fluxos a uma taxa rápida). Em um cenário onde, você precisaria considerar uma infraestrutura que pode suportar a derivação de insights a partir de dados em tempo quase real, sem esperar a gravação de dados no disco. Por exemplo, a biblioteca de transmissão do Apache Spark pode ser colada com outros componentes para suportar análises em fluxos de dados rápidos.
Sua arquitetura deve explicar a segurança do Big Data criando um sistema de governança em torno do fornecimento de acesso aos dados e aos resultados. A grande arquitetura de segurança de dados deve estar alinhada com as práticas e políticas de segurança padrão em sua organização que governam o acesso a fontes de dados.

As camadas da arquitetura de dados corporativos.

Se você está procurando uma ferramenta robusta para ajudá-lo a começar a análise de dados sem a necessidade de experiência em algoritmos e complexidades por trás da construção de modelos preditivos, então você deve tentar KNIME, RapidMiner ou IBM Watson, entre outros.

A maioria das ferramentas anteriores oferece uma caixa de ferramentas abrangente, pronta para usar, que consiste em recursos que podem ser iniciados. Por exemplo, o RapidMiner possui uma grande quantidade de algoritmos de diferentes estados do ciclo de vida da análise preditiva, de modo que fornece um caminho direto para a rápida combinação e implantação de modelos analíticos.

Com o RapidMiner, você pode carregar e preparar rapidamente seus dados, criar e avaliar modelos preditivos, usar processos de dados em seus aplicativos e compartilhá-los com seus usuários empresariais. Com muito poucos cliques, você pode construir facilmente um modelo de análise preditiva simples.

Análise de arrastar e soltar com o RapidMiner.

RapidMiner pode ser usado tanto por iniciantes como por especialistas. O RapidMiner Studio é um software de análise preditiva de código aberto que possui uma interface gráfica fácil de usar onde você pode arrastar e soltar algoritmos para o carregamento de dados, o pré-processamento de dados, os algoritmos de análise preditiva e as avaliações de modelo para construir seu processo de análise de dados.

O RapidMiner foi criado para fornecer aos cientistas de dados uma caixa de ferramentas abrangente que consiste em mais de mil operações e algoritmos diferentes. Os dados podem ser carregados rapidamente, independentemente de sua fonte de dados estar no Excel, Acesso, MS SQL, MySQL, SPSS, Salesforce ou qualquer outro formato suportado pelo RapidMiner. Além do carregamento de dados, construção de modelo preditivo e avaliação do modelo, esta ferramenta também fornece ferramentas de visualização de dados que incluem mapas auto-organizáveis ajustáveis e gráficos 3-D.

RapidMiner oferece uma interface de programação de aplicativo de extensão aberta (API) que permite integrar seus próprios algoritmos em qualquer pipeline construído no RapidMiner. Também é compatível com muitas plataformas e pode ser executado em sistemas operacionais importantes. Existe uma comunidade on-line emergente de cientistas de dados que usam o RapidMiner onde podem compartilhar seus processos e fazer e responder perguntas.

Outra ferramenta fácil de usar que é amplamente utilizada no mundo da análise é o KNIME. KNIME significa Konstanz Information Miner. É uma análise de dados de código aberto que pode ajudá-lo a construir modelos preditivos através de um conceito de pipeline de dados. A ferramenta oferece componentes de arrastar e soltar para ETL (extração, transformação e carregamento) e componentes para modelagem preditiva, bem como visualização de dados.

KNIME e RapidMiner são ferramentas que você pode armar sua equipe de ciência de dados para começar facilmente a construir modelos preditivos. Para um excelente caso de uso no KNIME, confira o artigo "The Seven Techniques for Dimensionality Reduction". "

RapidMiner Radoop é um produto da RapidMiner que amplia a caixa de ferramentas de análise preditiva no RapidMiner Studio para executar em ambientes Hadoop e Spark.Radoop encapsula MapReduce, Pig, Mahout e Spark. Depois de definir seus fluxos de trabalho no Radoop, as instruções são executadas no ambiente Hadoop ou Spark, portanto você não precisa programar modelos preditivos, mas focar a avaliação do modelo e o desenvolvimento de novos modelos.

Para segurança, o Radoop é compatível com a autenticação Kerberos e integra-se com Apache Ranger e Apache Sentry.