Lar Finanças Pessoais Arquitetura corporativa para dados grandes - manequins

Arquitetura corporativa para dados grandes - manequins

Vídeo: [Power BI] Governança de Dados e Arquitetura Ideal com Dataflows (Fluxo de Dados) e Shared Datasets 2024

Vídeo: [Power BI] Governança de Dados e Arquitetura Ideal com Dataflows (Fluxo de Dados) e Shared Datasets 2024
Anonim

Em perspectiva, o objetivo de projetar uma arquitetura para análise de dados se resume a construir uma estrutura para capturar, classificar e analisar dados importantes para o propósito de descobrir resultados acionáveis.

Pensando na arquitetura que transformará grandes dados em resultados acionáveis.

Não há nenhuma maneira correta de projetar o ambiente arquitetônico para grandes análises de dados. No entanto, a maioria dos projetos precisa atender aos seguintes requisitos para suportar os desafios que grandes dados podem trazer. Esses critérios podem ser distribuídos principalmente em seis camadas e podem ser resumidos da seguinte forma:

  • Sua arquitetura deve incluir uma grande plataforma de dados para armazenamento e computação, como Hadoop ou Spark, que é capaz de expandir.
  • Sua arquitetura deve incluir software de grande escala e ferramentas de dados grandes capazes de analisar, armazenar e recuperar dados importantes. Estes podem consistir nos componentes da faísca ou nos componentes do ecossistema Hadoop (como Mahout e Apache Storm). Você também pode querer adotar uma grande ferramenta de grande escala de dados que será usada por cientistas de dados em sua empresa. Estes incluem Radoop de RapidMiner, IBM Watson e muitos outros.
  • Sua arquitetura deve suportar a virtualização. A virtualização é um elemento essencial da computação em nuvem porque permite que múltiplos sistemas operacionais e aplicativos sejam executados ao mesmo tempo no mesmo servidor. Devido a essa capacidade, a virtualização e a computação em nuvem costumam ser acompanhadas. Você também pode adotar uma nuvem privada em sua arquitetura. Uma nuvem privada oferece a mesma arquitetura que uma nuvem pública, exceto que os serviços em uma nuvem privada são restritos a um certo número de usuários através de um firewall. O Amazon Elastic Computer Cloud é um dos principais fornecedores de soluções de nuvem privada e espaço de armazenamento para empresas e pode escalar à medida que crescem.
  • Sua arquitetura pode ter que oferecer análises em tempo real se sua empresa estiver trabalhando com dados rápidos (dados que estão fluindo em fluxos a uma taxa rápida). Em um cenário onde, você precisaria considerar uma infraestrutura que pode suportar a derivação de insights a partir de dados em tempo quase real, sem esperar a gravação de dados no disco. Por exemplo, a biblioteca de transmissão do Apache Spark pode ser colada com outros componentes para suportar análises em fluxos de dados rápidos.
  • Sua arquitetura deve explicar a segurança do Big Data criando um sistema de governança em torno do fornecimento de acesso aos dados e aos resultados. A grande arquitetura de segurança de dados deve estar alinhada com as práticas e políticas de segurança padrão em sua organização que governam o acesso a fontes de dados.

As camadas da arquitetura de dados corporativos.

Se você está procurando uma ferramenta robusta para ajudá-lo a começar a análise de dados sem a necessidade de experiência em algoritmos e complexidades por trás da construção de modelos preditivos, então você deve tentar KNIME, RapidMiner ou IBM Watson, entre outros.

A maioria das ferramentas anteriores oferece uma caixa de ferramentas abrangente, pronta para usar, que consiste em recursos que podem ser iniciados. Por exemplo, o RapidMiner possui uma grande quantidade de algoritmos de diferentes estados do ciclo de vida da análise preditiva, de modo que fornece um caminho direto para a rápida combinação e implantação de modelos analíticos.

Com o RapidMiner, você pode carregar e preparar rapidamente seus dados, criar e avaliar modelos preditivos, usar processos de dados em seus aplicativos e compartilhá-los com seus usuários empresariais. Com muito poucos cliques, você pode construir facilmente um modelo de análise preditiva simples.

Análise de arrastar e soltar com o RapidMiner.

RapidMiner pode ser usado tanto por iniciantes como por especialistas. O RapidMiner Studio é um software de análise preditiva de código aberto que possui uma interface gráfica fácil de usar onde você pode arrastar e soltar algoritmos para o carregamento de dados, o pré-processamento de dados, os algoritmos de análise preditiva e as avaliações de modelo para construir seu processo de análise de dados.

O RapidMiner foi criado para fornecer aos cientistas de dados uma caixa de ferramentas abrangente que consiste em mais de mil operações e algoritmos diferentes. Os dados podem ser carregados rapidamente, independentemente de sua fonte de dados estar no Excel, Acesso, MS SQL, MySQL, SPSS, Salesforce ou qualquer outro formato suportado pelo RapidMiner. Além do carregamento de dados, construção de modelo preditivo e avaliação do modelo, esta ferramenta também fornece ferramentas de visualização de dados que incluem mapas auto-organizáveis ​​ajustáveis ​​e gráficos 3-D.

RapidMiner oferece uma interface de programação de aplicativo de extensão aberta (API) que permite integrar seus próprios algoritmos em qualquer pipeline construído no RapidMiner. Também é compatível com muitas plataformas e pode ser executado em sistemas operacionais importantes. Existe uma comunidade on-line emergente de cientistas de dados que usam o RapidMiner onde podem compartilhar seus processos e fazer e responder perguntas.

Outra ferramenta fácil de usar que é amplamente utilizada no mundo da análise é o KNIME. KNIME significa Konstanz Information Miner. É uma análise de dados de código aberto que pode ajudá-lo a construir modelos preditivos através de um conceito de pipeline de dados. A ferramenta oferece componentes de arrastar e soltar para ETL (extração, transformação e carregamento) e componentes para modelagem preditiva, bem como visualização de dados.

KNIME e RapidMiner são ferramentas que você pode armar sua equipe de ciência de dados para começar facilmente a construir modelos preditivos. Para um excelente caso de uso no KNIME, confira o artigo "The Seven Techniques for Dimensionality Reduction". "

RapidMiner Radoop é um produto da RapidMiner que amplia a caixa de ferramentas de análise preditiva no RapidMiner Studio para executar em ambientes Hadoop e Spark.Radoop encapsula MapReduce, Pig, Mahout e Spark. Depois de definir seus fluxos de trabalho no Radoop, as instruções são executadas no ambiente Hadoop ou Spark, portanto você não precisa programar modelos preditivos, mas focar a avaliação do modelo e o desenvolvimento de novos modelos.

Para segurança, o Radoop é compatível com a autenticação Kerberos e integra-se com Apache Ranger e Apache Sentry.

Arquitetura corporativa para dados grandes - manequins

Escolha dos editores

Origem e Design de Hadoop - dummies

Origem e Design de Hadoop - dummies

Então, o que é exatamente isso com o nome engraçado - Hadoop? No seu núcleo, o Hadoop é uma estrutura para armazenar dados em grandes clusters de hardware de commodities - hardware de computador todos os dias acessível e facilmente disponível - e executando aplicativos contra esses dados. Um cluster é um grupo de computadores interligados (conhecido como ...

A arquitetura do porco em Hadoop - dummies

A arquitetura do porco em Hadoop - dummies

"Simples" geralmente significa "elegante" quando se trata de desenhos arquitetônicos para Essa nova mansão do Vale do Silício que você planejou quando o dinheiro começa a rolar depois de implementar o Hadoop. O mesmo princípio se aplica à arquitetura de software. O porco é composto por dois componentes (count 'em, two): O próprio idioma: como prova de que os programadores ...

MapReduce Application Flow em Hadoop - dummies

MapReduce Application Flow em Hadoop - dummies

No seu núcleo, MapReduce é um modelo de programação para o processamento de conjuntos de dados que são armazenados de forma distribuída nos nós de escravo de um cluster Hadoop. O conceito-chave aqui é dividir e conquistar. Especificamente, você deseja quebrar um grande conjunto de dados em muitas peças menores e processá-las em paralelo com o mesmo algoritmo. ...

Escolha dos editores

Apoiando a sua campanha PPC com análise de palavras-chave - manequins

Apoiando a sua campanha PPC com análise de palavras-chave - manequins

A base de todo o trabalho do mecanismo de pesquisa é uma análise de palavras-chave. Fazer uma análise de palavras-chave realmente não é tão complicado e pode significar a diferença entre sucesso e falha em sua campanha PPC. Comece digitando as palavras-chave óbvias em um editor de texto ou processador de texto - aqueles que você já pensou ou, se você ...

Envie seu site para Yahoo! Search Directory - dummies

Envie seu site para Yahoo! Search Directory - dummies

Envios para o Yahoo! O diretório costumava ser muito difícil. Pesquisas mostraram que as pessoas que conseguiram obter seus sites listados no diretório tiveram que tentar várias vezes em questão de meses. Era grátis, mas era um aborrecimento. A boa notícia: você pode obter seu site listado em Yahoo! Diretório ...

Dicas para criar e otimizar conteúdo para objetos e indústrias difíceis - manequins

Dicas para criar e otimizar conteúdo para objetos e indústrias difíceis - manequins

Em A superfície, a criação de conteúdo não soa tão difícil até você se sentar e tentar escrever. Sua estratégia de SEO depende desse conteúdo. É ainda pior se você estiver escrevendo conteúdo para o que muitas pessoas podem considerar uma indústria chata. A boa notícia é que é possível transformar indivíduos potencialmente chatos em bons ...

Escolha dos editores

Componentes eletrônicos: transistores como um potenciômetro mágico - manequins

Componentes eletrônicos: transistores como um potenciômetro mágico - manequins

Um transistor dentro de um O circuito eletrônico funciona como uma combinação de um diodo e um resistor variável, também chamado de potenciômetro ou pote. Mas isso não é apenas um pote comum; é um pote mágico cujo botão é misteriosamente conectado ao diodo por raios invisíveis, tipo desse tipo: quando a tensão direta é aplicada em ...

Componentes eletrônicos: Resistores - manequins

Componentes eletrônicos: Resistores - manequins

Um resistor é um pequeno componente projetado para fornecer um específico quantidade de resistência em um circuito eletrônico. Como a resistência é um elemento essencial de quase todos os circuitos eletrônicos, você usará resistores em quase todos os circuitos que você constrói. Embora os resistores venham em uma variedade de tamanhos e formas, o tipo mais comum ...