Lar Finanças Pessoais Preparando seus dados para análise preditiva - manequins

Preparando seus dados para análise preditiva - manequins

Índice:

Vídeo: WEBINAR - Potencialize o seu projeto de BI com Alteryx 2024

Vídeo: WEBINAR - Potencialize o seu projeto de BI com Alteryx 2024
Anonim

Quando você definiu os objetivos do modelo, o próximo passo na análise preditiva é identificar e preparar os dados que você usará para construir seu modelo. A seguinte informação toca as atividades mais importantes. A sequência geral de passos parece assim:

  1. Identifique suas fontes de dados.

    Os dados podem estar em diferentes formatos ou residir em vários locais.

  2. Identifique como você irá acessar esses dados.

    Às vezes, você precisaria adquirir dados de terceiros, ou dados pertencentes a uma divisão diferente em sua organização, etc.

  3. Considere quais variáveis ​​incluir na sua análise.

    Uma abordagem padrão é começar com uma ampla gama de variáveis ​​e eliminar aqueles que não oferecem valor preditivo para o modelo.

  4. Determine se é necessário usar variáveis ​​derivadas.

    Em muitos casos, uma variável derivada (como a relação preço por lucro usada para analisar os preços das ações) teria maior impacto direto no modelo do que a variável bruta.

  5. Explore a qualidade dos seus dados, buscando entender tanto o estado quanto as limitações.

    A precisão das previsões do modelo está diretamente relacionada às variáveis ​​selecionadas e à qualidade de seus dados. Você gostaria de responder algumas questões específicas de dados neste ponto:

    • Os dados são completos?
    • Tem algum outliers?
    • Os dados precisam ser limpos?
    • Precisa preencher os valores em falta, mantê-los como estão ou eliminá-los completamente?

Compreender seus dados e suas propriedades podem ajudá-lo a escolher o algoritmo que será mais útil na construção de seu modelo. Por exemplo:

  • Os algoritmos de regressão podem ser usados ​​para analisar dados de séries temporais.
  • Os algoritmos de classificação podem ser usados ​​para analisar dados discretos.
  • Os algoritmos de associação podem ser usados ​​para dados com atributos correlatos.

Algoritmos individuais e técnicas preditivas têm diferentes fraquezas e pontos fortes. Mais importante, a precisão do modelo depende de ter uma grande quantidade e qualidade de dados. Seus dados devem ter um número suficiente de registros para fornecer resultados estatisticamente significativos.

Recolher dados relevantes (de preferência, muitos registros durante um longo período de tempo), pré-processamento e extrair os recursos com a maioria dos valores preditivos será onde você gasta a maior parte do seu tempo. Mas você ainda precisa escolher o algoritmo com sabedoria, um algoritmo que deve ser adequado ao problema comercial.

A preparação de dados é específica para o projeto em que você está trabalhando e o algoritmo que você escolhe empregar.Dependendo dos requisitos do projeto, você preparará seus dados de acordo e alimentá-lo para o algoritmo à medida que você constrói seu modelo para atender às necessidades do negócio.

O conjunto de dados usado para treinar e testar o modelo deve conter informações comerciais relevantes para responder o problema que você está tentando resolver. Se o seu objetivo é (por exemplo) determinar qual cliente é susceptível de churn, o conjunto de dados que você escolher deve conter informações sobre os clientes que se agitaram no passado, além de clientes que não o fizeram.

Alguns modelos criados para extrair os dados e dar sentido às suas relações subjacentes - por exemplo, aqueles construídos com algoritmos de cluster - não precisam ter um resultado final específico em mente.

Underfitting

Underfitting é quando seu modelo não consegue detectar nenhum relacionamento em seus dados. Isso geralmente é uma indicação de que as variáveis ​​essenciais - aquelas com poder preditivo - não foram incluídas em sua análise.

Se as variáveis ​​usadas no seu modelo não possuírem alta potência de previsão, tente adicionar novas variáveis ​​específicas de domínio e re-executar seu modelo. O objetivo final é melhorar o desempenho do modelo nos dados de treinamento.

Outra questão a ser observada é sazonalidade (quando você tem padrão sazonal, se você não analisar várias estações, você pode entrar em problemas). Por exemplo, uma análise de estoque que inclui apenas dados de um touro O mercado (onde os preços das ações estão subindo) não explica crises ou bolhas que podem trazer grandes correções para o desempenho geral dos estoques. A falta de inclusão de dados que abranja os mercados bear < e (quando os preços das ações estão caindo) mantém o modelo produzindo a melhor seleção de portfólio possível.

Overfitting

Overfitting é quando seu modelo inclui dados que não têm poder preditivo, mas é apenas específico para o conjunto de dados que você está analisando. Ruído - variações aleatórias no conjunto de dados - pode encontrar o caminho para o modelo, de modo que a execução do modelo em um conjunto de dados diferente produz uma grande queda no desempenho preditivo e precisão do modelo.

Preparando seus dados para análise preditiva - manequins

Escolha dos editores

Origem e Design de Hadoop - dummies

Origem e Design de Hadoop - dummies

Então, o que é exatamente isso com o nome engraçado - Hadoop? No seu núcleo, o Hadoop é uma estrutura para armazenar dados em grandes clusters de hardware de commodities - hardware de computador todos os dias acessível e facilmente disponível - e executando aplicativos contra esses dados. Um cluster é um grupo de computadores interligados (conhecido como ...

A arquitetura do porco em Hadoop - dummies

A arquitetura do porco em Hadoop - dummies

"Simples" geralmente significa "elegante" quando se trata de desenhos arquitetônicos para Essa nova mansão do Vale do Silício que você planejou quando o dinheiro começa a rolar depois de implementar o Hadoop. O mesmo princípio se aplica à arquitetura de software. O porco é composto por dois componentes (count 'em, two): O próprio idioma: como prova de que os programadores ...

MapReduce Application Flow em Hadoop - dummies

MapReduce Application Flow em Hadoop - dummies

No seu núcleo, MapReduce é um modelo de programação para o processamento de conjuntos de dados que são armazenados de forma distribuída nos nós de escravo de um cluster Hadoop. O conceito-chave aqui é dividir e conquistar. Especificamente, você deseja quebrar um grande conjunto de dados em muitas peças menores e processá-las em paralelo com o mesmo algoritmo. ...

Escolha dos editores

Apoiando a sua campanha PPC com análise de palavras-chave - manequins

Apoiando a sua campanha PPC com análise de palavras-chave - manequins

A base de todo o trabalho do mecanismo de pesquisa é uma análise de palavras-chave. Fazer uma análise de palavras-chave realmente não é tão complicado e pode significar a diferença entre sucesso e falha em sua campanha PPC. Comece digitando as palavras-chave óbvias em um editor de texto ou processador de texto - aqueles que você já pensou ou, se você ...

Envie seu site para Yahoo! Search Directory - dummies

Envie seu site para Yahoo! Search Directory - dummies

Envios para o Yahoo! O diretório costumava ser muito difícil. Pesquisas mostraram que as pessoas que conseguiram obter seus sites listados no diretório tiveram que tentar várias vezes em questão de meses. Era grátis, mas era um aborrecimento. A boa notícia: você pode obter seu site listado em Yahoo! Diretório ...

Dicas para criar e otimizar conteúdo para objetos e indústrias difíceis - manequins

Dicas para criar e otimizar conteúdo para objetos e indústrias difíceis - manequins

Em A superfície, a criação de conteúdo não soa tão difícil até você se sentar e tentar escrever. Sua estratégia de SEO depende desse conteúdo. É ainda pior se você estiver escrevendo conteúdo para o que muitas pessoas podem considerar uma indústria chata. A boa notícia é que é possível transformar indivíduos potencialmente chatos em bons ...

Escolha dos editores

Componentes eletrônicos: transistores como um potenciômetro mágico - manequins

Componentes eletrônicos: transistores como um potenciômetro mágico - manequins

Um transistor dentro de um O circuito eletrônico funciona como uma combinação de um diodo e um resistor variável, também chamado de potenciômetro ou pote. Mas isso não é apenas um pote comum; é um pote mágico cujo botão é misteriosamente conectado ao diodo por raios invisíveis, tipo desse tipo: quando a tensão direta é aplicada em ...

Componentes eletrônicos: Resistores - manequins

Componentes eletrônicos: Resistores - manequins

Um resistor é um pequeno componente projetado para fornecer um específico quantidade de resistência em um circuito eletrônico. Como a resistência é um elemento essencial de quase todos os circuitos eletrônicos, você usará resistores em quase todos os circuitos que você constrói. Embora os resistores venham em uma variedade de tamanhos e formas, o tipo mais comum ...