Lar Finanças Pessoais Como preparar dados para um modelo de análise preditiva - dummies

Como preparar dados para um modelo de análise preditiva - dummies

Índice:

Vídeo: Cap09 - O Que é Um Modelo Preditivo - Parte 1 2024

Vídeo: Cap09 - O Que é Um Modelo Preditivo - Parte 1 2024
Anonim

Quando você definiu os objetivos do modelo para análise preditiva, o próximo passo é identificar e preparar os dados que você usará para construir seu modelo. A sequência geral de passos parece assim:

  1. Identifique suas fontes de dados.

    Os dados podem estar em diferentes formatos ou residir em vários locais.

  2. Identifique como você irá acessar esses dados.

    Às vezes, você precisaria adquirir dados de terceiros, ou dados de propriedade de uma divisão diferente em sua organização, etc.

  3. Considere quais variáveis ​​incluir na sua análise.

    Uma abordagem padrão é iniciar com uma ampla gama de variáveis ​​e eliminar aqueles que não oferecem valores preditivos para o modelo.

  4. Determine se as variáveis ​​derivadas devem ser utilizadas.

    Em muitos casos, uma variável derivada (como a relação preço por lucro usada para analisar os preços das ações) teria maior impacto direto no modelo do que a variável bruta.

  5. Explore a qualidade dos seus dados, procurando entender tanto o estado quanto as limitações.

    A precisão das previsões do modelo está diretamente relacionada às variáveis ​​selecionadas e à qualidade de seus dados. Você gostaria de responder algumas questões específicas de dados neste ponto:

    • Os dados são completos?

    • Tem algum outliers?

    • Os dados precisam ser limpos?

    • Você precisa preencher valores perdidos, mantê-los como estão ou eliminá-los completamente?

Compreender seus dados e suas propriedades podem ajudá-lo a escolher o algoritmo que será mais útil na construção de seu modelo. Por exemplo:

  • Os algoritmos de regressão podem ser usados ​​para analisar dados de séries temporais.

  • Os algoritmos de classificação podem ser usados ​​para analisar dados discretos.

  • Os algoritmos de associação podem ser usados ​​para dados com atributos correlatos.

O conjunto de dados usado para treinar e testar o modelo deve conter informações comerciais relevantes para responder o problema que você está tentando resolver. Se o seu objetivo é (por exemplo) determinar qual cliente é susceptível de churn, o conjunto de dados que você escolher deve conter informações sobre os clientes que se agitaram no passado, além de clientes que não o fizeram.

Alguns modelos criados para extrair os dados e dar sentido às suas relações subjacentes - por exemplo, aqueles construídos com algoritmos de cluster - não precisam ter um resultado final específico em mente.

Dois problemas surgem ao lidar com dados à medida que você está construindo seu modelo: inadequada e excessiva.

Underfitting

Underfitting é quando seu modelo não consegue detectar nenhum relacionamento em seus dados.Isso geralmente é uma indicação de que as variáveis ​​essenciais - aquelas com poder preditivo - não foram incluídas em sua análise. Por exemplo, uma análise de estoque que inclui apenas dados de um mercado em alta (onde os preços gerais das ações estão subindo) não explica crises ou bolhas que podem trazer grandes correções para o desempenho geral dos estoques.

Falha na inclusão de dados que abrangem os mercados bear < e (quando os preços das ações estão caindo) mantém o modelo produzindo a melhor seleção de portfólio possível.

Overfitting

Overfitting é quando seu modelo inclui dados que não têm poder preditivo, mas é apenas específico para o conjunto de dados que você está analisando. Ruído - variações aleatórias no conjunto de dados - pode encontrar seu caminho no modelo, de modo que a execução do modelo em um conjunto de dados diferente produz uma grande queda no desempenho e precisão preditiva do modelo. A barra lateral que acompanha fornece um exemplo.

Se o seu modelo funcionar perfeitamente em um conjunto de dados específico e apenas for inferior ao teste quando você testá-lo em um conjunto de dados diferente, suspeite de superação.

Como preparar dados para um modelo de análise preditiva - dummies

Escolha dos editores

Origem e Design de Hadoop - dummies

Origem e Design de Hadoop - dummies

Então, o que é exatamente isso com o nome engraçado - Hadoop? No seu núcleo, o Hadoop é uma estrutura para armazenar dados em grandes clusters de hardware de commodities - hardware de computador todos os dias acessível e facilmente disponível - e executando aplicativos contra esses dados. Um cluster é um grupo de computadores interligados (conhecido como ...

A arquitetura do porco em Hadoop - dummies

A arquitetura do porco em Hadoop - dummies

"Simples" geralmente significa "elegante" quando se trata de desenhos arquitetônicos para Essa nova mansão do Vale do Silício que você planejou quando o dinheiro começa a rolar depois de implementar o Hadoop. O mesmo princípio se aplica à arquitetura de software. O porco é composto por dois componentes (count 'em, two): O próprio idioma: como prova de que os programadores ...

MapReduce Application Flow em Hadoop - dummies

MapReduce Application Flow em Hadoop - dummies

No seu núcleo, MapReduce é um modelo de programação para o processamento de conjuntos de dados que são armazenados de forma distribuída nos nós de escravo de um cluster Hadoop. O conceito-chave aqui é dividir e conquistar. Especificamente, você deseja quebrar um grande conjunto de dados em muitas peças menores e processá-las em paralelo com o mesmo algoritmo. ...

Escolha dos editores

Apoiando a sua campanha PPC com análise de palavras-chave - manequins

Apoiando a sua campanha PPC com análise de palavras-chave - manequins

A base de todo o trabalho do mecanismo de pesquisa é uma análise de palavras-chave. Fazer uma análise de palavras-chave realmente não é tão complicado e pode significar a diferença entre sucesso e falha em sua campanha PPC. Comece digitando as palavras-chave óbvias em um editor de texto ou processador de texto - aqueles que você já pensou ou, se você ...

Envie seu site para Yahoo! Search Directory - dummies

Envie seu site para Yahoo! Search Directory - dummies

Envios para o Yahoo! O diretório costumava ser muito difícil. Pesquisas mostraram que as pessoas que conseguiram obter seus sites listados no diretório tiveram que tentar várias vezes em questão de meses. Era grátis, mas era um aborrecimento. A boa notícia: você pode obter seu site listado em Yahoo! Diretório ...

Dicas para criar e otimizar conteúdo para objetos e indústrias difíceis - manequins

Dicas para criar e otimizar conteúdo para objetos e indústrias difíceis - manequins

Em A superfície, a criação de conteúdo não soa tão difícil até você se sentar e tentar escrever. Sua estratégia de SEO depende desse conteúdo. É ainda pior se você estiver escrevendo conteúdo para o que muitas pessoas podem considerar uma indústria chata. A boa notícia é que é possível transformar indivíduos potencialmente chatos em bons ...

Escolha dos editores

Componentes eletrônicos: transistores como um potenciômetro mágico - manequins

Componentes eletrônicos: transistores como um potenciômetro mágico - manequins

Um transistor dentro de um O circuito eletrônico funciona como uma combinação de um diodo e um resistor variável, também chamado de potenciômetro ou pote. Mas isso não é apenas um pote comum; é um pote mágico cujo botão é misteriosamente conectado ao diodo por raios invisíveis, tipo desse tipo: quando a tensão direta é aplicada em ...

Componentes eletrônicos: Resistores - manequins

Componentes eletrônicos: Resistores - manequins

Um resistor é um pequeno componente projetado para fornecer um específico quantidade de resistência em um circuito eletrônico. Como a resistência é um elemento essencial de quase todos os circuitos eletrônicos, você usará resistores em quase todos os circuitos que você constrói. Embora os resistores venham em uma variedade de tamanhos e formas, o tipo mais comum ...