Como preparar dados para um modelo de análise preditiva - dummies

Vídeo: Cap09 - O Que é Um Modelo Preditivo - Parte 1 2025

Quando você definiu os objetivos do modelo para análise preditiva, o próximo passo é identificar e preparar os dados que você usará para construir seu modelo. A sequência geral de passos parece assim:

Identifique suas fontes de dados.

Os dados podem estar em diferentes formatos ou residir em vários locais.
Identifique como você irá acessar esses dados.

Às vezes, você precisaria adquirir dados de terceiros, ou dados de propriedade de uma divisão diferente em sua organização, etc.
Considere quais variáveis incluir na sua análise.

Uma abordagem padrão é iniciar com uma ampla gama de variáveis e eliminar aqueles que não oferecem valores preditivos para o modelo.
Determine se as variáveis derivadas devem ser utilizadas.

Em muitos casos, uma variável derivada (como a relação preço por lucro usada para analisar os preços das ações) teria maior impacto direto no modelo do que a variável bruta.
Explore a qualidade dos seus dados, procurando entender tanto o estado quanto as limitações.

A precisão das previsões do modelo está diretamente relacionada às variáveis selecionadas e à qualidade de seus dados. Você gostaria de responder algumas questões específicas de dados neste ponto:
- Os dados são completos?
- Tem algum outliers?
- Os dados precisam ser limpos?
- Você precisa preencher valores perdidos, mantê-los como estão ou eliminá-los completamente?

Compreender seus dados e suas propriedades podem ajudá-lo a escolher o algoritmo que será mais útil na construção de seu modelo. Por exemplo:

Os algoritmos de regressão podem ser usados para analisar dados de séries temporais.
Os algoritmos de classificação podem ser usados para analisar dados discretos.
Os algoritmos de associação podem ser usados para dados com atributos correlatos.

O conjunto de dados usado para treinar e testar o modelo deve conter informações comerciais relevantes para responder o problema que você está tentando resolver. Se o seu objetivo é (por exemplo) determinar qual cliente é susceptível de churn, o conjunto de dados que você escolher deve conter informações sobre os clientes que se agitaram no passado, além de clientes que não o fizeram.

Alguns modelos criados para extrair os dados e dar sentido às suas relações subjacentes - por exemplo, aqueles construídos com algoritmos de cluster - não precisam ter um resultado final específico em mente.

Dois problemas surgem ao lidar com dados à medida que você está construindo seu modelo: inadequada e excessiva.

Underfitting

Underfitting é quando seu modelo não consegue detectar nenhum relacionamento em seus dados.Isso geralmente é uma indicação de que as variáveis essenciais - aquelas com poder preditivo - não foram incluídas em sua análise. Por exemplo, uma análise de estoque que inclui apenas dados de um mercado em alta (onde os preços gerais das ações estão subindo) não explica crises ou bolhas que podem trazer grandes correções para o desempenho geral dos estoques.

Falha na inclusão de dados que abrangem os mercados bear < e (quando os preços das ações estão caindo) mantém o modelo produzindo a melhor seleção de portfólio possível.

Overfitting

Overfitting é quando seu modelo inclui dados que não têm poder preditivo, mas é apenas específico para o conjunto de dados que você está analisando. Ruído - variações aleatórias no conjunto de dados - pode encontrar seu caminho no modelo, de modo que a execução do modelo em um conjunto de dados diferente produz uma grande queda no desempenho e precisão preditiva do modelo. A barra lateral que acompanha fornece um exemplo.

Se o seu modelo funcionar perfeitamente em um conjunto de dados específico e apenas for inferior ao teste quando você testá-lo em um conjunto de dados diferente, suspeite de superação.