Índice:
Vídeo: WEBINAR - Potencialize o seu projeto de BI com Alteryx 2024
Quando você definiu os objetivos do modelo, o próximo passo na análise preditiva é identificar e preparar os dados que você usará para construir seu modelo. A seguinte informação toca as atividades mais importantes. A sequência geral de passos parece assim:
- Identifique suas fontes de dados.
Os dados podem estar em diferentes formatos ou residir em vários locais.
- Identifique como você irá acessar esses dados.
Às vezes, você precisaria adquirir dados de terceiros, ou dados pertencentes a uma divisão diferente em sua organização, etc.
- Considere quais variáveis incluir na sua análise.
Uma abordagem padrão é começar com uma ampla gama de variáveis e eliminar aqueles que não oferecem valor preditivo para o modelo.
- Determine se é necessário usar variáveis derivadas.
Em muitos casos, uma variável derivada (como a relação preço por lucro usada para analisar os preços das ações) teria maior impacto direto no modelo do que a variável bruta.
- Explore a qualidade dos seus dados, buscando entender tanto o estado quanto as limitações.
A precisão das previsões do modelo está diretamente relacionada às variáveis selecionadas e à qualidade de seus dados. Você gostaria de responder algumas questões específicas de dados neste ponto:
- Os dados são completos?
- Tem algum outliers?
- Os dados precisam ser limpos?
- Precisa preencher os valores em falta, mantê-los como estão ou eliminá-los completamente?
Compreender seus dados e suas propriedades podem ajudá-lo a escolher o algoritmo que será mais útil na construção de seu modelo. Por exemplo:
- Os algoritmos de regressão podem ser usados para analisar dados de séries temporais.
- Os algoritmos de classificação podem ser usados para analisar dados discretos.
- Os algoritmos de associação podem ser usados para dados com atributos correlatos.
Algoritmos individuais e técnicas preditivas têm diferentes fraquezas e pontos fortes. Mais importante, a precisão do modelo depende de ter uma grande quantidade e qualidade de dados. Seus dados devem ter um número suficiente de registros para fornecer resultados estatisticamente significativos.
Recolher dados relevantes (de preferência, muitos registros durante um longo período de tempo), pré-processamento e extrair os recursos com a maioria dos valores preditivos será onde você gasta a maior parte do seu tempo. Mas você ainda precisa escolher o algoritmo com sabedoria, um algoritmo que deve ser adequado ao problema comercial.
A preparação de dados é específica para o projeto em que você está trabalhando e o algoritmo que você escolhe empregar.Dependendo dos requisitos do projeto, você preparará seus dados de acordo e alimentá-lo para o algoritmo à medida que você constrói seu modelo para atender às necessidades do negócio.
O conjunto de dados usado para treinar e testar o modelo deve conter informações comerciais relevantes para responder o problema que você está tentando resolver. Se o seu objetivo é (por exemplo) determinar qual cliente é susceptível de churn, o conjunto de dados que você escolher deve conter informações sobre os clientes que se agitaram no passado, além de clientes que não o fizeram.
Alguns modelos criados para extrair os dados e dar sentido às suas relações subjacentes - por exemplo, aqueles construídos com algoritmos de cluster - não precisam ter um resultado final específico em mente.
Underfitting
Underfitting é quando seu modelo não consegue detectar nenhum relacionamento em seus dados. Isso geralmente é uma indicação de que as variáveis essenciais - aquelas com poder preditivo - não foram incluídas em sua análise.
Se as variáveis usadas no seu modelo não possuírem alta potência de previsão, tente adicionar novas variáveis específicas de domínio e re-executar seu modelo. O objetivo final é melhorar o desempenho do modelo nos dados de treinamento.
Outra questão a ser observada é sazonalidade (quando você tem padrão sazonal, se você não analisar várias estações, você pode entrar em problemas). Por exemplo, uma análise de estoque que inclui apenas dados de um touro O mercado (onde os preços das ações estão subindo) não explica crises ou bolhas que podem trazer grandes correções para o desempenho geral dos estoques. A falta de inclusão de dados que abranja os mercados bear < e (quando os preços das ações estão caindo) mantém o modelo produzindo a melhor seleção de portfólio possível.
Overfitting
Overfitting é quando seu modelo inclui dados que não têm poder preditivo, mas é apenas específico para o conjunto de dados que você está analisando. Ruído - variações aleatórias no conjunto de dados - pode encontrar o caminho para o modelo, de modo que a execução do modelo em um conjunto de dados diferente produz uma grande queda no desempenho preditivo e precisão do modelo.