Índice:
- Como empregar a validação cruzada
- Como equilibrar o viés e a variância
- Como solucionar problemas de idéias
Vídeo: Cap09 - O Que é Um Modelo Preditivo - Parte 1 2024
Para poder testar o modelo de análise preditiva que você construiu, você precisa dividir seu conjunto de dados em dois conjuntos: treinamento e testes de conjuntos de dados. Esses conjuntos de dados devem ser selecionados aleatoriamente e devem ser uma boa representação da população atual.
-
Dados similares devem ser usados tanto para os conjuntos de dados de treinamento como de teste.
-
Normalmente, o conjunto de dados de treinamento é significativamente maior do que o conjunto de dados de teste.
-
O uso do conjunto de dados de teste ajuda a evitar erros, como a sobreposição.
-
O modelo treinado é executado contra dados de teste para ver o desempenho do modelo.
Alguns cientistas de dados preferem ter um terceiro conjunto de dados que tenha características semelhantes às dos dois primeiros: um conjunto de dados de validação . A idéia é que, se você estiver usando ativamente seus dados de teste para refinar seu modelo, você deve usar um conjunto separado (terceiro) para verificar a precisão do modelo.
Ter um conjunto de dados de validação, que não foi usado como parte do processo de desenvolvimento do seu modelo, ajuda a garantir uma estimativa neutra da precisão e eficácia do modelo.
Se você construiu vários modelos usando vários algoritmos, a amostra de validação também pode ajudá-lo a avaliar o modelo que melhor se destaca.
Certifique-se de verificar novamente o seu trabalho desenvolvendo e testando o modelo. Em particular, seja cético se o desempenho ou a precisão do modelo parecerem muito bom para ser verdade. Podem acontecer erros onde você menos espera. O cálculo incorreto de datas para dados de séries temporais, por exemplo, pode levar a resultados errados.
Como empregar a validação cruzada
A validação cruzada é uma técnica popular que você pode usar para avaliar e validar seu modelo. O mesmo princípio de usar conjuntos de dados separados para testes e treinamento aplica-se aqui: os dados de treinamento são usados para construir o modelo; O modelo é executado contra o conjunto de testes para prever os dados que não viu antes, o que é uma forma de avaliar sua precisão.
Na validação cruzada, os dados históricos são divididos em números X de subconjuntos. Cada vez que um subconjunto é escolhido para ser usado como dados de teste, o resto dos subconjuntos são usados como dados de treinamento. Então, na próxima corrida, o antigo conjunto de testes torna-se um dos conjuntos de treinamento e um dos primeiros conjuntos de treinamento torna-se o conjunto de testes.
O processo continua até que cada subconjunto desse número X de conjuntos tenha sido usado como um conjunto de teste.
Por exemplo, imagine que você tenha um conjunto de dados que você dividiu em 5 conjuntos numerados de 1 a 5. Na primeira execução, você usa o conjunto 1 como o conjunto de teste e use os conjuntos 2, 3, 4 e 5 como o conjunto de treinamento.Então, na segunda corrida, você usa o conjunto 2 como o conjunto de teste e define 1, 3, 4 e 5 como conjunto de treinamento.
Você continua esse processo até que todos os subconjuntos dos 5 conjuntos tenham sido usados como um conjunto de testes.
A validação cruzada permite que você use todos os pontos de dados em seus dados históricos para treinamento e teste. Esta técnica é mais eficaz do que simplesmente dividir seus dados históricos em dois conjuntos, usando o conjunto com a maioria dos dados para o treinamento, usando o outro conjunto para testes e deixando isso.
Quando você valida a cruzar seus dados, você está se protegendo contra a escolha aleatória de dados de teste que é muito fácil de prever - o que lhe daria a falsa impressão de que seu modelo é exato. Ou, se você escolher dados de teste que é muito difícil de prever, você pode falsamente concluir que seu modelo não está funcionando como você esperava.
A validação cruzada é amplamente utilizada não só para validar a precisão dos modelos, mas também para comparar o desempenho de vários modelos.
Como equilibrar o viés e a variância
O viés e a variância são duas fontes de erros que podem ocorrer enquanto você está construindo seu modelo analítico.
Bias é o resultado da construção de um modelo que simplifica significativamente a apresentação das relações entre pontos de dados nos dados históricos usados para construir o modelo.
Variance é o resultado da construção de um modelo que é explicitamente específico para os dados usados para construir o modelo.
Conseguir um equilíbrio entre viés e variância - reduzindo a variância e tolerando algum viés - pode levar a um modelo preditivo melhor. Esse trade-off geralmente leva a construir modelos preditivos menos complexos.
Muitos algoritmos de mineração de dados foram criados para levar em consideração este trade-off entre viés e variância.
Como solucionar problemas de idéias
Quando você está testando seu modelo e você não está indo a lugar algum, aqui estão algumas idéias a serem consideradas que podem ajudá-lo a voltar à pista:
-
Verifique sempre o seu trabalho. Você pode ter negligenciado algo que você supôs estar correto, mas não. Tais falhas podem aparecer (por exemplo) entre os valores de uma variável preditiva no seu conjunto de dados ou no pré-processamento que você aplicou aos dados.
-
Se o algoritmo escolhido não estiver produzindo nenhum resultado, tente outro algoritmo. Por exemplo, você tenta vários algoritmos de classificação disponíveis e, dependendo dos seus dados e dos objetivos comerciais do seu modelo, um desses pode apresentar melhor desempenho do que os outros.
-
Tente selecionar variáveis diferentes ou criar novas variáveis derivadas. Esteja sempre à procura de variáveis que tenham poderes de previsão.
-
Consulte com frequência os especialistas em domínio comercial que podem ajudá-lo a entender os dados, selecionar variáveis e interpretar os resultados do modelo.