Lar Finanças Pessoais Como testar o modelo de análise preditiva - dummies

Como testar o modelo de análise preditiva - dummies

Índice:

Vídeo: Cap09 - O Que é Um Modelo Preditivo - Parte 1 2024

Vídeo: Cap09 - O Que é Um Modelo Preditivo - Parte 1 2024
Anonim

Para poder testar o modelo de análise preditiva que você construiu, você precisa dividir seu conjunto de dados em dois conjuntos: treinamento e testes de conjuntos de dados. Esses conjuntos de dados devem ser selecionados aleatoriamente e devem ser uma boa representação da população atual.

  • Dados similares devem ser usados ​​tanto para os conjuntos de dados de treinamento como de teste.

  • Normalmente, o conjunto de dados de treinamento é significativamente maior do que o conjunto de dados de teste.

  • O uso do conjunto de dados de teste ajuda a evitar erros, como a sobreposição.

  • O modelo treinado é executado contra dados de teste para ver o desempenho do modelo.

Alguns cientistas de dados preferem ter um terceiro conjunto de dados que tenha características semelhantes às dos dois primeiros: um conjunto de dados de validação . A idéia é que, se você estiver usando ativamente seus dados de teste para refinar seu modelo, você deve usar um conjunto separado (terceiro) para verificar a precisão do modelo.

Ter um conjunto de dados de validação, que não foi usado como parte do processo de desenvolvimento do seu modelo, ajuda a garantir uma estimativa neutra da precisão e eficácia do modelo.

Se você construiu vários modelos usando vários algoritmos, a amostra de validação também pode ajudá-lo a avaliar o modelo que melhor se destaca.

Certifique-se de verificar novamente o seu trabalho desenvolvendo e testando o modelo. Em particular, seja cético se o desempenho ou a precisão do modelo parecerem muito bom para ser verdade. Podem acontecer erros onde você menos espera. O cálculo incorreto de datas para dados de séries temporais, por exemplo, pode levar a resultados errados.

Como empregar a validação cruzada

A validação cruzada é uma técnica popular que você pode usar para avaliar e validar seu modelo. O mesmo princípio de usar conjuntos de dados separados para testes e treinamento aplica-se aqui: os dados de treinamento são usados ​​para construir o modelo; O modelo é executado contra o conjunto de testes para prever os dados que não viu antes, o que é uma forma de avaliar sua precisão.

Na validação cruzada, os dados históricos são divididos em números X de subconjuntos. Cada vez que um subconjunto é escolhido para ser usado como dados de teste, o resto dos subconjuntos são usados ​​como dados de treinamento. Então, na próxima corrida, o antigo conjunto de testes torna-se um dos conjuntos de treinamento e um dos primeiros conjuntos de treinamento torna-se o conjunto de testes.

O processo continua até que cada subconjunto desse número X de conjuntos tenha sido usado como um conjunto de teste.

Por exemplo, imagine que você tenha um conjunto de dados que você dividiu em 5 conjuntos numerados de 1 a 5. Na primeira execução, você usa o conjunto 1 como o conjunto de teste e use os conjuntos 2, 3, 4 e 5 como o conjunto de treinamento.Então, na segunda corrida, você usa o conjunto 2 como o conjunto de teste e define 1, 3, 4 e 5 como conjunto de treinamento.

Você continua esse processo até que todos os subconjuntos dos 5 conjuntos tenham sido usados ​​como um conjunto de testes.

A validação cruzada permite que você use todos os pontos de dados em seus dados históricos para treinamento e teste. Esta técnica é mais eficaz do que simplesmente dividir seus dados históricos em dois conjuntos, usando o conjunto com a maioria dos dados para o treinamento, usando o outro conjunto para testes e deixando isso.

Quando você valida a cruzar seus dados, você está se protegendo contra a escolha aleatória de dados de teste que é muito fácil de prever - o que lhe daria a falsa impressão de que seu modelo é exato. Ou, se você escolher dados de teste que é muito difícil de prever, você pode falsamente concluir que seu modelo não está funcionando como você esperava.

A validação cruzada é amplamente utilizada não só para validar a precisão dos modelos, mas também para comparar o desempenho de vários modelos.

Como equilibrar o viés e a variância

O viés e a variância são duas fontes de erros que podem ocorrer enquanto você está construindo seu modelo analítico.

Bias é o resultado da construção de um modelo que simplifica significativamente a apresentação das relações entre pontos de dados nos dados históricos usados ​​para construir o modelo.

Variance é o resultado da construção de um modelo que é explicitamente específico para os dados usados ​​para construir o modelo.

Conseguir um equilíbrio entre viés e variância - reduzindo a variância e tolerando algum viés - pode levar a um modelo preditivo melhor. Esse trade-off geralmente leva a construir modelos preditivos menos complexos.

Muitos algoritmos de mineração de dados foram criados para levar em consideração este trade-off entre viés e variância.

Como solucionar problemas de idéias

Quando você está testando seu modelo e você não está indo a lugar algum, aqui estão algumas idéias a serem consideradas que podem ajudá-lo a voltar à pista:

  • Verifique sempre o seu trabalho. Você pode ter negligenciado algo que você supôs estar correto, mas não. Tais falhas podem aparecer (por exemplo) entre os valores de uma variável preditiva no seu conjunto de dados ou no pré-processamento que você aplicou aos dados.

  • Se o algoritmo escolhido não estiver produzindo nenhum resultado, tente outro algoritmo. Por exemplo, você tenta vários algoritmos de classificação disponíveis e, dependendo dos seus dados e dos objetivos comerciais do seu modelo, um desses pode apresentar melhor desempenho do que os outros.

  • Tente selecionar variáveis ​​diferentes ou criar novas variáveis ​​derivadas. Esteja sempre à procura de variáveis ​​que tenham poderes de previsão.

  • Consulte com frequência os especialistas em domínio comercial que podem ajudá-lo a entender os dados, selecionar variáveis ​​e interpretar os resultados do modelo.

Como testar o modelo de análise preditiva - dummies

Escolha dos editores

Origem e Design de Hadoop - dummies

Origem e Design de Hadoop - dummies

Então, o que é exatamente isso com o nome engraçado - Hadoop? No seu núcleo, o Hadoop é uma estrutura para armazenar dados em grandes clusters de hardware de commodities - hardware de computador todos os dias acessível e facilmente disponível - e executando aplicativos contra esses dados. Um cluster é um grupo de computadores interligados (conhecido como ...

A arquitetura do porco em Hadoop - dummies

A arquitetura do porco em Hadoop - dummies

"Simples" geralmente significa "elegante" quando se trata de desenhos arquitetônicos para Essa nova mansão do Vale do Silício que você planejou quando o dinheiro começa a rolar depois de implementar o Hadoop. O mesmo princípio se aplica à arquitetura de software. O porco é composto por dois componentes (count 'em, two): O próprio idioma: como prova de que os programadores ...

MapReduce Application Flow em Hadoop - dummies

MapReduce Application Flow em Hadoop - dummies

No seu núcleo, MapReduce é um modelo de programação para o processamento de conjuntos de dados que são armazenados de forma distribuída nos nós de escravo de um cluster Hadoop. O conceito-chave aqui é dividir e conquistar. Especificamente, você deseja quebrar um grande conjunto de dados em muitas peças menores e processá-las em paralelo com o mesmo algoritmo. ...

Escolha dos editores

Apoiando a sua campanha PPC com análise de palavras-chave - manequins

Apoiando a sua campanha PPC com análise de palavras-chave - manequins

A base de todo o trabalho do mecanismo de pesquisa é uma análise de palavras-chave. Fazer uma análise de palavras-chave realmente não é tão complicado e pode significar a diferença entre sucesso e falha em sua campanha PPC. Comece digitando as palavras-chave óbvias em um editor de texto ou processador de texto - aqueles que você já pensou ou, se você ...

Envie seu site para Yahoo! Search Directory - dummies

Envie seu site para Yahoo! Search Directory - dummies

Envios para o Yahoo! O diretório costumava ser muito difícil. Pesquisas mostraram que as pessoas que conseguiram obter seus sites listados no diretório tiveram que tentar várias vezes em questão de meses. Era grátis, mas era um aborrecimento. A boa notícia: você pode obter seu site listado em Yahoo! Diretório ...

Dicas para criar e otimizar conteúdo para objetos e indústrias difíceis - manequins

Dicas para criar e otimizar conteúdo para objetos e indústrias difíceis - manequins

Em A superfície, a criação de conteúdo não soa tão difícil até você se sentar e tentar escrever. Sua estratégia de SEO depende desse conteúdo. É ainda pior se você estiver escrevendo conteúdo para o que muitas pessoas podem considerar uma indústria chata. A boa notícia é que é possível transformar indivíduos potencialmente chatos em bons ...

Escolha dos editores

Componentes eletrônicos: transistores como um potenciômetro mágico - manequins

Componentes eletrônicos: transistores como um potenciômetro mágico - manequins

Um transistor dentro de um O circuito eletrônico funciona como uma combinação de um diodo e um resistor variável, também chamado de potenciômetro ou pote. Mas isso não é apenas um pote comum; é um pote mágico cujo botão é misteriosamente conectado ao diodo por raios invisíveis, tipo desse tipo: quando a tensão direta é aplicada em ...

Componentes eletrônicos: Resistores - manequins

Componentes eletrônicos: Resistores - manequins

Um resistor é um pequeno componente projetado para fornecer um específico quantidade de resistência em um circuito eletrônico. Como a resistência é um elemento essencial de quase todos os circuitos eletrônicos, você usará resistores em quase todos os circuitos que você constrói. Embora os resistores venham em uma variedade de tamanhos e formas, o tipo mais comum ...