Lar Finanças Pessoais Como usar Curve Fitting in Predictive Analytics - dummies

Como usar Curve Fitting in Predictive Analytics - dummies

Índice:

Vídeo: Getting Started with Orange 06: Making Predictions 2024

Vídeo: Getting Started with Orange 06: Making Predictions 2024
Anonim

Curve fitting é um processo usado na análise preditiva em que o objetivo é criar uma curva que descreve a função matemática que melhor se adapta aos pontos de dados reais (originais) em uma série de dados.

A curva pode passar por cada ponto de dados ou ficar dentro da maior parte dos dados, ignorando alguns pontos de dados na esperança de desenhar tendências a partir dos dados. Em ambos os casos, uma única função matemática é atribuída a todo o corpo de dados, com o objetivo de ajustar todos os pontos de dados em uma curva que delinee as tendências e prevê a previsão.

O encaixe da curva pode ser alcançado de uma das três maneiras:

  • Ao encontrar um ajuste exato para cada ponto de dados (um processo chamado interpolação )

  • Ao permanecer dentro a maior parte dos dados, ignorando alguns pontos de dados na esperança de desenhar tendências fora dos dados

  • Ao empregar o suavização de dados para criar uma função que represente o gráfico suavizado

O encaixe de curva pode ser usado para preencher possíveis pontos de dados para substituir os valores em falta ou ajudar os analistas a visualizar os dados.

Quando você está trabalhando para gerar um modelo de análise preditiva, evite adaptar seu modelo para se adequar perfeitamente à sua amostra de dados. Esse modelo falhará - miseravelmente - para prever conjuntos de dados similares, porém variados, fora da amostra de dados. Ajustar um modelo muito próximo a uma amostra de dados específica é um erro clássico chamado superação .

Os problemas de superação

Em essência, superar um modelo é o que acontece quando você supera o modelo para representar apenas seus dados de amostra - o que não é uma boa representação dos dados como um todo. Sem um conjunto de dados mais realista para continuar, o modelo pode ser atormentado com erros e riscos quando ele fica operacional - e as conseqüências para o seu negócio podem ser graves.

A superposição de um modelo é uma armadilha comum, porque as pessoas querem criar modelos que funcionam - e por isso estão tentados a manter as variáveis ​​e os parâmetros até o modelo funcionar perfeitamente - em dados muito pequenos. Errar é humano. Felizmente, também é humano para criar soluções realistas.

Para evitar a sobreposição do modelo ao seu conjunto de dados de amostra, certifique-se de ter um conjunto de dados de teste disponíveis que sejam separados dos dados da amostra. Então você pode medir o desempenho do seu modelo independentemente antes de tornar o modelo operacional.

Assim, uma proteção geral contra a superposição é dividir seus dados em duas partes: dados de treinamento e dados de teste. O desempenho do modelo em relação aos dados do teste irá dizer-lhe muito sobre se o modelo está pronto para o mundo real.

Outra prática recomendada é garantir que seus dados representem a maior população do domínio para o qual você está modelando. Todo um modelo superado conhece é as características específicas do conjunto de dados de amostra para o qual foi treinado. Se você treinar o modelo apenas nas vendas de raquetes de neve (digamos) no inverno, não se surpreenda se ele falhar miseravelmente quando é executado novamente em dados de qualquer outra estação.

Como evitar a sobreposição

Vale a pena repetir: o ajuste demais do modelo pode resultar em superposição. Um desses ajustes é incluir muitas variáveis ​​na análise. Mantenha essas variáveis ​​ao mínimo. Somente inclua variáveis ​​que você vê como absolutamente necessárias - aqueles que você acredita irão fazer uma diferença significativa no resultado.

Esta visão só vem do conhecimento íntimo do domínio de negócios em que você está. É aí que a experiência de especialistas em domínio pode ajudá-lo a cair na armadilha da superposição.

Aqui está uma lista de verificação das melhores práticas para ajudá-lo a evitar a superação de seu modelo:

  • Escolha um conjunto de dados com o qual é representativo da população como um todo.

  • Divida seu conjunto de dados para duas partes: dados de treinamento e dados de teste.

  • Mantenha as variáveis ​​analisadas para um mínimo saudável para a tarefa em questão.

  • Solicite a ajuda de especialistas em conhecimento de domínio.

No mercado de ações, por exemplo, uma técnica analítica clássica é back-testing - executando um modelo contra dados históricos para procurar a melhor estratégia de negociação.

Suponha que, depois de executar seu novo modelo contra os dados gerados por um mercado de touro recente e ajustar o número de variáveis ​​usadas em sua análise, o analista cria o que parece uma estratégia de negociação ideal - um que produza os retornos mais altos < se ele poderia voltar e trocar apenas durante o ano que produziu os dados do teste. Infelizmente, ele não pode. Se ele tenta aplicar esse modelo em um mercado urso atual, veja abaixo: Ele sofrerá perdas aplicando um modelo muito otimizado por um período de tempo estreito e um conjunto de condições que não se encaixam nas realidades atuais. (Tanto para lucros hipotéticos.)

O modelo funcionou apenas para esse mercado vitorioso desaparecido porque foi superado, com as referências do contexto que produziu os dados da amostra - completos com seus específicos, outliers e deficiências. Todas as circunstâncias que envolvem esse conjunto de dados provavelmente não serão repetidas no futuro, ou em uma verdadeira representação de toda a população - mas todos apareceram no modelo superado.

Se a saída de um modelo for muito precisa, considere uma sugestão para se aproximar. Procure a ajuda de especialistas em conhecimento de domínio para ver se seus resultados realmente são muito bons para ser verdade, e execute esse modelo em mais dados de teste para futuras comparações.

Como usar Curve Fitting in Predictive Analytics - dummies

Escolha dos editores

Origem e Design de Hadoop - dummies

Origem e Design de Hadoop - dummies

Então, o que é exatamente isso com o nome engraçado - Hadoop? No seu núcleo, o Hadoop é uma estrutura para armazenar dados em grandes clusters de hardware de commodities - hardware de computador todos os dias acessível e facilmente disponível - e executando aplicativos contra esses dados. Um cluster é um grupo de computadores interligados (conhecido como ...

A arquitetura do porco em Hadoop - dummies

A arquitetura do porco em Hadoop - dummies

"Simples" geralmente significa "elegante" quando se trata de desenhos arquitetônicos para Essa nova mansão do Vale do Silício que você planejou quando o dinheiro começa a rolar depois de implementar o Hadoop. O mesmo princípio se aplica à arquitetura de software. O porco é composto por dois componentes (count 'em, two): O próprio idioma: como prova de que os programadores ...

MapReduce Application Flow em Hadoop - dummies

MapReduce Application Flow em Hadoop - dummies

No seu núcleo, MapReduce é um modelo de programação para o processamento de conjuntos de dados que são armazenados de forma distribuída nos nós de escravo de um cluster Hadoop. O conceito-chave aqui é dividir e conquistar. Especificamente, você deseja quebrar um grande conjunto de dados em muitas peças menores e processá-las em paralelo com o mesmo algoritmo. ...

Escolha dos editores

Apoiando a sua campanha PPC com análise de palavras-chave - manequins

Apoiando a sua campanha PPC com análise de palavras-chave - manequins

A base de todo o trabalho do mecanismo de pesquisa é uma análise de palavras-chave. Fazer uma análise de palavras-chave realmente não é tão complicado e pode significar a diferença entre sucesso e falha em sua campanha PPC. Comece digitando as palavras-chave óbvias em um editor de texto ou processador de texto - aqueles que você já pensou ou, se você ...

Envie seu site para Yahoo! Search Directory - dummies

Envie seu site para Yahoo! Search Directory - dummies

Envios para o Yahoo! O diretório costumava ser muito difícil. Pesquisas mostraram que as pessoas que conseguiram obter seus sites listados no diretório tiveram que tentar várias vezes em questão de meses. Era grátis, mas era um aborrecimento. A boa notícia: você pode obter seu site listado em Yahoo! Diretório ...

Dicas para criar e otimizar conteúdo para objetos e indústrias difíceis - manequins

Dicas para criar e otimizar conteúdo para objetos e indústrias difíceis - manequins

Em A superfície, a criação de conteúdo não soa tão difícil até você se sentar e tentar escrever. Sua estratégia de SEO depende desse conteúdo. É ainda pior se você estiver escrevendo conteúdo para o que muitas pessoas podem considerar uma indústria chata. A boa notícia é que é possível transformar indivíduos potencialmente chatos em bons ...

Escolha dos editores

Componentes eletrônicos: transistores como um potenciômetro mágico - manequins

Componentes eletrônicos: transistores como um potenciômetro mágico - manequins

Um transistor dentro de um O circuito eletrônico funciona como uma combinação de um diodo e um resistor variável, também chamado de potenciômetro ou pote. Mas isso não é apenas um pote comum; é um pote mágico cujo botão é misteriosamente conectado ao diodo por raios invisíveis, tipo desse tipo: quando a tensão direta é aplicada em ...

Componentes eletrônicos: Resistores - manequins

Componentes eletrônicos: Resistores - manequins

Um resistor é um pequeno componente projetado para fornecer um específico quantidade de resistência em um circuito eletrônico. Como a resistência é um elemento essencial de quase todos os circuitos eletrônicos, você usará resistores em quase todos os circuitos que você constrói. Embora os resistores venham em uma variedade de tamanhos e formas, o tipo mais comum ...