Índice:
Vídeo: Getting Started with Orange 06: Making Predictions 2024
Curve fitting é um processo usado na análise preditiva em que o objetivo é criar uma curva que descreve a função matemática que melhor se adapta aos pontos de dados reais (originais) em uma série de dados.
A curva pode passar por cada ponto de dados ou ficar dentro da maior parte dos dados, ignorando alguns pontos de dados na esperança de desenhar tendências a partir dos dados. Em ambos os casos, uma única função matemática é atribuída a todo o corpo de dados, com o objetivo de ajustar todos os pontos de dados em uma curva que delinee as tendências e prevê a previsão.
O encaixe da curva pode ser alcançado de uma das três maneiras:
-
Ao encontrar um ajuste exato para cada ponto de dados (um processo chamado interpolação )
-
Ao permanecer dentro a maior parte dos dados, ignorando alguns pontos de dados na esperança de desenhar tendências fora dos dados
-
Ao empregar o suavização de dados para criar uma função que represente o gráfico suavizado
O encaixe de curva pode ser usado para preencher possíveis pontos de dados para substituir os valores em falta ou ajudar os analistas a visualizar os dados.
Quando você está trabalhando para gerar um modelo de análise preditiva, evite adaptar seu modelo para se adequar perfeitamente à sua amostra de dados. Esse modelo falhará - miseravelmente - para prever conjuntos de dados similares, porém variados, fora da amostra de dados. Ajustar um modelo muito próximo a uma amostra de dados específica é um erro clássico chamado superação .
Os problemas de superação
Em essência, superar um modelo é o que acontece quando você supera o modelo para representar apenas seus dados de amostra - o que não é uma boa representação dos dados como um todo. Sem um conjunto de dados mais realista para continuar, o modelo pode ser atormentado com erros e riscos quando ele fica operacional - e as conseqüências para o seu negócio podem ser graves.
A superposição de um modelo é uma armadilha comum, porque as pessoas querem criar modelos que funcionam - e por isso estão tentados a manter as variáveis e os parâmetros até o modelo funcionar perfeitamente - em dados muito pequenos. Errar é humano. Felizmente, também é humano para criar soluções realistas.
Para evitar a sobreposição do modelo ao seu conjunto de dados de amostra, certifique-se de ter um conjunto de dados de teste disponíveis que sejam separados dos dados da amostra. Então você pode medir o desempenho do seu modelo independentemente antes de tornar o modelo operacional.
Assim, uma proteção geral contra a superposição é dividir seus dados em duas partes: dados de treinamento e dados de teste. O desempenho do modelo em relação aos dados do teste irá dizer-lhe muito sobre se o modelo está pronto para o mundo real.
Outra prática recomendada é garantir que seus dados representem a maior população do domínio para o qual você está modelando. Todo um modelo superado conhece é as características específicas do conjunto de dados de amostra para o qual foi treinado. Se você treinar o modelo apenas nas vendas de raquetes de neve (digamos) no inverno, não se surpreenda se ele falhar miseravelmente quando é executado novamente em dados de qualquer outra estação.
Como evitar a sobreposição
Vale a pena repetir: o ajuste demais do modelo pode resultar em superposição. Um desses ajustes é incluir muitas variáveis na análise. Mantenha essas variáveis ao mínimo. Somente inclua variáveis que você vê como absolutamente necessárias - aqueles que você acredita irão fazer uma diferença significativa no resultado.
Esta visão só vem do conhecimento íntimo do domínio de negócios em que você está. É aí que a experiência de especialistas em domínio pode ajudá-lo a cair na armadilha da superposição.
Aqui está uma lista de verificação das melhores práticas para ajudá-lo a evitar a superação de seu modelo:
-
Escolha um conjunto de dados com o qual é representativo da população como um todo.
-
Divida seu conjunto de dados para duas partes: dados de treinamento e dados de teste.
-
Mantenha as variáveis analisadas para um mínimo saudável para a tarefa em questão.
-
Solicite a ajuda de especialistas em conhecimento de domínio.
No mercado de ações, por exemplo, uma técnica analítica clássica é back-testing - executando um modelo contra dados históricos para procurar a melhor estratégia de negociação.
Suponha que, depois de executar seu novo modelo contra os dados gerados por um mercado de touro recente e ajustar o número de variáveis usadas em sua análise, o analista cria o que parece uma estratégia de negociação ideal - um que produza os retornos mais altos < se ele poderia voltar e trocar apenas durante o ano que produziu os dados do teste. Infelizmente, ele não pode. Se ele tenta aplicar esse modelo em um mercado urso atual, veja abaixo: Ele sofrerá perdas aplicando um modelo muito otimizado por um período de tempo estreito e um conjunto de condições que não se encaixam nas realidades atuais. (Tanto para lucros hipotéticos.)
O modelo funcionou apenas para esse mercado vitorioso desaparecido porque foi superado, com as referências do contexto que produziu os dados da amostra - completos com seus específicos, outliers e deficiências. Todas as circunstâncias que envolvem esse conjunto de dados provavelmente não serão repetidas no futuro, ou em uma verdadeira representação de toda a população - mas todos apareceram no modelo superado.
Se a saída de um modelo for muito precisa, considere uma sugestão para se aproximar. Procure a ajuda de especialistas em conhecimento de domínio para ver se seus resultados realmente são muito bons para ser verdade, e execute esse modelo em mais dados de teste para futuras comparações.