Lar Finanças Pessoais Como usar Curve Fitting in Predictive Analytics - dummies

Como usar Curve Fitting in Predictive Analytics - dummies

Índice:

Vídeo: Getting Started with Orange 06: Making Predictions 2025

Vídeo: Getting Started with Orange 06: Making Predictions 2025
Anonim

Curve fitting é um processo usado na análise preditiva em que o objetivo é criar uma curva que descreve a função matemática que melhor se adapta aos pontos de dados reais (originais) em uma série de dados.

A curva pode passar por cada ponto de dados ou ficar dentro da maior parte dos dados, ignorando alguns pontos de dados na esperança de desenhar tendências a partir dos dados. Em ambos os casos, uma única função matemática é atribuída a todo o corpo de dados, com o objetivo de ajustar todos os pontos de dados em uma curva que delinee as tendências e prevê a previsão.

O encaixe da curva pode ser alcançado de uma das três maneiras:

  • Ao encontrar um ajuste exato para cada ponto de dados (um processo chamado interpolação )

  • Ao permanecer dentro a maior parte dos dados, ignorando alguns pontos de dados na esperança de desenhar tendências fora dos dados

  • Ao empregar o suavização de dados para criar uma função que represente o gráfico suavizado

O encaixe de curva pode ser usado para preencher possíveis pontos de dados para substituir os valores em falta ou ajudar os analistas a visualizar os dados.

Quando você está trabalhando para gerar um modelo de análise preditiva, evite adaptar seu modelo para se adequar perfeitamente à sua amostra de dados. Esse modelo falhará - miseravelmente - para prever conjuntos de dados similares, porém variados, fora da amostra de dados. Ajustar um modelo muito próximo a uma amostra de dados específica é um erro clássico chamado superação .

Os problemas de superação

Em essência, superar um modelo é o que acontece quando você supera o modelo para representar apenas seus dados de amostra - o que não é uma boa representação dos dados como um todo. Sem um conjunto de dados mais realista para continuar, o modelo pode ser atormentado com erros e riscos quando ele fica operacional - e as conseqüências para o seu negócio podem ser graves.

A superposição de um modelo é uma armadilha comum, porque as pessoas querem criar modelos que funcionam - e por isso estão tentados a manter as variáveis ​​e os parâmetros até o modelo funcionar perfeitamente - em dados muito pequenos. Errar é humano. Felizmente, também é humano para criar soluções realistas.

Para evitar a sobreposição do modelo ao seu conjunto de dados de amostra, certifique-se de ter um conjunto de dados de teste disponíveis que sejam separados dos dados da amostra. Então você pode medir o desempenho do seu modelo independentemente antes de tornar o modelo operacional.

Assim, uma proteção geral contra a superposição é dividir seus dados em duas partes: dados de treinamento e dados de teste. O desempenho do modelo em relação aos dados do teste irá dizer-lhe muito sobre se o modelo está pronto para o mundo real.

Outra prática recomendada é garantir que seus dados representem a maior população do domínio para o qual você está modelando. Todo um modelo superado conhece é as características específicas do conjunto de dados de amostra para o qual foi treinado. Se você treinar o modelo apenas nas vendas de raquetes de neve (digamos) no inverno, não se surpreenda se ele falhar miseravelmente quando é executado novamente em dados de qualquer outra estação.

Como evitar a sobreposição

Vale a pena repetir: o ajuste demais do modelo pode resultar em superposição. Um desses ajustes é incluir muitas variáveis ​​na análise. Mantenha essas variáveis ​​ao mínimo. Somente inclua variáveis ​​que você vê como absolutamente necessárias - aqueles que você acredita irão fazer uma diferença significativa no resultado.

Esta visão só vem do conhecimento íntimo do domínio de negócios em que você está. É aí que a experiência de especialistas em domínio pode ajudá-lo a cair na armadilha da superposição.

Aqui está uma lista de verificação das melhores práticas para ajudá-lo a evitar a superação de seu modelo:

  • Escolha um conjunto de dados com o qual é representativo da população como um todo.

  • Divida seu conjunto de dados para duas partes: dados de treinamento e dados de teste.

  • Mantenha as variáveis ​​analisadas para um mínimo saudável para a tarefa em questão.

  • Solicite a ajuda de especialistas em conhecimento de domínio.

No mercado de ações, por exemplo, uma técnica analítica clássica é back-testing - executando um modelo contra dados históricos para procurar a melhor estratégia de negociação.

Suponha que, depois de executar seu novo modelo contra os dados gerados por um mercado de touro recente e ajustar o número de variáveis ​​usadas em sua análise, o analista cria o que parece uma estratégia de negociação ideal - um que produza os retornos mais altos < se ele poderia voltar e trocar apenas durante o ano que produziu os dados do teste. Infelizmente, ele não pode. Se ele tenta aplicar esse modelo em um mercado urso atual, veja abaixo: Ele sofrerá perdas aplicando um modelo muito otimizado por um período de tempo estreito e um conjunto de condições que não se encaixam nas realidades atuais. (Tanto para lucros hipotéticos.)

O modelo funcionou apenas para esse mercado vitorioso desaparecido porque foi superado, com as referências do contexto que produziu os dados da amostra - completos com seus específicos, outliers e deficiências. Todas as circunstâncias que envolvem esse conjunto de dados provavelmente não serão repetidas no futuro, ou em uma verdadeira representação de toda a população - mas todos apareceram no modelo superado.

Se a saída de um modelo for muito precisa, considere uma sugestão para se aproximar. Procure a ajuda de especialistas em conhecimento de domínio para ver se seus resultados realmente são muito bons para ser verdade, e execute esse modelo em mais dados de teste para futuras comparações.

Como usar Curve Fitting in Predictive Analytics - dummies

Escolha dos editores

Fontes de dados dos governos estaduais e locais dos EUA - manequins

Fontes de dados dos governos estaduais e locais dos EUA - manequins

Encontrando os dados que você precisa dos governos estaduais e locais pode ser muito desafiador. Alguns estados estão mais interessados ​​em compartilhar dados do que outros. Você não pode contar com todos os governos estaduais ou locais para ter um portal de dados aberto ou para encontrar alguém no governo local para ajudá-lo a encontrar o que você precisa ou ...

Elementos adicionados aos Filtros Bloom - dummies

Elementos adicionados aos Filtros Bloom - dummies

Geralmente, você cria filtros Bloom para algoritmos de tamanho fixo (versões desenvolvidas recentemente Permite-lhe redimensionar o filtro). Você os opera adicionando novos elementos ao filtro e procurando-os quando já estiver presente. Não é possível remover um elemento do filtro depois de adicioná-lo (o filtro tem um indelével ...

Abordagens diferentes para grande análise de dados - manequins

Abordagens diferentes para grande análise de dados - manequins

Em muitos casos, a grande análise de dados será representada para o usuário final através de relatórios e visualizações. Como os dados brutos podem ser incompreensivamente variados, você terá que contar com ferramentas e técnicas de análise para ajudar a apresentar os dados de maneiras significativas. Novas aplicações estão disponíveis e serão abrangidas em duas categorias: ...

Escolha dos editores

Como a pesquisa local funciona? - Dummies

Como a pesquisa local funciona? - Dummies

A pesquisa local baseia-se em várias metodologias diferentes, incluindo a ciência conhecida como geolocalização, a ciência de tentar descobrir onde é que o computador é, geograficamente falando. Como o motor de busca descobre se um computador está no Colorado ou na Flórida? Bem, a pesquisa local geralmente funciona de algumas maneiras básicas. Diferente ...

Como adicionar sua empresa a um mecanismo de busca - manequins

Como adicionar sua empresa a um mecanismo de busca - manequins

Para obter o seu negócios em uma pesquisa local, você deve começar no mecanismo de pesquisa em si. O mecanismo de pesquisa mostra onde você já está nos resultados locais e, a partir daí, você pode pegar o controle de sua lista atual ou adicionar um novo.

Escolha dos editores

Como montar um controlador de PC ShowTime para displays de iluminação - manequins

Como montar um controlador de PC ShowTime para displays de iluminação - manequins

Quando você está configurando uma exibição de luz de férias, você pode comprar um controlador de PC ShowTime da Light-O-Rama como um kit de bricolage, mas você terá que montá-lo sozinho. Isso significa que você terá que soldar todos os componentes na placa de circuito principal, instalar a placa no recipiente à prova de intempéries e conectar todos os vários cabos ...

Eclipse Para Dummies Cheat Sheet - dummies

Eclipse Para Dummies Cheat Sheet - dummies

O eclipse é um ambiente de desenvolvimento de código aberto e integrado e um ótimo all-in - uma ferramenta para desenvolver e executar programas de computador. Ele pode ajudá-lo com uma infinidade de projetos, especialmente em Java.

Componentes eletrônicos básicos e o que eles fazem - manequins

Componentes eletrônicos básicos e o que eles fazem - manequins

Você trabalhará com uma série de componentes eletrônicos básicos ao construir circuitos eletrônicos, incluindo resistências, capacitores, diodos, transistores e circuitos integrados. Aqui está uma breve visão geral das funções de cada um desses componentes eletrônicos básicos. Resistores Um resistor é um componente que resiste ao fluxo de corrente. É um dos mais básicos ...