Vídeo: Machine Learning e Analise Preditiva 2024
A regressão linear é um método estatístico que analisa e encontra relações entre duas variáveis. Na análise preditiva, ele pode ser usado para prever um futuro valor numérico de uma variável.
Considere um exemplo de dados que contém duas variáveis: dados passados consistindo nos tempos de chegada de um trem e seu tempo de atraso correspondente. Suponha que você queira prever o atraso para o próximo trem. Se você aplicar regressão linear a essas duas variáveis - os tempos de chegada e atraso - você pode gerar uma equação linear, como
Atraso = a + (b * Hora de chegada) + d
Esta equação expressa a relação entre tempo de atraso e hora de chegada. As constantes a e b são os parâmetros do modelo. A variável d é o termo de erro (também conhecido como restante ) - um valor numérico que representa a falta de correspondência entre as duas variáveis atraso > e tempo de chegada . Se o erro não for igual a zero, isso pode indicar que existem critérios que afetam a variável atraso .
a, b e d . A regressão linear é (como você pode imaginar) mais adequada para dados lineares. Mas é muito sensível a outliers nos pontos de dados. Os valores abertos em seus dados podem ter um impacto significativo no modelo. Recomenda-se que você remova esses outliers do conjunto de treinamento se você estiver planejando usar a regressão linear para seu modelo preditivo.