Vídeo: Variáveis Dummy, o que são e como utilizá-las para estimar modelos com maior acurácia no Stata 2024
Em análise supervisionada, ambas as entradas e o resultado preferido são parte dos dados de treinamento. O modelo de análise preditiva apresenta os resultados corretos como parte de seu processo de aprendizagem. Esse aprendizado supervisionado assume exemplos pré-classificados: o objetivo é obter o modelo de aprender da classificação anteriormente conhecida para que ele possa rotular corretamente o próximo ponto de dados desconhecido com base no que aprendeu.
Quando o treinamento do modelo é completo, uma função matemática é inferida examinando os dados de treinamento. Essa função será usada para rotular novos pontos de dados.
Para que esta abordagem funcione corretamente, os dados de treinamento - juntamente com os dados do teste - devem ser cuidadosamente selecionados. O modelo treinado deve poder prever o rótulo correto para um novo ponto de dados de forma rápida e precisa, com base nos tipos de dados que o modelo viu nos dados de treinamento.
As análises supervisionadas oferecem algumas vantagens distintas:
-
O analista é responsável pelo processo.
-
A rotulagem baseia-se em classificações conhecidas.
-
Os erros de rotulagem podem ser facilmente resolvidos.
O outro lado dessas vantagens é um conjunto de desvantagens potencialmente distintas:
-
Qualquer erro na fase de treinamento será reforçado mais tarde.
-
A classificação fornecida pelo analista pode não descrever a população total de forma adequada.
-
O modelo pode não conseguir detectar classes que se desviem do conjunto de treinamento original.
-
A suposição de que os clusters dentro dos dados não se sobrepõem - e que podem ser facilmente separados - pode não se revelar válido.